AIC,BIC和L1,L2等正則化有什么區別？-個人認為

謝邀。

AIC,BIC和L1,L2分別代表的兩類不同的模型選擇思想和方法。個人認為，本質區別在于如何給數據加先驗資訊來建模，前者是基于經驗，domainknowledge；后者基于數據驅動。而從背后求解的數學模型上講，區別是背后的優化模型不同，進而導致一系列的模型選擇，應用，estimationproperty等方面的不同。

AIC，BIC代表的是基于似然估計理論和資訊理論的模型選擇方法。他們并不改變數學模型形式（但每次建模其實只包含一部分變量）。比如線性回歸的話就是無約束的優化問題來最小化squareloss。而是等模型求解完之后再基于AIC/BIC的標準選擇模型。相反地，L1/L2代表的基于罰函數的自動模型選擇方法（嚴格講L2不能自動選擇模型）改變了數學求解模型。比如線性回歸的話，改成了帶約束的優化問題（包含了所有的變量），或者等價于squaredloss加罰函數項的無約束優化問題。

而這導致的實際使用的不同點就是，基于AIC/BIC的模型選擇方法是模型擬合和選擇是兩步走的，先求解多個candidatemodels，完了之后再分別算AIC/BIC來比較做模型選擇。反之，lasso-type方法模型擬合和參數選擇可以同步完成，這也就是lasso可以做autovariableselection的優勢。另外，因為AIC/BIC的是兩步走的，我們完全可以用AIC/BIC來選擇lassotype的模型的參數（也即是選擇lasso模型）。

那為什么說本質區別在于如何加先驗資訊呢？

如GeorgeBox名言，allmodelsarewrongbutsomeareuseful.面對實際數據，我們幾乎無法找到truegeneratingmodel。建模本質上就是一個將已有的先驗資訊融入到數據進而抽象出一個模型去盡可能逼近真實模型的過程。AIC/BIC類傳統建模方法的出發點就是，我們先假定出asetofcandidatemodels，而忽略其他所有模型的可能性。這其實就隱含了我們對所有可能的變量所加的先驗資訊。這些資訊可能是來源于domainkonwledge覺得某些變量有用某些沒有，某些可能有higherordereffect，某些之間可能有interaction。這樣做的好處是，我們其實基于先驗資訊做了一遍variablepre-screening來極大降低了candidateset的size。否則給定p個變量，我們得窮舉2^p個模型（這還不考慮interaction)。這樣做的壞處是，我們很有可能忽略了真實變量而得到misspecified的模型。

而lasso-type模型是因為要處理高維數據而提出的。面對高維數據，lasso一類模型出發點是，假定已有的所有的變量的effect是基于priordistribution或structure/constraint。比如lasso是Laplaceprior,L2是高斯prior，grouplasso是假定了priorgroupstructure等。而這些prior是centeraround0，也就是說我們先驗經驗假定大部分變量估計值大概率是0，越遠離0概率越小。進一步講，這背后是高維統計里的sparsityassumption或說”betonsparsity“principle:

Useaprocedurethatdoeswellinsparseproblems,sincenoproceduredoeswellindenseproblems.

這樣做的好處是，我們可以很巧妙地將所有的變量都納入到一個數學優化模型中，讓模型自動篩選變量，讓數據說話來在所有的變量里選擇可能的重要變量。而且也可以拓展到高維超高維數據。這樣做的壞處是，我們得到的估計值是biased的，因為regularization會給變量估計值做shrinkage。

根據以上描述可以看到，從應用場景上講，AIC/BIC類方法主要適用于低維數據，特別是建模目的是做statisticalinference而非prediction的情況。而lassotype模型主要適用于高維特別是超高維數據建模。另外，AIC/BIC本身其實是模型選擇指標，所以理論上也可以用于lassotype模型的調參和選擇。之前也有看到過有paper這樣做。不過我覺得最好可能要做一些調整，因為AIC/BIC推導都有large-sampletheory的假設。

另外關于AIC和BIC，理論上講AIC是asymptoticallyefficientbutnotconsistent，意思是asymptotically它可以選到一個最小化meanpredictionsquarederror(MPSE)的模型，但不保證概率1收斂到真實模型，哪怕這個真實模型在我們考慮的candidateset中。而BIC剛好相反，理論上可以asymptotically以概率1選擇到truegeneratingmodel，當然實際中我們幾乎沒法保證我們考慮的候選模型中有一個是真實模型。但一般的指導原則是，如果更側重inference就用BIC;反之如果更側重預測就用AIC。

最后，因為統計學科本身就是dealwithuncertainty，統計建模是科學也更像藝術。具體講，統計建模就是做一個三目標優化問題：parsimony,goodness-of-fit,generalizability。parsimony強調模型簡潔性和可解釋性，因為越簡潔越好解釋（對比deeplearning的神經網路黑箱）；goodness-of-fit強調模型擬合已有數據的有效性防止欠擬合，而generalizability強調模型拓展性防止過擬合。統計建模就是在這三個competingobjectives中間做weightedtradeoff，是一個多次迭代不斷調整和完善的過程。很多時候數據就是任人打扮的小姑娘，我們依據不同的準則或模型，或哪怕無心增加或去掉一個變量，得到的模型結果可能就差別比較大。這就要求我們這些從業者能夠多從firstprinciple出發，在理解不同模型和準則的區別后來選擇合適的方法建模，然后驗證模型擬合效果，看得到的模型是否makesense。要知道調包一個函數完成一個模型擬合可能只需5分鐘，但這才是建模的真正開始。

以上拙見，希望有所幫助。歡迎探討。

AIC,BIC和L1,L2等正則化有什么區別？-個人認為

綠市集：免費活動歌頌永續生活

CT檢查免顯影劑 AI只花90秒鎖定腦傷區與體積精準即時搶救

捲假包風波！王思佳親解「不回小S留言」原因：不想拖下水

日本長野殺警案！霰彈槍射殺4人「2警1女亡」議長兒凌晨落網

網路紅什麼／汙衊老闆性騷擾！纏訟近3年千萬粉絲帳號被封小慧君嘴硬：只是違規而已

疫情中斷後首次重啟！塔利班宣布恢復阿富汗對中國直飛航線