機器學習正則化中範數為什麼要定義成l1,l2等形式？

1樓：袁承興

對抗過擬合最有效的方法就是增加訓練資料的完備性，但它昂貴且有限。另一種思路是減小網路的規模，因為網路越大表達容量越大，但這樣可能會因為限制了模型的表達潛力而導致識別精度整體下降。

所以才引入了正則化，正則化（Regularization），可以在原有的訓練資料，以及網路架構不縮減的情況下，有效避免過擬合。以L2為例，

L2正則化即在損失函式C的表示式上追加L2正則化項：

L2正則化

上式中的C0代表原損失函式，可以替換成均方誤差、交叉熵等任何一種損失函式表示式。

關於L2正則化項的幾點說明：

求和∑是對網路中的所有權重進行的；

λ（lambda）為自定義引數（超引數）；

n是訓練樣本的數量（注意不是所有權重的數量！）；

L2正則化並沒有偏置參與；

該如何理解正則化呢？

對於使網路達到最小損失的權重w，很可能有非常多不同分布的解：有的均值偏大、有的偏小，有的分布均勻，有的稀疏。那麼在這個w的解空間裡，該如何挑選相對更好的呢？

正則化通過新增約束的方式，幫我們找到乙個方向。

L2正則化表示式暗示著一種傾向：訓練盡可能的小的權重，較大的權重需要保證能顯著降低原有損失C0才能保留。

至於正則化為何能有效的緩解過擬合，這方面數學解釋其實不太多，更多是基於經驗的認知。樓上@Merci 從數學上的回答學習下。

2樓：Merci

對maximum likelihood的估計一直以來存在兩種方式，即：MLE（頻率學派觀點）與MAP（Bayesian）。前者簡單來說就是我拋硬幣，拋它個百次萬次統計一下正反面次數，然後就把它作為我拋硬幣得到正反面概率的乙個近似值。

但是這麼一來會出問題：如果我拋十次，九次都是正面那我估計出來的丟擲正面的概率就90%了嗎？那可不行！

所以另一票人（Bayesian）給出了這麼乙個觀點：我先猜乙個50%（先驗概率），然後根據現在拋的統計結果（樣本分佈）估乙個值（後驗概率）作為我認為合理的結果。這樣就算我丟擲的統計結果奇怪的離譜，我也能一定程度上合理化它。

那麼這和我們正則化又有啥關係呢？大招來了。我們一開始盲猜的這個先驗概率，它在這裡成了我們修正樣本分佈的指導條件。

但是我也不知道盲猜的到底準不准啊！所以這個先驗概率相關的引數，它在這裡被視為隨機變數：

敲LaTeX太麻煩了，湊合著看吧

那既然它都是隨機變數了，我們可以人為假定乙個它的分布（比如上圖中的Gaussian）。這麼一來，我們在估計MAP時，就有了：

奇奇怪怪的式子①

ps: 這裡的是拋硬幣的條件概率分布，在一定的情況下即與右式等價。

此時，在經過一系列化簡之後，我們有：

奇奇怪怪的式子②

前一項是loss，後一項就是我們的正則項了。這時候我們會「驚奇」的發現，正則項和我們的先驗概率之間似乎有著某種♂奇♂怪♂的關係。結合一開始我們對它的假設，稍作思考不難得出：

奇奇怪怪的最終式子

這就是的由來了。