神經網路中 L1 正則化和 dropout 正則化對weights 稀疏化的實質區別是什麼？

1樓：

一般來說，引數越多越容易過擬合。這兩種方法都是為了阻止過擬合，l1方法是將部分權重置為0，直接減小參數量，dropout則是使一部分鏈結隨機失活，每次迭代只更新一部分引數，變相減小每次的參數量。

2樓：徐舉

l1實現稀疏可以從proximal gradient這個運算中的收縮運算元來解釋，當引數的絕對值小於某乙個值時，l1正則化會將該引數變為0。另外從貝葉斯先驗分布的角度看，l1正則化相當於給引數加了拉普拉斯分布先驗，標準拉普拉斯分布乙個典型特徵，就是在0這一點的概率密度很大，從0往兩邊概率曲線有乙個猛降，所以可以想象拉普拉斯先驗分布使得0很多。對於dropout，主要是從bagging的角度去考慮，dropout實現的是每次訓練只更新了部分引數，但並沒有實現稀疏，通過bagging的思想，dropout減少了variance，但沒有減小bias，還可能增加bias。

3樓：

dropout提出的初衷是在神經網路上模擬bagging，原理比較模糊、數學上不大明確。

後來Percy Liang一干人提出dropout近似於以fisher information為權重的L2正則化，dropout實際是在最小化目標函式的期望，這個期望的二階近似顯然是L2正則化的形式。

我覺得這個解釋更清晰明了，令人信服。如果當初以這個思路為出發點提出dropout的演算法，這個工作會漂亮得多，

詳情參見 Percy Liang的這篇文章。

4樓：[已重置]

個人理解，二者的目標不一致，乙個是減少權重項，實際上是追求降低複雜度，乙個是增加隨機擾動構造ensemble optimization的效果，目標是追求系統魯棒性，但本質也是乙個能量約束。

神經網路中 L1 正則化和 dropout 正則化對weights 稀疏化的實質區別是什麼？

為什麼在SGD中使用L1正則化很難獲得稀疏性？

如何理解卷積神經網路（CNN）中的卷積和池化？

機器學習正則化中範數為什麼要定義成l1,l2等形式？

其他用戶還看了：