神經網路中 L1 正則化和 dropout 正則化對weights 稀疏化的實質區別是什麼?

時間 2022-01-13 01:55:02

1樓:

一般來說,引數越多越容易過擬合。這兩種方法都是為了阻止過擬合,l1方法是將部分權重置為0,直接減小參數量,dropout則是使一部分鏈結隨機失活,每次迭代只更新一部分引數,變相減小每次的參數量。

2樓:徐舉

l1實現稀疏可以從proximal gradient這個運算中的收縮運算元來解釋,當引數的絕對值小於某乙個值時,l1正則化會將該引數變為0。另外從貝葉斯先驗分布的角度看,l1正則化相當於給引數加了拉普拉斯分布先驗,標準拉普拉斯分布乙個典型特徵,就是在0這一點的概率密度很大,從0往兩邊概率曲線有乙個猛降,所以可以想象拉普拉斯先驗分布使得0很多。對於dropout,主要是從bagging的角度去考慮,dropout實現的是每次訓練只更新了部分引數,但並沒有實現稀疏,通過bagging的思想,dropout減少了variance,但沒有減小bias,還可能增加bias。

3樓:

dropout提出的初衷是在神經網路上模擬bagging,原理比較模糊、數學上不大明確。

後來Percy Liang一干人提出dropout近似於以fisher information為權重的L2正則化,dropout實際是在最小化目標函式的期望,這個期望的二階近似顯然是L2正則化的形式。

我覺得這個解釋更清晰明了,令人信服。如果當初以這個思路為出發點提出dropout的演算法,這個工作會漂亮得多,

詳情參見 Percy Liang的這篇文章。

4樓:[已重置]

個人理解,二者的目標不一致,乙個是減少權重項,實際上是追求降低複雜度,乙個是增加隨機擾動構造ensemble optimization的效果,目標是追求系統魯棒性,但本質也是乙個能量約束。

為什麼在SGD中使用L1正則化很難獲得稀疏性?

曹神仙 我覺得根本原因在於l1問題是凸問題而非強凸,有無窮多個解,即存在不止一種希疏模式。sgd會使得演算法在不同且效果一致的稀疏模式之間跳轉,最後導致失去稀叔性 市民王先生 先說L1正則化的原理。L1正則化所約簡的特徵,是那些和其他特徵共線性的,多餘的特徵。這就好比公司裡有兩個能力非常相似的員工,...

如何理解卷積神經網路(CNN)中的卷積和池化?

施念 我的理解 乙個個卷積核相當於對影象進行區域性特徵提取,從而產生不同的feature map,具體的,在滑動過程中,某pixel所在的卷積區域與卷積核相似 相關 程度大的得到的值越大。多層卷積相當於進行深層次 高維度,更抽象 的特徵提取。遲化層相當於對之前卷積提取到的每個feature map的...

機器學習正則化中範數為什麼要定義成l1,l2等形式?

袁承興 對抗過擬合最有效的方法就是增加訓練資料的完備性,但它昂貴且有限。另一種思路是減小網路的規模,因為網路越大表達容量越大,但這樣可能會因為限制了模型的表達潛力而導致識別精度整體下降。所以才引入了正則化,正則化 Regularization 可以在原有的訓練資料,以及網路架構不縮減的情況下,有效避...