L1,L2正則化中為什麼說「等高線與norm ball 首次相交的地方就是最優解

首頁 > 科學

時間 2021-05-12 07:18:04

1樓：愛知識的lz

首先，搞清楚他們都是等值線，也就是說各自線上的值相等，至於相交時值是否相等不一定。其次，什麼是相同的，對於原損失函式、正則項，相交時，w1，w2的取值是相同的，這就是說正則化其實是加了約束，約束原誤差函式的w1，w2在正則化的範圍內。所以，當等值線相交時，說明有相同的w1，w2。

下面解釋為什麼說是最優解，反證法。如果不是最優解，則存在其他的w1，w2使得和最小。我們只看在正則化的等值線上，交點繞著正則項等值線運動一圈，你會發現其他所有點上，原損失函式的值都要大於交點，也就是越往外原損失函式值越大。

而在原損失函式等值線上運動，除了交點，其他的點不滿足正則化約束。至於交點，w1等於0，稀疏了。

2樓：候亮平

blog.csdn.net/jinping_s

hi/article/details/52433975

幾何理解，對於L1，不論幾維的特徵，權值中零越多，是不是最優解是不是最先碰上，可以想象為在座標軸上，顯然是的。對於L2，是不是都不為零的先碰上？二次函式是凹的，顯然是的。哈哈

3樓：

這幅圖的意思不是說第一次接觸的點是最優解，而是說這個接觸點有相同的目標值（即誤差+正則），右上的圓圈表示當前訓練樣本的誤差等高線，左下的方框和圓形邊緣有相同的正則值，所以在雙方同值的前提下，方框更容易拿到稀疏解。

神經網路中 L1 正則化和 dropout 正則化對weights 稀疏化的實質區別是什麼？

一般來說，引數越多越容易過擬合。這兩種方法都是為了阻止過擬合，l1方法是將部分權重置為0，直接減小引數量，dropout則是使一部分連結隨機失活，每次迭代只更新一部分引數，變相減小每次的引數量。l1實現稀疏可以從proximal gradient這個運算中的收縮運算元來解釋，當引數的絕對值小於某一個...

機器學習正則化中範數為什麼要定義成l1,l2等形式？

袁承興對抗過擬合最有效的方法就是增加訓練資料的完備性，但它昂貴且有限。另一種思路是減小網路的規模，因為網路越大表達容量越大，但這樣可能會因為限制了模型的表達潛力而導致識別精度整體下降。所以才引入了正則化，正則化 Regularization 可以在原有的訓練資料，以及網路架構不縮減的情況下，有效避...

為什麼在SGD中使用L1正則化很難獲得稀疏性？

曹神仙我覺得根本原因在於l1問題是凸問題而非強凸，有無窮多個解，即存在不止一種希疏模式。sgd會使得演算法在不同且效果一致的稀疏模式之間跳轉，最後導致失去稀叔性市民王先生先說L1正則化的原理。L1正則化所約簡的特徵，是那些和其他特徵共線性的，多餘的特徵。這就好比公司裡有兩個能力非常相似的員工，...

l1 相比於 l2 為什麼容易獲得稀疏解？

蠡測什麼叫l1比l2更容易？當最優解在某一個範圍內絕對值小於lamba 時，l1都可以得到稀疏解，而l2只有當最優解本身就在座標軸上才會有稀疏解。很多回答都沒有解釋為什麼當w 0時，梯度也為0，如果梯度不為零，那不就跳出這個稀疏解了麼個人覺得應該說L1可以讓取到最優時本來就小於的這種w，在...

微軟標準手柄的X Y A B L1 L2 R1 R2記不住啊，怎麼背？

V緣字訣V 看問題，題主果然沒記住。233 你要是像我一樣，御三家都玩，你才會知道，從xbox切換到nintendo是多麼的蛋疼先說按鍵 Xbox ABXY LB RB LT RTPS XO口 L1 R1 L2 R2 nintendo BAXY L R LZ RZ看到啥了吧 nintendo和微軟...

其他用戶還看了：