L1,L2正則化中為什麼說「等高線與norm ball 首次相交的地方就是最優解

時間 2021-05-12 07:18:04

1樓:愛知識的lz

首先,搞清楚他們都是等值線,也就是說各自線上的值相等,至於相交時值是否相等不一定。其次,什麼是相同的,對於原損失函式、正則項,相交時,w1,w2的取值是相同的,這就是說正則化其實是加了約束,約束原誤差函式的w1,w2在正則化的範圍內。所以,當等值線相交時,說明有相同的w1,w2。

下面解釋為什麼說是最優解,反證法。如果不是最優解,則存在其他的w1,w2使得和最小。我們只看在正則化的等值線上,交點繞著正則項等值線運動一圈,你會發現其他所有點上,原損失函式的值都要大於交點,也就是越往外原損失函式值越大。

而在原損失函式等值線上運動,除了交點,其他的點不滿足正則化約束。至於交點,w1等於0,稀疏了。

2樓:候亮平

blog.csdn.net/jinping_s

hi/article/details/52433975

幾何理解,對於L1,不論幾維的特徵,權值中零越多,是不是最優解是不是最先碰上,可以想象為在座標軸上,顯然是的。對於L2,是不是都不為零的先碰上?二次函式是凹的,顯然是的。哈哈

3樓:

這幅圖的意思不是說第一次接觸的點是最優解,而是說這個接觸點有相同的目標值(即誤差+正則),右上的圓圈表示當前訓練樣本的誤差等高線,左下的方框和圓形邊緣有相同的正則值,所以在雙方同值的前提下,方框更容易拿到稀疏解。

神經網路中 L1 正則化和 dropout 正則化對weights 稀疏化的實質區別是什麼?

一般來說,引數越多越容易過擬合。這兩種方法都是為了阻止過擬合,l1方法是將部分權重置為0,直接減小引數量,dropout則是使一部分連結隨機失活,每次迭代只更新一部分引數,變相減小每次的引數量。l1實現稀疏可以從proximal gradient這個運算中的收縮運算元來解釋,當引數的絕對值小於某一個...

機器學習正則化中範數為什麼要定義成l1,l2等形式?

袁承興 對抗過擬合最有效的方法就是增加訓練資料的完備性,但它昂貴且有限。另一種思路是減小網路的規模,因為網路越大表達容量越大,但這樣可能會因為限制了模型的表達潛力而導致識別精度整體下降。所以才引入了正則化,正則化 Regularization 可以在原有的訓練資料,以及網路架構不縮減的情況下,有效避...

為什麼在SGD中使用L1正則化很難獲得稀疏性?

曹神仙 我覺得根本原因在於l1問題是凸問題而非強凸,有無窮多個解,即存在不止一種希疏模式。sgd會使得演算法在不同且效果一致的稀疏模式之間跳轉,最後導致失去稀叔性 市民王先生 先說L1正則化的原理。L1正則化所約簡的特徵,是那些和其他特徵共線性的,多餘的特徵。這就好比公司裡有兩個能力非常相似的員工,...

l1 相比於 l2 為什麼容易獲得稀疏解?

蠡測 什麼叫l1比l2更容易?當最優解在某一個範圍內 絕對值小於lamba 時,l1都可以得到稀疏解,而l2只有當最優解本身就在座標軸上才會有稀疏解。很多回答都沒有解釋為什麼當w 0時,梯度也為0,如果梯度不為零,那不就跳出這個稀疏解了麼 個人覺得應該說L1可以讓 取到最優時本來就小於 的這種w,在...

微軟標準手柄的X Y A B L1 L2 R1 R2記不住啊,怎麼背?

V緣字訣V 看問題,題主果然沒記住。233 你要是像我一樣,御三家都玩,你才會知道,從xbox切換到nintendo是多麼的蛋疼 先說按鍵 Xbox ABXY LB RB LT RTPS XO口 L1 R1 L2 R2 nintendo BAXY L R LZ RZ看到啥了吧 nintendo和微軟...