機器學習正則化中範數為什麼要定義成l1,l2等形式?

時間 2021-05-31 21:38:56

1樓:袁承興

對抗過擬合最有效的方法就是增加訓練資料的完備性,但它昂貴且有限。另一種思路是減小網路的規模,因為網路越大表達容量越大,但這樣可能會因為限制了模型的表達潛力而導致識別精度整體下降。

所以才引入了正則化,正則化(Regularization),可以在原有的訓練資料,以及網路架構不縮減的情況下,有效避免過擬合。以L2為例,

L2正則化即在損失函式C的表示式上追加L2正則化項

L2正則化

上式中的C0代表原損失函式,可以替換成均方誤差、交叉熵等任何一種損失函式表示式。

關於L2正則化項的幾點說明:

求和∑是對網路中的所有權重進行的;

λ(lambda)為自定義引數(超引數);

n是訓練樣本的數量(注意不是所有權重的數量!);

L2正則化並沒有偏置參與;

該如何理解正則化呢?

對於使網路達到最小損失的權重w,很可能有非常多不同分布的解:有的均值偏大、有的偏小,有的分布均勻,有的稀疏。那麼在這個w的解空間裡,該如何挑選相對更好的呢?

正則化通過新增約束的方式,幫我們找到乙個方向。

L2正則化表示式暗示著一種傾向:訓練盡可能的小的權重,較大的權重需要保證能顯著降低原有損失C0才能保留

至於正則化為何能有效的緩解過擬合,這方面數學解釋其實不太多,更多是基於經驗的認知。 樓上@Merci 從數學上的回答學習下。

2樓:Merci

對maximum likelihood的估計一直以來存在兩種方式,即:MLE(頻率學派觀點)與MAP(Bayesian)。前者簡單來說就是我拋硬幣,拋它個百次萬次統計一下正反面次數,然後就把它作為我拋硬幣得到正反面概率的乙個近似值。

但是這麼一來會出問題:如果我拋十次,九次都是正面那我估計出來的丟擲正面的概率就90%了嗎?那可不行!

所以另一票人(Bayesian)給出了這麼乙個觀點:我先猜乙個50%(先驗概率),然後根據現在拋的統計結果(樣本分佈)估乙個值(後驗概率)作為我認為合理的結果。這樣就算我丟擲的統計結果奇怪的離譜,我也能一定程度上合理化它。

那麼這和我們正則化又有啥關係呢?大招來了。我們一開始盲猜的這個先驗概率,它在這裡成了我們修正樣本分佈的指導條件。

但是我也不知道盲猜的到底準不准啊!所以這個先驗概率相關的引數 ,它在這裡被視為隨機變數:

敲LaTeX太麻煩了,湊合著看吧

那既然它都是隨機變數了,我們可以人為假定乙個它的分布 (比如上圖中的Gaussian)。這麼一來,我們在估計MAP時,就有了:

奇奇怪怪的式子①

ps: 這裡的 是拋硬幣的條件概率分布,在 一定的情況下即與右式等價。

此時,在經過一系列化簡之後,我們有:

奇奇怪怪的式子②

前一項是loss,後一項就是我們的正則項了。這時候我們會「驚奇」的發現,正則項和我們的先驗概率之間似乎有著某種♂奇♂怪♂的關係。結合一開始我們對它的假設,稍作思考不難得出:

奇奇怪怪的最終式子

這就是 的由來了。

正則化中,為什麼說模型越複雜,正則化值越大?

糯公尺團 模型的loss由兩部分構成,一部分是誤差項,反映了模型擬合的效果 另一部分就是正則項,反映了模型的複雜程度 模型越簡單越好,可以有效防止過擬合 誤差項可以有很多數學形式表示,但是模型的複雜度怎麼表示呢,其實就稱為正則項 模型越複雜,正則化值越大 我理解一般情況下的單調增函式,是因為模型複雜...

機器學習中引入L2範數的意義是什麼?

比如說以最經典的least sqaures為例,首先我們可以從robust optimization的角度來說。robust optimization思路可以分為兩種,一種是stochastic的,意味著我們知道優化問題的引數並不完全準確,而且我們可以假設這些引數的statistical distr...

重整化中為什麼要引入counterterm

對稱性給出拉氏量,但是沒告訴你拉氏量前面的係數,比如這個係數是a,那麼根據量子場論,你會算出某一可觀測量F是a的函式F f a 你實驗測到了F的值,所以a f 1 F 確定了a的值。這就是重整化,其實就像他英文縮寫的,renormalization 重新歸一化 但是量子場論中的特殊之處在於,a如果直...