為什麼梯度下降能找到最小值?

時間 2021-05-06 00:58:09

1樓:想飛的貓

網上有太多對梯度下降的解釋,都是正確的,但由於數學天生需要嚴肅的表達和定義,大多數比較繞口,不好理解。但對於乙個普通初學者,理解乙個基本概念,真的需要這麼嚴格,同時又讓人看不懂的定義嗎?我的答案是,在絕大多數的工業界應用中,都是沒有必要的。

鑑於梯度下降是如此重要,最簡單靠譜的一句話解釋:

一元函式中,要使f(x+ x) - f(x) ≈ f'(x)· x <= 0恆成立,怎麼辦?

只能是 x = -f'(x),乙個平方的值帶負號最靠譜,僅此而已。

根據這個規則,f(x+ x)只能越來越小,同時,若函式f(x)滿足單調性,必定能找到最小值。

多元函式同理。

想飛的貓:機器學習中的數學基礎(微積分和概率統計)

2樓:

首先函式要是凸的並且有界,才存在全域性極小點,否則梯度下降找的是區域性極小點(不會找到鞍點,因為梯度下降的搜尋方向是保證函式值下降的,不會往「上」找);

如果從感性認識上看,應該不難理解為什麼下降到區域性/全域性最小值,所以我猜題主是需要一點理論上的說服力?

重點在於理解「下降」一詞,而不是「梯度」,梯度是最快的下降方向這句話沒錯,但對於理解「為什麼能找到」最小值上幾乎沒有幫助= =,看看下降方法的公式吧:

只要新的能保證函式值下降,就是有用的下降方向,只要每次迭代都是下降的,也即是產生的序列為單調數列,而且有下界,則根據數學分析的數列收斂定理,單調有界數列必定收斂,如果函式不是有界的話,會死迴圈。。

3樓:

因為:根據一階泰勒展開,對於乙個可微函式,對於任意的x,有:

,其中是梯度,如果一維情況就是一階導數。

而其中, 是兩向量之間的夾角。

當為180度得時候,g(x)*p可取到最小值,即為下降最快的方向。所以,負梯度方向為函式f(x)下降最快的方向。

如果f(x)是凸函式,則區域性最優解就是全域性最優解。

4樓:

首先,這不是找到最小值,而是極小值,有時候甚至是鞍點。

其實梯度下降只是不動點(fixed point)迭代的一種,梯度下降找到的其實是不動點,而不是直接尋找極小值。在可導的區間上,梯度下降迭代的不動點(梯度為0的點)有三類——極大值,極小值,鞍點。對於梯度下降來說,極大值是不穩定的(再小得誤差都可能導致迭代從不動點上逃逸,並且,除非你初始值就是極大值,否則迭代過程幾乎不可能到達極大值),而鞍點不穩定性次之(在某側的誤差會導致逃逸),而極小值是梯度下降過程最穩定的不動點。

迭代過程可以參照下雨的時候水的流向,水總是會聚集在坑(極小值)裡面。

並不是所有不動點迭代都是收斂的。對於梯度下降來說,梯度下降只是在點得足夠小的鄰域內,負梯度方向讓函式值減小,如果你的引數不合適,迭代過程總是超過了這個足夠小的鄰域,那迭代可能會發散。

如果函式是凸的,那麼梯度下降會收斂到最小值(因為只有乙個極小值,它就是最小值)。

對於一般問題來說,梯度下降能找到最小值是個概率事件。雖然有很多優化方法,但它仍然是個概率事件。有很多概率方法,試圖讓你從不穩定的不動點附近「跳出去」(比如,對迭代的過程增加一些擾動),這樣得到的不動點往往更加穩定。

通常,這些穩定的不動點即便不是最優值,性質也足夠好了:) 所以,在很多時候我們也並不是必須要找到最優值。

~ ~ ~

PS:大部分迭代演算法其實都是不動點迭代。構造這個過程的精髓在於——解就是不動點,但不動點未必是解。對於某些特定的問題,不動點就是解(梯度下降之於凸函式)

其實我覺得自己說了一些廢話,因為迭代的過程,如果收斂,那麼結果必然是到了不動點。所以所有能收斂的迭代,都是不動點迭代。你需要關注的是:

這些不動點是什麼?它們都是解嗎?它們是不是在迭代過程中足夠穩定?

5樓:菊大郎

就算找到的是最小值也只是在訓練集上的,所以找到較小的極小值已經可以了,還可以自動避免過擬合,有正則化方法就對應著訓練早結束

6樓:

極小值就夠了吧...如果你說的是機器學習裡的線性回歸應用貌似沒問題,找到全域性最優解還是比較費力氣,有時候只能找個還不錯的極小值當做最小值了

為什麼梯度下降法每次找到的都是下降最快的點?

鞋帶掉了 其實,在核算量方面,兩者有很大的不同,因此在面臨給定的問題時,能夠有挑選性的根據問題的性質挑選兩種辦法中的乙個.具體來說,最小二乘法的矩陣公式是 這兒的 A 是乙個矩陣,b 是乙個向量.假如有離散資料點,而想要擬合的方程又大致形如 那麼,A 就是乙個的矩陣,第 i 行的資料點分別是 而 b...

如圖,f x1 g x2 ,為什麼是 f x1 的最小值大於 g x2 的最小值?

暮雪無聲 假設有兩個班 A班 B班,現在比較兩個班的人身高。1 存在A班有同學的身高高於B班所有同學的身高。即只要A班最高的比B班最高的高,不就好了 2 存在A班有同學的身高高於B班某一同學的身高。換句話說就是,有就行。只要保證A班最高的高於B班最矮的。3 所有A班有同學的身高高於B班某一同學的身高...

為什麼CRF可以用梯度下降,而HMM要用EM求解?

歐陽瘋 CRF也可以用EM求解,HMM也可以用梯度下降求解。梯度下降法能求解的EM演算法肯定能求解。HMM就是一種特殊的RNN 沒有輸入,只有狀態與輸出的RNN 梯度下降法肯定能求解HMM magic2728 如果都是隱藏層不可觀測的話,那應該都可以用gd類演算法和em類的。只不過em類的數學優美,...