尋找全域性最小值和防止過擬合之間是不是矛盾的？

1樓：etudiant

目前比較準確的回答似乎都是採取 uniform law of large numbers（ULLN）這種思考方式。建議同時參考 S. Shalev-Schwartz 等人的論文：

Learnability, stability, and uniform convergence.

2樓：

我想從貝葉斯的視角，試著分析一下這個問題。

假如我們要訓練的模型引數為w，用於訓練的樣本集是D。我們的求解目標是：

利用觀測到的樣本集合D去估計乙個最可能的w，換句話說，求解的是使p(w | D) 最大的w值。

根據貝葉斯公式，有：

p(w | D) =p(D | w)*p(w)/ p(D)

上式中分母 p(D)對於所有的w都一樣，因此只需要關注分子p(D | w)*p(w)。

尋找全域性最小值：

確定了模型形式，去做最優化，相當於固定了p(w)，去求解使得p(D | w)最大的w。

但不同的w 對應的概率 p(w) 畢竟是不一樣的，因為求解目標與最終上面公式裡分子項還是有gap的，因此求得的w不是對應最佳引數，會導致在測試或驗證集上效果不好。

防止過擬合：

確切的p(w)是沒法直接計算的，但還是可以設法把p(w)考慮進來。

例如，增加正則化項可以換個角度推導出來：

將最大化 p(D | w) * p(w) 轉化為最大化其對數，即 log( p(D | w)) +log(p(w))。

前一項是對數似然值，後一項就可以看作正則項，例如 L2正則對應於 w的概率分布服從乙個以原點為均值的高斯分布。

3樓：Papercat

先說觀點：

這兩者其實不存在矛盾，只是當模型選取的不好時(模型複雜度相大於問題複雜度時)，優化方法找到的區域性極值可能會導致比較嚴重的過擬合。

同意 @陳默提到的機器學習是建立在訓練集和測試集同分布的假設的基礎上的。但即使訓練集和樣本集確實來自同分布同樣會存在過擬合的問題。乙個簡單的例子是，針對真實模型是二次函式，單輸入單出的樣本，訓練集、測試集也都是來自二次函式時，如果用三次函式或者更高階的多項式函式作為模型時，就很容易產生過擬合，特別是資料量不夠大的時候。

如果用一次函式來擬合，就會產生欠擬合（無論如何訓練都不會收斂到可觀的引數）

當然實際專案中也存在訓練集與測試集有較大偏差的情形，特別是資料標註不廉價，使用大量人工生成樣本或者實驗室樣本時，這種偏差就更嚴重了。這時候過擬合是一定存在的，如何提高模型泛化能力是更值得注意的地方。

學控制的有「建模與辨識」這樣的一門課程/問題，其實和機器學習裡的引數尋優問題很像。只是本學渣已經忘光了，不敢多說妄語。就這樣

4樓：張純熙

首先，兩者本質上並不矛盾。

簡單地想，存不存在訓練集loss優化到最小值，同時又不過擬合的情況呢？

當訓練集的資料足夠體現你所尋找的規律的時候，這種情況是存在的。

但是當訓練集不夠充分，難以僅僅從中就抽取出足夠規律的時候，對訓練集loss優化到最小可能並不是你真正關心的問題的最優解，因此就會過擬合。

但任何模型和優化演算法的訓練過程都是在尋求最小化訓練集的loss 這個問題的最優解，那麼，資料不夠時，這個問題和你追求的目標問題並不一致，因此往往就和防止過擬合就產生了矛盾。

由於希望模型在資料不足以展現本質規律的時候猜出乙個更普適的解，這個問題本質上是無解的，所以手段往往十分粗糙，看上去很魔法，效果也並不理想。

5樓：王政

第一件事情回答是否是矛盾的:

假設資料完備即擁有全部資料, (這裡以二次平方誤差為損失函式的神經網路為例子)達到最小,那麼在理論上分類誤差是可以到達貝葉斯誤差的.即神經網路的輸出是乙個後驗概率.

具體證明:見模式分類第六章

所以可以得出結論:尋找全域性最小值和防止過擬合之間不是矛盾的

第二件事,為什麼會過擬合:

大部分的統計學習方法,都是為了找到乙個超平面 ,去區分資料,即使是神經網路也這個任務的(想想,神經網路最後一層是不是sigmod函式,是不是logistic回歸?)

在這個任務下,我可以把其認為是個線性回歸,即最優平面的回歸,即

我們選用正規方程的方式去解這個 ,那麼方程就是 ,設為的矩陣

然而假設資料量較少, 那麼就會 >n" eeimg="1"/>(大於,或者遠遠大於),那麼這個方程就是欠定的

那麼解就是無限個,那麼如何確定最優的那個?

這就是乙個問題,正則化理論是乙個比較好的解決方法

但是,擴充套件能力如何,又是頭疼的問題.

想象一下SVM是不是乙個,線性回歸,然後又加正則化的乙個過程呢

所以,得出結論就是,過擬合是資料太少,而引數又太多,並非是全域性最小點的問題

知其然之後,回想一下,為啥你會提出這個問題,大概就是,因為你只是知道正則化,而正則化表象可以防止到達最小點.但實際上,正則化可以有的時候可以達到乙個稀疏解效果(壓縮感知),或者其他什麼的.具體理論參看神經網路與機器學習第七章

6樓：

不矛盾，在Frequentist框架下，我們最希望的訓練其實是這種狀況：對不同的正則引數，每次都走到全域性最小，然後根據交叉驗證表現在不同的引數裡選乙個表現最好的。

7樓：Cloudyrie

同意@陳默的觀點。會不會過擬合本質上取決於優化目標的選取是不是正確。會產生這種矛盾感的原因在於，實際我們選擇的優化目標（比如最小化training loss）出於很多原因（資料有雜訊，模型太複雜…），往往並不正確。

將不正確的目標乾到最優（i.e. 取全域性最小值）就會讓學出來的模型過分擬合到訓練資料而不是背後的分布上，故而會對泛化效能造成一定的影響。

所以很多防止過擬合的手段，可以看作是在將現有的優化目標向更正確的方向做矯正。比如在loss上加regularization，就是在限制模型的複雜程度，將優化目標從單純的降低training loss調整為用更簡單的模型取得盡量低的training loss。

8樓：qrfaction

不矛盾。

不同的模型對樣本分佈型別進行了不同的假設。

尋找全域性最小值理應指該模型在其假設下找到和樣本總體誤差最小的近似分布。

即我們要求 argmax loss(all)

但由於種種限制我們只能求 argmax loss(train)

這樣講應該就沒什麼分歧了

loss(all) ≈ loss( train ) + loss( all-train) >= min

所以當loss(train)過低時 loss( all-train) 必然要上公升的

防止過擬合的多種手段如早停

就是把驗證集誤差近似當成了當成了loss( all-train)

正則化權重懲罰等就是加了個先驗資訊

減少引數的多種手段則即可避免由於引數空間過大而進入一些區域性極小值而且還可防止過擬合

總而言之這些都是尋找全域性最優的一些手段

9樓：

尋找全域性最小值是在當前選擇的模型與資料集的基礎之上的，。

並不是說不去尋找全域性最小值就能避開過擬合從而很好的擬合到資料的潛在分布，是否會過擬合應該是模型與資料集本身的特點。

而且early stopping應該也是基於模型會優先擬合訓練集中的整體趨勢（有幫助）再擬合訓練集中的噪音（無幫助）這一假設之上的吧。

regularization能夠讓模型（僅）擬合資料的整體趨勢的價值，即對於cost function的減少程度，比擬合訓練集噪音的價值更高，從而避免過擬合。

用不同的模型以來應對不同的問題，就是為了能夠使得這個模型在找到訓練集全域性最小值的時候fit到整體資料集的潛在分布吧。

10樓：mileistone

尋找全域性最小值和防止過擬合不是乙個緯度的問題。

尋找全域性最小值是優化過程，也就是模型選定了，目標函式確定了，用訓練資料來求解模型引數的過程。

過擬合或欠擬合，指的是模型與資料集的關係，也就是模型對資料集分布的assumption是否跟資料集真實分布相符（例如資料集是一次函式的取樣點，而建模時我們選了乙個二次函式），訓練資料集是否與模型複雜度相匹配等等（例如資料集是一元二次函式的取樣點，但是訓練資料集中只有兩個樣本點）。

舉個極端的例子，如果選擇的模型跟資料集是完美匹配的，而且在優化過程你尋找到最優解，那麼你在訓練集和測試集上的準確率就都是100%。

題主把這兩個問題混在了一起，應該是被「early stop是一種解決過擬合問題的手段」給弄迷糊了。

據我所知，early stop來解決過擬合問題應該主要在深度學習中用得比較多，這種思路的assumption就是你所用的模型跟資料集是不匹配的，模型的複雜度太高，在優化時如果你尋找到了最優解，這個最優解很大機率是過擬合的。

early stop其實可以看做是一種模型選擇的方法，在訓練的過程中會產生一系列模型，選擇在這系列模型在驗證集上的表現最好的模型作為最後的模型。

用early stop解決過擬合是一種偏工程的思路。

11樓：

我的理解是：

過擬合是模型相對於訓練資料來說太複雜了。要防止過擬合，要選用更簡單的模型(或增加訓練資料)。

而尋找全域性最小值，是模型已經確定之後，來尋找最優的模型引數。

12樓：a88i99

這兩個概念不是trade off 的兩端。通常，欠擬合與過擬合是此消彼長的。題主把優化過程找全域性最小與欠擬合做了等價的假設。

而欠擬合是由模型/特徵簡單，損失函式不合適，與優化演算法太弱造成的。

但在DL裡面似乎欠擬合與過擬合不是非此即彼的關係。不確定。

再說，對於高維空間的非凸loss function，全域性最小根本找不到。找到了，你也不確定是不是全域性最小。

13樓：廢柴勃蝸牛

一般情況下，我們優化過程的最小化目標函式在理想情況下是True error：。這裡D是真實的資料分布。

但是，我們不可能對真實分布進行這麼充分的取樣。試想，如果這麼dense而且足量的取樣，不管hypothesis set多大的模型，我們都能讓他的Generalization gap趨近於0，我們也不再需要什麼Regularization，不需要生成模型，總之，什麼都不需要了。

但是，想得美。醒醒，這是不可能的。

我們的樣本不僅僅是非常有限的，而且還是充滿雜訊的。我們不可能通過上面那個目標函式來尋找函式，我們僅僅能夠使用最小化Empirical Error來尋找我們的理想的函式。

所以，我們最小化這個函式是及其及其危險的。必須十分小心，如履薄冰。因為，這個全域性最優肯定是意味著Empirical Error為0，不巧的是，我們的Hypothesis Set中，往往有很多滿足這個最優條件。

也就是說，的確，在樣本有限，資料有汙染的時候，全域性最優恰恰是我們盡可能避免的，因為往往意味著過擬合。當然，如果你的取樣夠充分，夠密集，這都不是事。

我們常常會引入各種正則，L1，L2，Low Rank，稀疏，多目標，引數共享，預訓練，半監督，甚至SGD自帶正則，很多結構也會自帶極強的先驗。我們通過這一切手段來盡可能的限制函式空間大小，避免那個令人恐懼的全域性最優點（極其可能過擬合）。

最直接的方法是early stop。其實很容易推導得到Early Stop在滿足一定條件的時候，和L2是等價的，都是壓制hessian矩陣中的雜訊資訊。

我們將損失函式利用泰勒公式展開到二次項。

這裡theta star代表全域性最優點。我們利用赫森矩陣來逼近原函式, 如果再增加L2正則項,

我們可以求得最後的結果：

赫森矩陣對雜訊較為敏感，如果我們能夠用最少的特徵值以及最小的子空間來重構這個赫森矩陣，呢麼我們相當於對雜訊進行了壓制，控制了模型的複雜度。矩陣是對角矩陣，對角部分值為，作為何森矩陣的特徵值，其中小的特徵值已經被因數alpha壓制接近0，而較大的特徵值得以保留。

而對於early stop，

，為了簡便，我們設

在L2正則下，。注意，這裡我們還需要保證

很容易得到乙個結論，當（近似即可）early stop和L2等效。

尋找全域性最小值和防止過擬合之間是不是矛盾的？

為什麼梯度下降能找到最小值？

這個二元最小值怎麼求

excel怎麼分組求大於0的最小值？

其他用戶還看了：