請問隨機森林為什麼不會過度擬合？

1樓：張揚

圖1是神經網路擬合結果，圖2是隨機森林擬合結果，當然我為了說明效果沒有調參，可以清楚看到，隨機森林是會過擬合的，尤其是雜訊比較大的時候。如果這時候一昧的陷入R2之類的評價指標值，很容易被迷惑覺得模型效果很好。

2樓：

我覺得更準確的說法應該是：

隨著隨機森林中子樹的數量增加，不會加重overfitting，至少說不會使它惡化。

也就是說，子樹從少到多，從10棵到100棵，泛化誤差收斂意味著 overfitting不會嚴重惡化，不會上天。這大概也是近期sklearn的告警裡有一條是，如果使用預設的整合方法裡面的RandomForest() 預設的 n_estimators 會從10 將會更改到100。因為這大概率會優化這個模型，不會變得更糟糕。

如果你的模型其他引數，特徵一開始的選擇都是很糟糕的，那顯然overfitting的問題可能早就在裡面了。但是增加樹的棵樹不會惡化這種糟糕。

3樓：ellisonliu

只是理論，從演算法的指令碼對比其它的演算法而言，然而在實際的模型中，過擬合與樣本數，樣本質量，特徵數量，特徵相關性都有關係，如果資料都OK，隨機森林用乙個很簡單的引數不會那麼容易過擬合。

4樓：

Breiman的這句話完全錯誤，根本沒有不過擬合的學習方法！

對於隨機森林來說:在有躁音的情況下(注意，現實世界應用中躁音不能忽略)，樹太少很容易過擬合，增加樹可以減小過擬合，但沒有辦法完全消除過擬合，無論你怎麼增加樹都不行。

相關研究見http://escholarship.org/uc/item/35x3v9t4.pdf

5樓：

Overfitting的定義就是當Empirical Loss最優的時候，Generalization Loss不是最優，也就是說訓練集效果好，但測試集效果差。如果能證明Generalization Loss收斂到Empirical Loss同乙個最優值，那就說明，在訓練集上效果多好，測試集上也有同樣的效果，所以沒有overfit。這其實不只針對隨機森林。

請問隨機森林為什麼不會過度擬合？

為什麼學習過的東西不會應用？

請問關閉螞蟻森林的是出於什麼心態？

森林植被恢復後為什麼會增加蒸發量卻不會增加降水量？

其他用戶還看了：