請問隨機森林為什麼不會過度擬合?

時間 2021-05-12 09:49:20

1樓:張揚

圖1是神經網路擬合結果,圖2是隨機森林擬合結果,當然我為了說明效果沒有調參,可以清楚看到,隨機森林是會過擬合的,尤其是雜訊比較大的時候。如果這時候一昧的陷入R2之類的評價指標值,很容易被迷惑覺得模型效果很好。

2樓:

我覺得更準確的說法應該是:

隨著隨機森林中子樹的數量增加, 不會加重overfitting,至少說不會使它惡化。

也就是說,子樹從少到多,從10棵到100棵,泛化誤差收斂意味著 overfitting不會嚴重惡化,不會上天。這大概也是近期sklearn的告警裡有一條是,如果使用預設的整合方法裡面的RandomForest() 預設的 n_estimators 會從10 將會更改到100。因為這大概率會優化這個模型,不會變得更糟糕。

如果你的模型其他引數,特徵一開始的選擇都是很糟糕的,那顯然overfitting的問題可能早就在裡面了。 但是增加樹的棵樹不會惡化這種糟糕。

3樓:ellisonliu

只是理論, 從演算法的指令碼對比其它的演算法而言,然而在實際的模型中,過擬合與樣本數,樣本質量,特徵數量,特徵相關性都有關係,如果資料都OK,隨機森林用乙個很簡單的引數不會那麼容易過擬合。

4樓:

Breiman的這句話完全錯誤,根本沒有不過擬合的學習方法!

對於隨機森林來說:在有躁音的情況下(注意,現實世界應用中躁音不能忽略),樹太少很容易過擬合,增加樹可以減小過擬合,但沒有辦法完全消除過擬合,無論你怎麼增加樹都不行。

相關研究見http://escholarship.org/uc/item/35x3v9t4.pdf

5樓:

Overfitting的定義就是當Empirical Loss最優的時候,Generalization Loss不是最優,也就是說訓練集效果好,但測試集效果差。如果能證明Generalization Loss收斂到Empirical Loss同乙個最優值,那就說明,在訓練集上效果多好,測試集上也有同樣的效果,所以沒有overfit。這其實不只針對隨機森林。

為什麼學習過的東西不會應用?

ahhh 因為現在人們不考慮學生真正地學習 因為中國是應試教育,大學裡的學到的知識為什麼在實際應用中就不行了?缺乏應用實踐,不能學以致用,建議你多了解身邊的事物,學會觸類旁通 為什麼平常學習到的知識,到關鍵時候總不會應用,是什麼原因?呵呵 那是因為你學的時候就沒考慮它的用處!往往把純理論的東西拿到現...

請問關閉螞蟻森林的是出於什麼心態?

柘十二 就在剛剛被氣死了我就是小氣怎麼著!我每天早上為了領螞蟻能量我都會調個鬧鐘 昨天晚上4點多才睡著 今天調了個11分的鬧鐘守著我12分的球 點下去的時候還顯示171g 結果發現被偷了36g 一看記錄確實只領到了135g 就慢這一秒半秒 好想問問為什麼要守著我的球而且這個人還不止這一兩次本來領完就...

森林植被恢復後為什麼會增加蒸發量卻不會增加降水量?

湯天然 降水量的顯著增加還是受水汽通道上水汽含量變化,而無論大的小的水汽通道一般都依賴大型水體 海洋,大湖,大江大河 所以植被的蒸騰帶來的水汽基本可以忽略不計。 月之靈 首先,森林植被增加後,水汽通過植物的體表散發出去,這叫植物的蒸騰作用。當然,植被恢復後,對其根系所在的土壤起到涵養水源的作用,土壤...