梯度提公升樹採用的是梯度下降法嗎?

時間 2021-06-18 22:18:46

1樓:雜言

是的,巨集觀來看是這樣的。GBDT的過程有點像神經網路的梯度下降到達最值,只要把神經網路的負梯度更新引數視為函式(基分類器)完成即可。

另外,我覺得其實名字很迷惑,我當時還覺得明明是梯度下降的思想,為什麼要用梯度提公升樹這個名字?我感覺梯度提公升樹,應該是指使用梯度的提公升樹,所以梯度提公升樹準確分割是"梯度|提公升樹",而不是"梯度提公升|樹",也就是和梯度上公升可能不是乙個概念(這個觀點只是個人理解,如果不對也請指出)。

而提公升樹中的提公升正是來自於其加法模型的思想。

2樓:圍兜哥哥

你這樣理解吧,如果損失函式是殘差(回歸),就是梯度下降,盡量的找殘差的極小值,如果損失函式是sigmod等(分類),就是梯度提公升,相反的,盡量的找概率的最大值。可以畫一下只有乙個或者兩個入參的損失函式曲線,一目了然。當然本質都一樣,通過求導找值。

3樓:ijnmklpo

個人感覺本質上還是梯度下降。每棵樹擬合梯度差不多可以看做是梯度下降時在引數空間中挪一步(一次迭代)。只是在樹的搜尋空間裡,沒法對目標函式直接進行梯度下降,所以只能這樣做。

梯度下降法和共軛梯度法有何異同?

空島之戀 共軛梯度是共軛思想與梯度計算的結合,主要還是解決梯度優化收斂速度過慢的問題,比如說某個方向的優化,不是一步就到位,而是需要很多次迭代,而共軛梯度,將這個問題抽象出現,就是最優解與每次迭代得到值的差量,即誤差,期望減少這個總差量,來達到提高收斂速度的問題,同時使用梯度值來表示優化向量,其實吧...

為什麼梯度下降法每次找到的都是下降最快的點?

鞋帶掉了 其實,在核算量方面,兩者有很大的不同,因此在面臨給定的問題時,能夠有挑選性的根據問題的性質挑選兩種辦法中的乙個.具體來說,最小二乘法的矩陣公式是 這兒的 A 是乙個矩陣,b 是乙個向量.假如有離散資料點,而想要擬合的方程又大致形如 那麼,A 就是乙個的矩陣,第 i 行的資料點分別是 而 b...

最優化問題中,牛頓法為什麼比梯度下降法求解需要的迭代次數更少?

ivatar 二種方法都是在迭代點泰勒展開後,對展開函式極小化。梯度下降法是優化一階展開函式,擬牛頓類是優化二階展開函式。在迭代點附近,展開的階數越高就和真實函式的誤差越小,每次在迭代點獲得的下降才可能越大。 深藍 看了幾個答案說的都挺好,不過有乙個重點都沒提到或者不夠明顯,所以我就再簡潔的捋一下。...