關於深度學習中adaptive learning rate的問題，比如RMSprop？

1樓：AsSalmon

我是這樣理解的，有不對的望指正...

引數更新時，使用梯度下降演算法更新，沿著梯度方向是變化最快的方向。訓練集資料量很大的時候，使用SGD，每次只用一小批資料更新，這時候根據這一小批資料計算出的梯度和前面用全部訓練集資料計算的梯度是有一點誤差的，即梯度方向並不是下降最快的方向，會有偏差。

2樓：Jarlene

adaptive_learning_rate的目的是為了加速收斂（或者跳出區域性最優），adaptive_learning_rate可以理解為分兩部分，乙個是學習率自適應，一般來說訓練剛開始的時候學習率希望較大，來加速。到後期希望學習率較小來精準。因此學習率自適應一般和迭代次數有關係（倒數或者其他什麼的）。

第二個目的是為了跳出區域性最優。可能在某個地方的梯度是的cost function減少最快，但是對應的解卻不是全域性最優解，因此可以嘗試改變梯度方向使得訓練跳出區域性最優，當然在隨機梯度下降方法的時候，改變梯度方向也可以加速訓練。

關於深度學習中adaptive learning rate的問題，比如RMSprop？

深度學習中「Transformer」怎麼翻譯為中文？

如何理解深度學習中的deconvolution networks？

python中神經網路，機器學習，深度學習，人工智慧的關係？

其他用戶還看了：