深度學習中，使用relu存在梯度過大導致神經元「死亡」，怎麼理解？

1樓：

從頭訓練centernet，學習率是作者的100x，訓練集的loss一直是5.5左右。因為很多神經元死了。後面再怎麼調學習率也無力回天。

What is the "dying ReLU" problem in neural networks?

2樓：xugenpeng

當學習率或者更新的梯度過大時，有可能會使得神經元的輸入小於0（對於所有的樣本），此時會使得神經元輸出關於神經元輸入的梯度等於0（即），從而有

使得與該神經元連線的所有權值的梯度都為0，即與該神經元相連的引數都得不到更新，神經元進入"休眠"狀態，具體過程如下圖所示：

圖：反向傳播過程

3樓：pangzi

搬運乙個昨天看到的，感覺還行

What is the "dying ReLU" problem in neural networks?

What is the 'dying ReLU' problem in neural networks?

4樓：無茗

What is the "dying ReLU" problem in neural networks?

5樓：Ryan

大的梯度導致某個神經元權重更新的過猛，之後小的梯度對它的權重更新太慢，使得模型訓練陷入了僵局。這種情況大多都是learning rate過高。降低learning rate，使用momentum等方法可以有效的避免這種情況。

深度學習工作站中使用AMD的CPU會有問題嗎？

我實驗室的2990WX和自用的3700X搭配過各種各樣的Nvidia和AMD顯示卡，都沒有任何問題有問題，因為牙膏粉對牙膏的信仰是無價的眾所周知，牙膏粉比黃老闆更懂深度學習233333 我們實驗室統一雙路7742配置，主業跑cfd，但是有乙個師弟做強化學習的，目前他那台機子用的還好，沒有找我反映...

強化學習中使用多個agent完成多個子任務，獲得多個reward,如何將其作為乙個共同的目標進行優化？

強化學習解決的是序列決策問題。首先，我們退一步，將序列決策問題退化為單步決策問題。在這個條件下，傳統的單agent強化學習對應的是優化理論中的單目標優化，多agent強化學習對應的是多目標優化。多個agent獲得的reward實際上就是需要優化的多個子目標。因此，我們可以將單agent 多agent...

很多開源的深度學習專案都是使用linux開發的，而我使用的是windows系統，我該怎麼跑這些專案？

Anaconda 你值得擁有，實在不行整個 AWS。像 Google Colab FloydHub 這些雲端工具也完全可以拿來上手。其實大家說的都差不多了，我就來補充一些把，其實現在新的windows版本，都帶了虛擬機器。你只需要開啟虛擬機器，安裝Linux就可以了，隨便怎麼折騰。謎題建議還是...

深度學習中，使用relu存在梯度過大導致神經元「死亡」，怎麼理解？

深度學習工作站中使用AMD的CPU會有問題嗎？

強化學習中使用多個agent完成多個子任務，獲得多個reward,如何將其作為乙個共同的目標進行優化？

很多開源的深度學習專案都是使用linux開發的，而我使用的是windows系統，我該怎麼跑這些專案？

其他用戶還看了：