強化學習過程中為什麼action最後總會收斂到設定的行為空間的邊界處?

時間 2021-06-03 23:11:31

1樓:小小程式猿

前兩天我也遇到這個問題,我的DDPG最後在測試集合上基本只產生兩個邊界值,在經過長時間的調參以後,我發現原因主要是有以下幾點:

網路沒有訓練好,關於這一點,又可以細分為以下幾點訓練樣本的資料分布非常的不均勻,可能你的樣本資料裡面就只在乙個很小的區間分布。解決方案:將樣本分佈較少的區間去掉,重新調參狀態空間。

比如你的action空間是[0,20],發現訓練樣本基本只在[0,10]分布,這個時候你可能需要把action區間調到[0,10]資料量小,而網路神經元過多,導致網路沒有train好。解決方案:降低網路的複雜度,兩層25的神經元或者單層50的神經元就可以了

Reward函式設定的有問題,reward值過大,導致方差比較大,網路特別難訓練,反正我嘗試了很多函式,最後reward分布在0-1之間效果會比較好,關於reward的設定沒有任何捷徑,基本你要結合自己的實驗來設計

撇開DDPG,你把連續空間離散化,換DQN上,可能比較好訓練一點以上就是我這兩個月的實作經驗,效果改進明顯。

2樓:

1、有可能你訓練時間還不夠,還需要繼續訓練。因為在空間的上下邊界切換的狀態,可以猜測agent應該是盡量避免較大的負反饋,還沒有開始選擇最優。

2、有可能是你的懲罰設定得太大了,導致中間狀態的evaluation普遍較低。

3、有可能是你連續空間的行為計算設定等問題。

3樓:

一般是動作空間的定義決定的,比如你的動作意義為速度或者加速度,那麼大多數情況下都是越大越好自然就收斂到邊界了,但是如果動作空間的定義是機械臂旋轉的角度之類(gym裡就有乙個典型的環境),就不會出現這種情況了。

強化學習中on policy 與off policy有什麼區別?

小錯 我認為對off policy對清晰的解釋是Sutton書中寫的 The learning is from the data off the target policy。策略需要有探索能力 隨機性 策略如何做到隨機探索?Off policy方法 將收集資料當做乙個單獨的任務On policy 行...

強化學習是什麼?

星晴 Reinforcement learning is learning how to map states to actions,so as to maximize a numerical reward signal in an unknown and uncertain environment...

在強化學習中,為什麼TRPO和PPO演算法屬於On Policy的演算法?

毛飛飛 off 或者 on,只與智慧型體計算的是Q還是V有關。PPO是通過舊策略取樣來估算新策略的V值,本質還是在計算當前策略取樣得到的V,所以取樣的策略和更新的策略是同乙個策略,所以它是on policy。真正的off policy都是更新Q s,a 的,比如DQN,DDPG,SAC。記錄的是 S...