強化學習過程中為什麼action最後總會收斂到設定的行為空間的邊界處？

1樓：小小程式猿

前兩天我也遇到這個問題，我的DDPG最後在測試集合上基本只產生兩個邊界值，在經過長時間的調參以後，我發現原因主要是有以下幾點：

網路沒有訓練好，關於這一點，又可以細分為以下幾點訓練樣本的資料分布非常的不均勻，可能你的樣本資料裡面就只在乙個很小的區間分布。解決方案：將樣本分佈較少的區間去掉，重新調參狀態空間。

比如你的action空間是[0,20]，發現訓練樣本基本只在[0,10]分布，這個時候你可能需要把action區間調到[0,10]資料量小，而網路神經元過多，導致網路沒有train好。解決方案：降低網路的複雜度，兩層25的神經元或者單層50的神經元就可以了

Reward函式設定的有問題，reward值過大，導致方差比較大，網路特別難訓練，反正我嘗試了很多函式，最後reward分布在0-1之間效果會比較好，關於reward的設定沒有任何捷徑，基本你要結合自己的實驗來設計

撇開DDPG，你把連續空間離散化，換DQN上，可能比較好訓練一點以上就是我這兩個月的實作經驗，效果改進明顯。

2樓：

1、有可能你訓練時間還不夠，還需要繼續訓練。因為在空間的上下邊界切換的狀態，可以猜測agent應該是盡量避免較大的負反饋，還沒有開始選擇最優。

2、有可能是你的懲罰設定得太大了，導致中間狀態的evaluation普遍較低。

3、有可能是你連續空間的行為計算設定等問題。

3樓：

一般是動作空間的定義決定的，比如你的動作意義為速度或者加速度，那麼大多數情況下都是越大越好自然就收斂到邊界了，但是如果動作空間的定義是機械臂旋轉的角度之類（gym裡就有乙個典型的環境），就不會出現這種情況了。