為什麼很少看到使用On policy方法解決Multi agent RL問題的工作？

1樓：np.random

說一說我個人的理解吧：On Policy演算法有乙個很致命的缺陷就是資料利用率太低。舉例Policy Gradient演算法，是從當前時刻開始取樣，一直到達這個epoch的terminal state然後開始計算discount reward，進行梯度更新，最後重新開啟一輪epoch，取樣-更新。

在第二輪epoch中，前一輪的歷史資料完全被摒棄了，其實在上一輪中的歷史資料也包含著一些可學習的知識的，但在該演算法下被完全丟掉了。

因此，我們可以看出on policy的演算法會存在兩個問題：

更新頻率不穩定，因為一定要等到乙個epoch到達terminal state才能計算出total reward進行一次模型更新，但遊戲到底在什麼時候結束是不確定的，甚至是沒有結束狀態都是有可能的，這將導致模型更新頻率也不穩定。

資料的重複利用率很低，向上面提到的，上一輪的epoch雖然可能包含很豐富的經驗資訊，但只用了一次後就被丟掉了。

off-policy的方法就能很好的解決上述問題，乙個歷史資料可以被重複使用很多次，提高了資料利用率，像在Multi-Agent這種比單體控制複雜很多的場景下，資料的重複利用率是非常重要的，眾所周知，RL中最耗時的其實不是演算法更新而是與環境互動採集資料，off-policy就能使得演算法迭代進化的速度更快，大概這就是為什麼現在都偏好使用off policy解決多體問題吧。

為什麼很少看到使用On policy方法解決Multi agent RL問題的工作？

為什麼生活中很少看到使用五筆打字的人？

為什麼很少看到名叫阿凡提的人？

為什麼很少看到球員用臉抵擋射門？

其他用戶還看了：