為什麼很少看到使用On policy方法解決Multi agent RL問題的工作?

時間 2021-05-09 08:15:16

1樓:np.random

說一說我個人的理解吧:On Policy演算法有乙個很致命的缺陷就是資料利用率太低。舉例Policy Gradient演算法,是從當前時刻開始取樣,一直到達這個epoch的terminal state然後開始計算discount reward,進行梯度更新,最後重新開啟一輪epoch,取樣-更新。

在第二輪epoch中,前一輪的歷史資料完全被摒棄了,其實在上一輪中的歷史資料也包含著一些可學習的知識的,但在該演算法下被完全丟掉了。

因此,我們可以看出on policy的演算法會存在兩個問題:

更新頻率不穩定,因為一定要等到乙個epoch到達terminal state才能計算出total reward進行一次模型更新,但遊戲到底在什麼時候結束是不確定的,甚至是沒有結束狀態都是有可能的,這將導致模型更新頻率也不穩定。

資料的重複利用率很低,向上面提到的,上一輪的epoch雖然可能包含很豐富的經驗資訊,但只用了一次後就被丟掉了。

off-policy的方法就能很好的解決上述問題,乙個歷史資料可以被重複使用很多次,提高了資料利用率,像在Multi-Agent這種比單體控制複雜很多的場景下,資料的重複利用率是非常重要的,眾所周知,RL中最耗時的其實不是演算法更新而是與環境互動採集資料,off-policy就能使得演算法迭代進化的速度更快,大概這就是為什麼現在都偏好使用off policy解決多體問題吧。

為什麼生活中很少看到使用五筆打字的人?

麗芳 我是個從小用五筆的人,打字就是要用五筆才能顯得不一樣啊,而且字根一旦記住,真的是條件反射式的,完全不用腦子,還有就是至少不會忘了字是怎麼寫。我周圍用五筆的人也不少,也可能是人以群分 tan tan 我今年35.那中專那會兒開的計算機課學五筆是必須內容,所以我初次打字就是用的五筆,全班同學都這樣...

為什麼很少看到名叫阿凡提的人?

已登出 阿凡提是希臘語,意思是老師。其真身是乙個土庫曼人 注意了,是土庫曼人,而不是回鶻葛羅祿系統的維族或者烏孜別克族 真名是 納塞爾丁 意思是 信仰的勝利 Din 是伊斯蘭教中的乙個概念,類似於信仰,但又和 伊瑪尼 不盡相同。伊朗 突厥穆斯林有很多類似的名字,比如花帝國皇帝扎蘭丁明布林努 阿拉丁摩...

為什麼很少看到球員用臉抵擋射門?

張維 題主沒有嘗試過被射門悶在臉上的感覺吧?那種街邊瞎踢的水平,一腳射門悶在臉上也夠你暈一會兒的,職業球員比賽中大力射門用臉來接?GK可以直接抬下去了 楊芃 你以為真沒有?圖樣啊少年 郭紅宇 這是個生物學問題,首先面部是很柔弱的,飛過來個蚊子你都得閉眼,飛過來球肯定是下意識的躲,其次,除非你是長頸鹿...