1樓:響噹噹的人物
看了上邊幾個回答,基本上講的都是adaptive PPO,而且也沒講太清楚。
其實PPO的本質應該是:
對於likelihood-ratio policy gradient 演算法,本質上是增加「好」的樣本的概率,減小「差」的樣本的概率。那麼普通的策略梯度有什麼問題呢?就是對於乙個取樣,如果它的return碰巧很高,那麼它的概率會增長很快,相反如果return是負的很大值,那麼它的概率會減小很快。
這樣其實是不穩定的,因為策略梯度方差本身就很大。所以,PPO就把這類的樣本從更新中忽略了。就這樣而已
2樓:
策略梯度演算法中,訓練不穩定: 1、reward稀疏;2、target不固定,而是取樣得到。
於是在策略梯度演算法基礎上,新增約束: 更新前後的策略不要相差太大。
TRPO直接約束: 更新前後兩個策略的 KL 距離不超過一定閾值;
PPO說TRPO你同乙個閾值不適用於所有模型,也不適用於同乙個模型的不同訓練階段,且實現複雜。
PPO把約束轉換到loss函式中:
如果新策略 較舊策略在向好的方向變化,超過一定閾值,那新策略就不再優化了;但如果向壞的方向變化,該怎麼優化怎麼優化。
如果新的狀態值 較舊狀態更接近 target,超過一定閾值,那新狀態值函式就沒有必要優化;但較舊狀態更遠離 target,還是乖乖優化吧。
如何理解這種p2p換匯行為?
劉澤汀 在說Ripple之前,我們先說一下什麼是P2P。P2P一詞在國內近些年的頻繁使用已經逐漸特指 P2P網路借貸 而實際上P2P本意是點對點 point to point peer to peer 接下來我們說一下Ripple。Ripple是一種基於網際網路的開放協議,Ripple網路是基於此協...
如何看待P社公布新作《十字軍之王3》將去掉語句Deus Vult?
老頭魚 曲名 Deus non vult 上帝不會輕饒 Homines homines possunt historiam condonare 人類,縱使人類會寬恕歷史 Homines,homines possunt historiam condonare 人類,縱使人類會寬恕歷史 Sed deus...
如何看待NASA公布的地球2 0?
洛子鄢 不要回答!不要回答!不要回答!這個世界收到了你們的資訊。我是這個世界的乙個和平主義者,我首先收到資訊是你們文明的幸運,警告你們 不要回答!不要回答!不要回答!你們的方向上有千萬顆恆星,只要不回答,這個世界就無法定位發出源。如果回答,發射器將被定位,你們的文明將遭到入侵,你們的世界將被占領!不...