如何理解看待 OpenAI 公布PPO演算法？

1樓：響噹噹的人物

看了上邊幾個回答，基本上講的都是adaptive PPO，而且也沒講太清楚。

其實PPO的本質應該是：

對於likelihood-ratio policy gradient 演算法，本質上是增加「好」的樣本的概率，減小「差」的樣本的概率。那麼普通的策略梯度有什麼問題呢？就是對於乙個取樣，如果它的return碰巧很高，那麼它的概率會增長很快，相反如果return是負的很大值，那麼它的概率會減小很快。

這樣其實是不穩定的，因為策略梯度方差本身就很大。所以，PPO就把這類的樣本從更新中忽略了。就這樣而已

2樓：

策略梯度演算法中，訓練不穩定: 1、reward稀疏；2、target不固定，而是取樣得到。

於是在策略梯度演算法基礎上，新增約束: 更新前後的策略不要相差太大。

TRPO直接約束: 更新前後兩個策略的 KL 距離不超過一定閾值；

PPO說TRPO你同乙個閾值不適用於所有模型，也不適用於同乙個模型的不同訓練階段，且實現複雜。

PPO把約束轉換到loss函式中:

如果新策略較舊策略在向好的方向變化，超過一定閾值，那新策略就不再優化了；但如果向壞的方向變化，該怎麼優化怎麼優化。

如果新的狀態值較舊狀態更接近 target，超過一定閾值，那新狀態值函式就沒有必要優化；但較舊狀態更遠離 target，還是乖乖優化吧。

如何理解這種p2p換匯行為？

劉澤汀在說Ripple之前，我們先說一下什麼是P2P。P2P一詞在國內近些年的頻繁使用已經逐漸特指 P2P網路借貸而實際上P2P本意是點對點 point to point peer to peer 接下來我們說一下Ripple。Ripple是一種基於網際網路的開放協議，Ripple網路是基於此協...

如何看待P社公布新作《十字軍之王3》將去掉語句Deus Vult？

老頭魚曲名 Deus non vult 上帝不會輕饒 Homines homines possunt historiam condonare 人類，縱使人類會寬恕歷史 Homines,homines possunt historiam condonare 人類，縱使人類會寬恕歷史 Sed deus...

如何看待NASA公布的地球2 0？

洛子鄢不要回答！不要回答！不要回答！這個世界收到了你們的資訊。我是這個世界的乙個和平主義者，我首先收到資訊是你們文明的幸運，警告你們不要回答！不要回答！不要回答！你們的方向上有千萬顆恆星，只要不回答，這個世界就無法定位發出源。如果回答，發射器將被定位，你們的文明將遭到入侵，你們的世界將被占領！不...

如何理解看待 OpenAI 公布PPO演算法？

如何理解這種p2p換匯行為？

如何看待P社公布新作《十字軍之王3》將去掉語句Deus Vult？

如何看待NASA公布的地球2 0？

其他用戶還看了：