如何理解看待 OpenAI 公布PPO演算法?

時間 2021-05-07 01:41:49

1樓:響噹噹的人物

看了上邊幾個回答,基本上講的都是adaptive PPO,而且也沒講太清楚。

其實PPO的本質應該是:

對於likelihood-ratio policy gradient 演算法,本質上是增加「好」的樣本的概率,減小「差」的樣本的概率。那麼普通的策略梯度有什麼問題呢?就是對於乙個取樣,如果它的return碰巧很高,那麼它的概率會增長很快,相反如果return是負的很大值,那麼它的概率會減小很快。

這樣其實是不穩定的,因為策略梯度方差本身就很大。所以,PPO就把這類的樣本從更新中忽略了。就這樣而已

2樓:

策略梯度演算法中,訓練不穩定: 1、reward稀疏;2、target不固定,而是取樣得到。

於是在策略梯度演算法基礎上,新增約束: 更新前後的策略不要相差太大。

TRPO直接約束: 更新前後兩個策略的 KL 距離不超過一定閾值;

PPO說TRPO你同乙個閾值不適用於所有模型,也不適用於同乙個模型的不同訓練階段,且實現複雜。

PPO把約束轉換到loss函式中:

如果新策略 較舊策略在向好的方向變化,超過一定閾值,那新策略就不再優化了;但如果向壞的方向變化,該怎麼優化怎麼優化。

如果新的狀態值 較舊狀態更接近 target,超過一定閾值,那新狀態值函式就沒有必要優化;但較舊狀態更遠離 target,還是乖乖優化吧。

如何理解這種p2p換匯行為?

劉澤汀 在說Ripple之前,我們先說一下什麼是P2P。P2P一詞在國內近些年的頻繁使用已經逐漸特指 P2P網路借貸 而實際上P2P本意是點對點 point to point peer to peer 接下來我們說一下Ripple。Ripple是一種基於網際網路的開放協議,Ripple網路是基於此協...

如何看待P社公布新作《十字軍之王3》將去掉語句Deus Vult?

老頭魚 曲名 Deus non vult 上帝不會輕饒 Homines homines possunt historiam condonare 人類,縱使人類會寬恕歷史 Homines,homines possunt historiam condonare 人類,縱使人類會寬恕歷史 Sed deus...

如何看待NASA公布的地球2 0?

洛子鄢 不要回答!不要回答!不要回答!這個世界收到了你們的資訊。我是這個世界的乙個和平主義者,我首先收到資訊是你們文明的幸運,警告你們 不要回答!不要回答!不要回答!你們的方向上有千萬顆恆星,只要不回答,這個世界就無法定位發出源。如果回答,發射器將被定位,你們的文明將遭到入侵,你們的世界將被占領!不...