強化學習,基於Bellman最優方程的model free演算法?

時間 2021-06-03 15:14:27

1樓:劉景初

actor critic用的是期望方程。

p.s. sasar其實也在用期望方程,只不過期望的policy是當前value估計下的greedy policy。

2樓:Ming

不大確定我理解了問題,不知道actor critic 演算法裡用supervised learning來update critic,用policy gradient來update actor算不算題主想要的

3樓:張章

試著答一下,有不準確的地方還請指出。

強化學習裡面的「Model」指的是 S->S'的概率分布,即在當前狀態下實施某個動作會抵達什麼新狀態。在題中列出的期望方程和最優方程中,都有P^a_這一項。就是說這兩個方程其實都是假設Model是已知的。

也就是說他們都不適用於Model-free的強化學習。

在Model-free的設定中,如果我們不知道S-S'的概率分布,那麼我們怎麼才能得到v或者q呢?很簡單,做取樣(sampling)就是了。就好像我不知道全世界人的平均身高,那最簡單的方法就是抽取幾個樣本估計一下。

這種完全基於取樣的強化學習方法就是強化學習裡面的Monte-carlo方法。

在Monte-carlo中,如果我想要知道v(s),那麼我得等到乙個週期(episode)結束才行。Temporal difference方法(例如Q-learning 和 SARSA)是Monte-carlo和Dynamic programming(例如policy iteration和value iteration)的結合。我想要通過取樣得到v(s),我不需要等到乙個週期結束,我只取當前時間取樣所得的R_,再加上我估計的v(S_)就可以了。

CMU Rusland教授的Deep Reinforcement Learning課程上的一張幻燈片比較清晰的分析了Monte-carlo,Temporal difference和Dynamic programming的區別。

兩個讀博offer,德國馬普所基於強化學習的機械人導航和瑞士蘇黎世聯邦理工虛擬實境方向,該如何選擇?

勒布朗之歌 恭喜樓主。拿到兩個在歐洲頂級的offer。我想主要是看導師的匹配度,如果導師都差不多還是選eth吧,mpi一般在很村的城市,沒有eth國際化 eth平台也好,知名度高 工資啥的雖然絕對數量上不一樣,但二者都能過得非常非常舒服,phd的工資也不能讓你發大財。 首先,恭喜樓主,這兩個offe...

強化學習是什麼?

星晴 Reinforcement learning is learning how to map states to actions,so as to maximize a numerical reward signal in an unknown and uncertain environment...

強化學習中on policy 與off policy有什麼區別?

小錯 我認為對off policy對清晰的解釋是Sutton書中寫的 The learning is from the data off the target policy。策略需要有探索能力 隨機性 策略如何做到隨機探索?Off policy方法 將收集資料當做乙個單獨的任務On policy 行...