強化學習，基於Bellman最優方程的model free演算法？

1樓：劉景初

actor critic用的是期望方程。

p.s. sasar其實也在用期望方程，只不過期望的policy是當前value估計下的greedy policy。

2樓：Ming

不大確定我理解了問題，不知道actor critic 演算法裡用supervised learning來update critic，用policy gradient來update actor算不算題主想要的

3樓：張章

試著答一下，有不準確的地方還請指出。

強化學習裡面的「Model」指的是 S->S'的概率分布，即在當前狀態下實施某個動作會抵達什麼新狀態。在題中列出的期望方程和最優方程中，都有P^a_這一項。就是說這兩個方程其實都是假設Model是已知的。

也就是說他們都不適用於Model-free的強化學習。

在Model-free的設定中，如果我們不知道S-S'的概率分布，那麼我們怎麼才能得到v或者q呢？很簡單，做取樣（sampling）就是了。就好像我不知道全世界人的平均身高，那最簡單的方法就是抽取幾個樣本估計一下。

這種完全基於取樣的強化學習方法就是強化學習裡面的Monte-carlo方法。

在Monte-carlo中，如果我想要知道v(s)，那麼我得等到乙個週期（episode）結束才行。Temporal difference方法（例如Q-learning 和 SARSA）是Monte-carlo和Dynamic programming（例如policy iteration和value iteration）的結合。我想要通過取樣得到v(s)，我不需要等到乙個週期結束，我只取當前時間取樣所得的R_，再加上我估計的v(S_)就可以了。

CMU Rusland教授的Deep Reinforcement Learning課程上的一張幻燈片比較清晰的分析了Monte-carlo，Temporal difference和Dynamic programming的區別。

強化學習，基於Bellman最優方程的model free演算法？

兩個讀博offer，德國馬普所基於強化學習的機械人導航和瑞士蘇黎世聯邦理工虛擬實境方向，該如何選擇？

強化學習是什麼？

強化學習中on policy 與off policy有什麼區別？

其他用戶還看了：