強化學習中q learning和MDP的區別是什麼?

時間 2021-05-06 23:34:38

1樓:YANG

MDP是乙個描述決策問題的概率模型,q-learning是乙個演算法。你說相似是因為q-learning解的就是bellman optimal equation,在MDP裡的value function的定義就是bellman equation。

和q-learning等價的是各種值迭代的演算法。

2樓:Junhong Xu

MDP不是方法,是描述在不確定下序列決策問題的乙個框架(更general的框架叫做POMDP)。Q learning是解決未知轉移概率和reward function的MDP的一種方法。

3樓:lafmdp

MDP是指模型已知,直接用規劃的方式計算全域性最優解;如在value iteration裡 ,其中 是表示在狀態s下執行動作a後轉移到s'的概率,這表示目前已經有環境轉移的真實模型,在離散狀態下迭代求解,可以找到最優策略。

而Q-Learning面臨的是模型未知的方法,這時是未知的,於是只能通過在模型裡取樣,獲得 " eeimg="1"/>這樣的4-元組,用取樣去代替模型的轉移,並通過解Bellman optimal equation來得到最優策略。

4樓:無非爾耳

q learning是一種方法。mdp是指一類問題。兩個概念不在乙個緯度。q learning可以來解決一部分mdp問題

5樓:帶資料算命喵

如果你的MDP是指馬爾可夫決策過程的話,我覺得MDP只是乙個數學框架,而Q-learning是這個框架下的某個具體的演算法,他適用的問題需要滿足MDP的假設。

強化學習演算法例如Q learning中gamma為什麼不能為1?

Iverson 這個問題,問的非常好。如Lee所說,gamma不必須為1.設定gamma小於1的意義在於加速收斂,因為如果缺乏收斂能力,意味著你無限遠視,遠視雖好,但在解決複雜問題時,就會讓的的AI演算法試圖窮盡所有的狀況空間和可能性,這對算力的要求是乙個挑戰。但對於問題不夠複雜解空間有限的情況,確...

強化學習,Q learning的收斂性如何證明?

飯飯 這個證明挺簡潔的。核心就是把Q learning變形成Theorem 2中的隨機過程的形式,然後驗證這種形式的Q learning是否滿足Theorem 2中關於隨機過程收斂的條件。值得一提的是,這裡收斂的條件其實是大數定律收斂條件的推廣,或者說一般化情況。步長條件 一般來說需要 1 絕對可和...

強化學習中on policy 與off policy有什麼區別?

小錯 我認為對off policy對清晰的解釋是Sutton書中寫的 The learning is from the data off the target policy。策略需要有探索能力 隨機性 策略如何做到隨機探索?Off policy方法 將收集資料當做乙個單獨的任務On policy 行...