強化學習中q learning和MDP的區別是什麼？

1樓：YANG

MDP是乙個描述決策問題的概率模型，q-learning是乙個演算法。你說相似是因為q-learning解的就是bellman optimal equation，在MDP裡的value function的定義就是bellman equation。

和q-learning等價的是各種值迭代的演算法。

2樓：Junhong Xu

MDP不是方法，是描述在不確定下序列決策問題的乙個框架（更general的框架叫做POMDP）。Q learning是解決未知轉移概率和reward function的MDP的一種方法。

3樓：lafmdp

MDP是指模型已知，直接用規劃的方式計算全域性最優解；如在value iteration裡，其中是表示在狀態s下執行動作a後轉移到s'的概率，這表示目前已經有環境轉移的真實模型，在離散狀態下迭代求解，可以找到最優策略。

而Q-Learning面臨的是模型未知的方法，這時是未知的，於是只能通過在模型裡取樣，獲得 " eeimg="1"/>這樣的4-元組，用取樣去代替模型的轉移，並通過解Bellman optimal equation來得到最優策略。

4樓：無非爾耳

q learning是一種方法。mdp是指一類問題。兩個概念不在乙個緯度。q learning可以來解決一部分mdp問題

5樓：帶資料算命喵

如果你的MDP是指馬爾可夫決策過程的話，我覺得MDP只是乙個數學框架，而Q-learning是這個框架下的某個具體的演算法，他適用的問題需要滿足MDP的假設。