強化學習中,如果狀態轉移函式P和獎勵函式R均已知,是否就退化為動態規劃問題,不能稱之為強化學習了?

時間 2021-05-31 04:49:34

1樓:Frank Tian

是的,退化為了動態規劃問題。

但是,依舊可以被稱為強化學習問題。

如果狀態轉移函式P和獎賞函式R已知,這意味著agent對環境建模了,也就是所謂的model-based,接下來我們只需要動態規劃就可以找到最優策略。

這樣的方法這叫做,間接強化學習。沒錯,只用動態規劃也依舊是強化學習。

但是,模型並不是在每一種情況都很容易得到。當你的模型不容易建立的時候,不建模而直接學習值函式的方法可能更有效。這樣的方法被稱為直接強化學習

2樓:

可以先看看wiki的解釋:

In machine learning, the environment is typically formulated as a Markov Decision Process(MDP), as many reinforcement learning algorithms for this context utilize dynamic programming techniques.[2]

[1][3]The main difference between the classical dynamic programming methods and reinforcement learning algorithms is that the latter do not assume knowledge of an exact mathematical model of the MDP and they target large MDPs where exact methods become infeasible.

wiki裡也只是簡單地說明了RL和DP兩者的不同。

個人認為,如果你覺得強化學習必須涉及「學習」的過程,那麼在MDP已知的條件下,就不能稱之為強化學習。如果你覺得強化學習只是求解MDP問題的一類方法,那麼DP也只是求解特殊條件下的強化學習問題的一種方法而已。

3樓:

動態規劃可以用來求解強化學習問題,題主的情況應該是乙個model-based RL的問題,可以用dynamic programming來求解。

Reinforcement learning is learning what to do—how to map situations to actions—so as to maximize a numerical reward signal.

但是它確實還是RL的問題。

4樓:

當MDP狀態轉移矩陣P和獎勵函式R已知情況下,的確可直接用動態規劃(Dynamic Programming,DP)求解。Sutton老師的第四章全章內容就是如何用DP來求解問題的。但是不能說它不是強化學習,原因如下:

動態規劃提供了理想狀態(P和R全知)下求解辦法,但它在強化學習中無實用解決問題的價值。原因:一方面是真實現實情況下P和R不可知,無法用DP求解;一方面是即使P和R全知,動態規劃計算開銷也大,方法實用性不高。

這個實事並不妨礙DP是強化學習的基礎,因為它為強化學習各種辦法(蒙特卡洛方法、TD方法)提供了理論基礎。原因在於Bellman方程在強化學習的根本性地位,以及動態規劃用Bellman方程迭代進行策略評估的方法:

強化學習的各種演算法,都是想在不完美的現實條件下(P,R不全知,甚至P完全不知)盡辦法去逼近DP迭代出的最優價值函式,或最優策略。所以離開DP提供的理論標尺,強化學習就不好敘述了。

更重要的一點,就是動態規劃中出現的策略評估與策略改進相愛相殺,它們倆相互配合尋求最優價值函式和最優策略。這其實是廣義策略迭代(generalized policy iteration, GPI),而GPI可以抽象概括幾乎全部強化學習方法。

所以我們要看到動態規劃對於強化學習「道」的一方面,而不要僅看其「術」的層面或細節。實際上,Sutton老師在第四章已經把DP在強化學習中的地位說得很清楚了:

Classical DP algorithms are of limited utility in reinforcement learning both because of their assumption of a perfect model and because of their great computational expense, but they are still important theoretically. DP provides an essential foundation for the understanding of the methods presented in the rest of this book. In fact, all of these methods can be viewed as attempts to achieve much the same eect as DP, only with less computation and without assuming a perfect model of the environment.

強化學習中狀態空間大,在只有達到特定的狀態才能給出獎勵的設定下,agent很難探索到特定狀態,怎麼辦?

biuT4 題主的問題屬於sparse reward問題,由於環境的reward訊號太少,在agent探索的過程中,環境沒有辦法指導agent探索的方向。之前的幾個答案已經給了很多解決這類問題的方法,我在補充幾個 imitation learning reinforcement learning 使...

強化學習中q learning和MDP的區別是什麼?

YANG MDP是乙個描述決策問題的概率模型,q learning是乙個演算法。你說相似是因為q learning解的就是bellman optimal equation,在MDP裡的value function的定義就是bellman equation。和q learning等價的是各種值迭代的演...

在強化學習中,為什麼TRPO和PPO演算法屬於On Policy的演算法?

毛飛飛 off 或者 on,只與智慧型體計算的是Q還是V有關。PPO是通過舊策略取樣來估算新策略的V值,本質還是在計算當前策略取樣得到的V,所以取樣的策略和更新的策略是同乙個策略,所以它是on policy。真正的off policy都是更新Q s,a 的,比如DQN,DDPG,SAC。記錄的是 S...