強化學習是什麼？

1樓：星晴

Reinforcement learning is learning how to map states to actions, so as to maximize a numerical reward signal in an unknown and uncertain environment.

2樓：海晨威

強化學習，其思想其實很接近人類的思考方式，這也是為什麼說它很有可能成為未來通用人工智慧的正規化，這裡舉乙個人類的例子，嘗試著去解釋強化學習的思想，並對應到強化學習的組成部分中去：

其實，強化學習就是通過不斷與環境互動，利用環境給出的獎懲來不斷的改進策略（即在什麼狀態下採取什麼動作），以求獲得最大的累積獎懲。

在上述問題中，獎就是喝奶，懲就是打屁屁，在摔倒狀態下，是選擇哭還是爬起來，不同的動作會有不同的獎懲；初始的策略是哭和爬起來都有可能。但根據獎懲，小屁孩學到了摔倒之後爬起來是乙個更好的策略，因此之後都會選擇這個策略，這樣就可以最大化累積獎懲—喝很多很多奶。

強化學習和有監督學習的主要區別在於：

1、有監督學習的訓練樣本是有標籤的，強化學習的訓練是沒有標籤的，它是通過環境給出的獎懲來學習

2、有監督學習的學習過程是靜態的，強化學習的學習過程是動態的。這裡靜態與動態的區別在於是否會與環境進行互動，有監督學習是給什麼樣本就學什麼，而強化學習是要和環境進行互動，再通過環境給出的獎懲來學習

3、有監督學習解決的更多是感知問題，尤其是深度學習，強化學習解決的主要是決策問題。因此有監督學習更像是五官，而強化學習更像大腦。

如果是從基礎入門強化學習，一些可以參考的資料可參見我的另乙個回答：強化學習怎麼入門好？

3樓：David 9

我想這篇博文可以幫到您:

#15 增強學習101 閃電入門 reinforcement-learning

對經驗「抽樣」的藝術：增強學習(RL)的底層邏輯線索，回顧與總結

4樓：鷹掠無痕

加強學習最重要的幾個概念：agent，環境，reward，policy，action。環境通常利用馬爾可夫過程來描述，agent通過採取某種policy來產生action，和環境互動，產生乙個reward。

之後agent根據reward來調整優化當前的policy。

5樓：潔西卡大姐姐

人的一生其實都是不斷在強化學習，當你有個動作（action）在某個狀態（state）執行，然後你得到反饋（reward），嘗試各種狀態下各種動作無數次後，這幾點構成腦中的馬爾可夫模型，使你知道之後的行為什麼為最優。

所以你現在才知道什麼東西好吃，什麼東西好玩，什麼妹子你喜歡。

6樓：

強化學習（RL）是乙個序列決策問題。

例子：撩妹的過程就是乙個優化問題。你的每一時刻的行為會對你最終撩妹是否成功，以多大的收益成功都會有影響。

那麼，你就會考慮，每一步採取什麼行為才能（最優）撩妹！這可以看作乙個RL問題。你肯定迫不及待的想知道怎麼去求解了！

假設1:你是第一次撩妹。那麼你會去求教他人，逛各種論壇，總之收集大量相關知識。這個過程就是experience data。利用離線資料來train乙個model。

假設2:過去你有很多撩妹經驗。你似乎又發現總是按照套路來並不能成功。

嗯，經典的探索與利用問題，於是你嘗試了其他方法，你發現獲得了更好的效果。嗯，more optimal policy

將上述過程對應到RL中：

action：你的行為

state：你觀察到的妹子的狀態

reward：妹子的反應：開心or不開心

ps：撩妹tm還是部分可觀測問題，難怪我多年無解啊！哈哈！

至此，乙個RL的基本模型已經建立。

7樓：