強化學習是什麼?

時間 2021-05-12 03:14:49

1樓:星晴

Reinforcement learning is learning how to map states to actions, so as to maximize a numerical reward signal in an unknown and uncertain environment.

2樓:海晨威

強化學習,其思想其實很接近人類的思考方式,這也是為什麼說它很有可能成為未來通用人工智慧的正規化,這裡舉乙個人類的例子,嘗試著去解釋強化學習的思想,並對應到強化學習的組成部分中去:

其實,強化學習就是通過不斷與環境互動,利用環境給出的獎懲來不斷的改進策略(即在什麼狀態下採取什麼動作),以求獲得最大的累積獎懲。

在上述問題中,獎就是喝奶,懲就是打屁屁,在摔倒狀態下,是選擇哭還是爬起來,不同的動作會有不同的獎懲;初始的策略是哭和爬起來都有可能。但根據獎懲,小屁孩學到了摔倒之後爬起來是乙個更好的策略,因此之後都會選擇這個策略,這樣就可以最大化累積獎懲—喝很多很多奶。

強化學習和有監督學習的主要區別在於:

1、有監督學習的訓練樣本是有標籤的,強化學習的訓練是沒有標籤的,它是通過環境給出的獎懲來學習

2、有監督學習的學習過程是靜態的,強化學習的學習過程是動態的。這裡靜態與動態的區別在於是否會與環境進行互動,有監督學習是給什麼樣本就學什麼,而強化學習是要和環境進行互動,再通過環境給出的獎懲來學習

3、有監督學習解決的更多是感知問題,尤其是深度學習,強化學習解決的主要是決策問題。因此有監督學習更像是五官,而強化學習更像大腦。

如果是從基礎入門強化學習,一些可以參考的資料可參見我的另乙個回答:強化學習怎麼入門好?

3樓:David 9

我想這篇博文可以幫到您:

#15 增強學習101 閃電入門 reinforcement-learning

對經驗「抽樣」的藝術:增強學習(RL)的底層邏輯線索,回顧與總結

4樓:鷹掠無痕

加強學習最重要的幾個概念:agent,環境,reward,policy,action。環境通常利用馬爾可夫過程來描述,agent通過採取某種policy來產生action,和環境互動,產生乙個reward。

之後agent根據reward來調整優化當前的policy。

5樓:潔西卡大姐姐

人的一生其實都是不斷在強化學習,當你有個動作(action)在某個狀態(state)執行,然後你得到反饋(reward),嘗試各種狀態下各種動作無數次後,這幾點構成腦中的馬爾可夫模型,使你知道之後的行為什麼為最優。

所以你現在才知道什麼東西好吃,什麼東西好玩,什麼妹子你喜歡。

6樓:

強化學習(RL)是乙個序列決策問題。

例子:撩妹的過程就是乙個優化問題。你的每一時刻的行為會對你最終撩妹是否成功,以多大的收益成功都會有影響。

那麼,你就會考慮,每一步採取什麼行為才能(最優)撩妹!這可以看作乙個RL問題。你肯定迫不及待的想知道怎麼去求解了!

假設1:你是第一次撩妹。那麼你會去求教他人,逛各種論壇,總之收集大量相關知識。這個過程就是experience data。利用離線資料來train乙個model。

假設2:過去你有很多撩妹經驗。你似乎又發現總是按照套路來並不能成功。

嗯,經典的探索與利用問題,於是你嘗試了其他方法,你發現獲得了更好的效果。嗯,more optimal policy

將上述過程對應到RL中:

action:你的行為

state:你觀察到的妹子的狀態

reward:妹子的反應:開心or不開心

ps:撩妹tm還是部分可觀測問題,難怪我多年無解啊!哈哈!

至此,乙個RL的基本模型已經建立。

7樓:

強化學習的優點是什麼?

Cerulean 強化學習的優點是可以把訓練集當驗證集和測試集用。開玩笑的。如果你task的樣本的分布,以及均值方差之類的統計量不隨時間漂移或者漂移的尺度很小,同時屬於不太好標註標籤的序列決策問題,強化學習會在這類問題中效果拔群,同時依靠自身學習的訓練過程,只需要近似無腦的把這個 遊戲 打無窮多遍就...

強化學習相比深度學習有什麼優勢嗎?

Noel 如果是有監督的深度學習,它的流程一般是借助深度網路 大量有標籤資料完成深層特徵提取,進而把這些特徵用在資料分類,特徵遷移,機器翻譯等等領域。強化學習涉及的面非常廣,比較被人所熟知的工作就是用神經網路做自動控制。可以基於策略,也可以基於價值。比如使用DQN 值函式近似 做決策來自動玩雅達利遊...

強化學習中on policy 與off policy有什麼區別?

小錯 我認為對off policy對清晰的解釋是Sutton書中寫的 The learning is from the data off the target policy。策略需要有探索能力 隨機性 策略如何做到隨機探索?Off policy方法 將收集資料當做乙個單獨的任務On policy 行...