強化學習相比深度學習有什麼優勢嗎？

1樓：Noel

如果是有監督的深度學習，它的流程一般是借助深度網路+大量有標籤資料完成深層特徵提取，進而把這些特徵用在資料分類，特徵遷移，機器翻譯等等領域。

強化學習涉及的面非常廣，比較被人所熟知的工作就是用神經網路做自動控制。可以基於策略，也可以基於價值。比如使用DQN（值函式近似）做決策來自動玩雅達利遊戲，還有alphazero來下圍棋（MCTS+值函式近似+策略函式）。

強化學習也可以用於自動控制以外的領域，比如chat bot。

強化學習最出色的地方是，它的訓練不需要有標籤資料，只需要給定乙個環境，乙個reward公式，和乙個自動學習的模型，就可以不斷自我提公升。顯然強化學習比起有標籤訓練成本低的多，僅看alphago的發展史，最早的alphago要先用監督學習來學習大量圍棋大師的落子策略，然而圍棋大師的策略並不保證是最好的，再者高質量的棋局也並不容易收集到，這就讓監督學習的ai有乙個來自資料的限制。但是alphazero版本，ai完全通過自對弈就能學習提公升，其表現成功碾壓了老版的alphago。

不過其強化學習的收斂性分析等理論基礎，以及把強化學習應用到一般場景中的方法還需要進一步研究完善。

2樓：劉凱

這兩個不是乙個概念。

與強化學習屬於同乙個範疇的是監督學習和非監督學習，講的是對不同問題的建模過程，而強化學習則是對過程的建模。

深度學習則是一種擬合資料的方式，與之相對應的有gbdt、隨機森林、svm等等，上述三類學習建模方法都可以使用深度學習來擬合訓練集。而深度學習是強化學習使用最多的擬合方式。

我猜題主問得是監督學習和強化學習的區別。如上所述，這兩個方法適用的場景不一樣，監督學習不能對過程建模，它要擬合的目標只是乙個時間點的資訊，不會對未來的收益做建模，而強化學習則要擬合未來的累計期望收益來確定當前的最佳動作。

3樓：龔家吉

你好，這兩個東西不能這樣直接比較，強化學習是可以運用深度學習的。比如，深度神經網路可以和強化學習結合起來，openai的DQN就是最早的例子。

如果單說強化學習的優勢，那一般是和監督式學習做比較。監督式學習需要標籤，強化學習不需要標籤，可以通過每個狀態的獎勵去自主學習。

雖然非監督式學習也不需要標籤，比如聚類之類的問題，但和強化學習還是差別挺大的。

強化學習相比深度學習有什麼優勢嗎？

機器學習深度學習以及強化學習在金融領域有哪些應用？

深度學習和強化學習之間的差別有多大？

用什麼辦法可以利用深度學習或強化學習解決多目標優化問題？

其他用戶還看了：

強化學習相比深度學習有什麼優勢嗎？

機器學習 深度學習以及強化學習在金融領域有哪些應用？

深度學習和強化學習之間的差別有多大？

用什麼辦法可以利用深度學習或強化學習解決多目標優化問題？

其他用戶還看了：

機器學習深度學習以及強化學習在金融領域有哪些應用？