強化學習相比深度學習有什麼優勢嗎?

時間 2021-05-10 17:06:35

1樓:Noel

如果是有監督的深度學習,它的流程一般是借助深度網路+大量有標籤資料完成深層特徵提取,進而把這些特徵用在資料分類,特徵遷移,機器翻譯等等領域。

強化學習涉及的面非常廣,比較被人所熟知的工作就是用神經網路做自動控制。可以基於策略,也可以基於價值。比如使用DQN(值函式近似)做決策來自動玩雅達利遊戲,還有alphazero來下圍棋(MCTS+值函式近似+策略函式)。

強化學習也可以用於自動控制以外的領域,比如chat bot。

強化學習最出色的地方是,它的訓練不需要有標籤資料,只需要給定乙個環境,乙個reward公式,和乙個自動學習的模型,就可以不斷自我提公升。顯然強化學習比起有標籤訓練成本低的多,僅看alphago的發展史,最早的alphago要先用監督學習來學習大量圍棋大師的落子策略,然而圍棋大師的策略並不保證是最好的,再者高質量的棋局也並不容易收集到,這就讓監督學習的ai有乙個來自資料的限制。但是alphazero版本,ai完全通過自對弈就能學習提公升,其表現成功碾壓了老版的alphago。

不過其強化學習的收斂性分析等理論基礎,以及把強化學習應用到一般場景中的方法還需要進一步研究完善。

2樓:劉凱

這兩個不是乙個概念。

與強化學習屬於同乙個範疇的是監督學習和非監督學習,講的是對不同問題的建模過程,而強化學習則是對過程的建模。

深度學習則是一種擬合資料的方式,與之相對應的有gbdt、隨機森林、svm等等,上述三類學習建模方法都可以使用深度學習來擬合訓練集。而深度學習是強化學習使用最多的擬合方式。

我猜題主問得是監督學習和強化學習的區別。如上所述,這兩個方法適用的場景不一樣,監督學習不能對過程建模,它要擬合的目標只是乙個時間點的資訊,不會對未來的收益做建模,而強化學習則要擬合未來的累計期望收益來確定當前的最佳動作。

3樓:龔家吉

你好,這兩個東西不能這樣直接比較,強化學習是可以運用深度學習的。比如,深度神經網路可以和強化學習結合起來,openai的DQN就是最早的例子。

如果單說強化學習的優勢,那一般是和監督式學習做比較。監督式學習需要標籤,強化學習不需要標籤,可以通過每個狀態的獎勵去自主學習。

雖然非監督式學習也不需要標籤,比如聚類之類的問題,但和強化學習還是差別挺大的。

機器學習 深度學習以及強化學習在金融領域有哪些應用?

GorgeousShar 據我所知,兩年前就有人做量化投資方面的交易了,但是收益嘛。因為資料一般是波段操作,這就導致了目前需要進行一些監督,並且演算法有限,現在還有些距離,個人期待AutoML能夠解決這個問題 gutu Granth 瀉藥,反洗錢反欺詐領域有很大的運用,NLP 之類演算法在這方面應用...

深度學習和強化學習之間的差別有多大?

首先說一點,深度強化學習並不深,網路通常都挺淺的。通常講,使用神經網路模型提取特徵,採用梯度下降 上公升 優化引數的都稱為深度學習。強化學習則不固定模型,不固定優化方法,你可以用Q表模型,也可以用演化計算優化引數,一般來講環境有狀態空間,動作空間,獎勵函式,狀態轉移函式,而且智慧型體在環境中能感知,...

用什麼辦法可以利用深度學習或強化學習解決多目標優化問題?

Implicit Regularization in Deep Matrix Factorization arxiv 1905.13655 寶珠道人 根據題主的問題描述,我的理解其實是題主想知道怎麼用深度學習或者強化學習求解多目標的問題。而不是已有答主所側重的優化問題。令人開心的是,2017年,Ne...