深度學習和強化學習之間的差別有多大?

時間 2021-05-06 06:45:44

1樓:

首先說一點,深度強化學習並不深,網路通常都挺淺的。通常講,使用神經網路模型提取特徵,採用梯度下降(上公升)優化引數的都稱為深度學習。

強化學習則不固定模型,不固定優化方法,你可以用Q表模型,也可以用演化計算優化引數,一般來講環境有狀態空間,動作空間,獎勵函式,狀態轉移函式,而且智慧型體在環境中能感知,能做決策就算強化學習。

2樓:

其實,可以從資料的角度考慮,根據資料不同來劃分各種學習。

有資料,有監督資訊,就是監督學習;有資料,沒有監督資訊,就是無監督或者自監督學習;有資料,可以構造部分(有雜訊)監督資料,就是半監督學習;如果沒有資料,需要去高效獲取有效資料,那麼就要用到強化學習,強化學習最關鍵的就是要高效的獲取對於學習任務最重要的資料,其最重要的任務就是高效獲取資料分布,所以強化學習才和GAN有緊密聯絡。

3樓:刀劍神域

我認為深度學習和強化學習之間的差距很大,好比牛郎織女的距離,與門外的人永遠無法知道門內精彩的世界乙個道理。首先,讓我們講講深度學習,深度學習關鍵是乙個深字,它與淺相反,要求的知其所以然,弄通各種問題的來龍去脈,並深入思考,能發散思維,將涉及到的其他事物聯絡起來應用於服務於自己。其次講一下強化學習,強化式得學習講的是乙個學習的程度,它可以是時間上空間上強化,如乙個月內每天學習10小時,可以通過資料的量化來衡量,當然強化學習還可以是技能掌握程度的衡量,但是它的程度總是不如深度學習的。

他們之間可能差距的就是反作用於我們自身的差別!乙個深度學習書法的人可以通過臨摹他們但開創自己獨有的一套書法,而強化學習的結果是止步於以假似真。所以認識到兩者的差距,並能有意識的從強化學遞進到深度學,那意義就非同凡響了!

願每個愛學習的你,都是最好的自己!

4樓:枕草子

差別是有的,大不大在於所處的領域以及個人的方式方法。

定義:深度學習是指在系統知識的縱向發現線上做引申的學習了解。掌握相關環節的先後邏輯關係和事件順序。

強化學習指在對應到每個環節作出相應的鞏固,通過發散類似的事件或者問題總結出屬於自己系統的解決思路。也可以理解為技能的橫向鞏固提公升。

深度強化學習(deep reinforcement learning,DRL)是深度學習與強化學習相結合的產物,它整合了深度學習在視覺等感知問題上強大的理解能力,以及強化學習的決策能力,實現了端到端學習。深度強化學習的出現使得強化學習技術真正走向實用,得以解決現實場景中的複雜問題。

如果你從抽象層次來看待深度強化學習的話,它會被描述為是這樣的乙個智慧型體,能夠隨著時間的推移從它所在的環境中進行學習。這看起來似乎是完全正確的,而且也確實模仿了現實,所有的生物都是從出生開始就學習如何在它們所處的環境中生存和探索。我們之所以知道這一點,是因為我們已經進行了許多實驗,經驗表明,如果我們改變和限制新生生物所在的生存環境,它們就會學到不同的東西,並且,行為也會有所不同。

5樓:「已登出」

強化學習所學習的,是當我們處在某個環境下,我們應該做的最好的決策是什麼?

假設我們所處的狀態(State)是有限的,例如在開車的時候,前面紅燈還是綠燈,前後左右有沒有車,這些資料可以歸結為有限多個狀態。

假設前面有車沒車,左邊有車沒車,前面是紅燈還是綠燈,這樣簡單的歸類,我們就有2x2x2 = 8種狀態,狀態數量可以任意多,有限即可(甚至對於無限個狀態,我們也可以模糊的歸結為有限)

每個狀態下我們能做的事情(行動,action)是有限個的,還是開車,我們是直行、還是停下來等,這也就2種行動而已

在有限個狀態下,有限個行動下,如果我們想在某種狀態下選擇乙個最好的行動,並且如何學習到這種選擇,就是強化學習的目標

深度學習是強化學習的深度學習版,其實並不高階。它使用乙個神經網路來代替Q-table,因為狀態可能太多了(雖然有限,但是數量太大),不過依然要求行動是有限的(例如幾十種行動)

我們定義乙個神經網路,輸入是當前狀態,輸出是每個行動的收益,我們希望結果是訓練出這個網路,每當我們輸入乙個狀態獲得每個行動的收益,然後我們可以從結果中選擇收益最大的行動來直行,也就是代替Q-table的作用。

6樓:SWrite互鏈文件

深度學習: 基於網路結構的模型的統稱, 不同的網路結構又有不同名稱, 如: CNN-卷積神經網路, RNN-迴圈神經網路, 等等

強化學習: 一種任務目標, 和很多任務目標不同的是, 強化學習中有"環境"的概念, 且環境本身會有乙個reward 反饋. 入門經典的例子是伯克利的Pacman(下面放了鏈結) .

7樓:Crimson Sky

用一種很不準確的歸納

vanilla deep learn - differentiable == reinforcement learning

8樓:早安蝸牛

深度學習與強化學習就好比與跑步,一種是你發自內心的想法我要去跑步,另一種是當你有很明確的目的以後,可以是別人在背後拖著你或者拉著你去跑。

乙個是發自內心的喜歡,你去學習的思維更加深,思考的也會h更加的多,而不是帶著目的去為了完成任務而完成任務

9樓:sake九離

深度學習就是相當於自己的興趣以及愛好,喜歡某一方面的學習,一直在鑽研,所以深度學習是一種特別好的習慣;

強化惡習就是說為了達到某一種目的而去瘋狂的補課,這種情況是別人強逼著去學習,並不是自己內心想要的東西;

總體來說這兩者之間差別真的挺大,並不是同乙個層次的東西。

10樓:233333

深度學習,1.有情境,看定義的時候,生活中的例子就會經常想起2.有聯絡,不同知識點之間,與不同解題思路之間進行結合。

3.思考過程,或者解題流程,每一步,編排好,比較細緻於每一步的注意點,也就是自己經常錯的部分。

引發思考的時候,對於我來說都是乙個突然想起知識點之間的聯絡。或者突然想起自己可以模擬推理於很多方面。

例如:圓的周長公式與導數,可以推導面積公式,這是平面球的表面積公式和導數,可以推導體積公式,這是立體。

強化學習,我經常是,自己忘記知識點或解題思路並沒有在腦中構架完整。

1.偏於記憶。

2.完成以後細節處,經常也會忘

感覺不好就別噴了,你願意笑就笑吧

剩餘的和這個沒關。

我也說一下。

我在學平面向量的時候,總是學不好,有些題型總是做不出來。

當老師講的時候,我又突然想到了一些,然後就自己可以做出來。

過了沒有半個月,就又忘了,最後掌握的時候還是有一些細節 ,處理不當我在思考的過程中,第一會想自己這都一些定義掌握不全,剩下的才會想是否自己的。解題思路和解題技巧出現問題

11樓:花卷來啦

強化學習和深度學習是兩種技術,只不過深度學習技術可以用到強化學習上,這個就叫深度強化學習.

1.強化學習其實也是機器學習的乙個分支,但是它與我們常見的機器學習不太一樣。它講究在一系列的情景之下,通過多步恰當的決策來達到乙個目標,是一種序列多步決策的問題。

強化學習是一種標記延遲的監督學習。

2.強化學習實際上是一套很通用的解決人工智慧問題的框架,很值得大家去研究。另一方面,深度學習不僅能夠為強化學習帶來端到端優化的便利,而且使得強化學習不再受限於低維的空間中,極大地拓展了強化學習的使用範圍。

12樓:Autobots

深度學習是像人一樣模仿,給定輸入輸出,擬合資料,學習規律;

強化學習是像人一樣自學,給定目標,通過不斷的探索和試錯找到規律實現目的;

13樓:CK1998

DL是乙個理論上可以擬合任意函式的建模工具

RL是一種獲取訊號的方式

在現代深度學習框架下兩個模組可以相互配合,這才有了DRL

14樓:中原一點紅

將兩者聯絡起來,也就是所謂的深度強化學習,此時兩者可以分別為對方定義中的一部分。

從深度學習的角度看強化學習:強化學習一方面基於獎勵為深度學習提供了評估方式,作為學習的偏好,例如為神經網路提供了損失函式。另一方面由於是在解決序列決策的問題,所以也為深度學習提供了資料獲取的方式。

從強化學習的角度看深度學習:強化學習的目的是通過與環境的互動修正行為,最大化期望獎勵。在這裡深度學習是作為乙個工具,提供了從狀態到行動的對映,用於決策。

15樓:嘟嘟蘭卡

深度學習:廣播體操從第一套完整地做到第八套

強化學習就是做廣播體操第八套第一節,第一節,第一節如此反覆。

所以最怕的就是工作後領導和你說:要深度強化地完成這項工作······

16樓:大可奇

翻看了好多答友的回覆,個人覺得太複雜了,所以我簡單的描述一下這兩者之間的差別吧。

深度學習

在練武功的時候,我們可能會進入一種忘我或者是深度冥想的狀態,能夠在不知不覺中提公升自己的武功修為,這是我們非刻意的隨心地練武功。

強化學習

在練武功的時候,我們會反覆練習乙個動作或者一套招式,這就是在強化,提高我們對這些動作的熟練度,是我們刻意的強迫自己去練武功。

17樓:空白人偶

深度學習是就是乙個字精,強化學習就是添磚加瓦。

還不明顯嗎,就像蓋房子。

強化學習是一塊磚一塊磚的,房子沒蓋成的時候,加一塊磚便是強化。

而深度學習便是一次次強化,一次次加磚後,房子蓋成了便是深度學習。

前面說了深度學習就是乙個字精,是一種極致,是一種結果的最後的精。

而強化學習是精益求精,卻不是極致的最後的精,強化學習是乙個過程,就像是電視劇集從開始到劇終的過程。

「聞而不知,知而不見,見而不懂,懂而不悟。」

強化學習是聽聞也不是聽聞,因為強化強化,都沒聽過怎麼強化。可就因為聽聞過才會看的見,這也是強化。

從聞開始之後的知是強化,之後的見更是強化。強化學習是過程,就看到哪一步。

那不用說,深度學習便是懂是悟。

一塊磚或一塊塊磚和乙個房子的差別,那你說深度學習和強化學習差別有多大?

18樓:墨明棋妙

首先,深度學習是以資料為中心,以深層次的神經網路堆疊為架構(如ResNet可以達到152層),只要資料樣本足夠大,資料種類足夠豐富,訓練的神經網路泛化能力就強,效果就越好。而強化學習並不是資料量越多越好,神經網路的層數也不需要很多層,一般三四層卷積神經網路或是全連線層就可以搭建乙個強化學習的神經網路框架。強化學習遵循馬爾科夫(MDP)決策,是以策略(Policy)獎懲(reward)為中心,只要策略(Policy)和獎懲(reward)設計得好,網路就表現的不錯,學習質量就越高。

強化學習主要是把object看成乙個智慧型體,然後與環境進行互動,對智慧型體做出的動作進行評價,比較優的動作就會被強化,經典的強化學習演算法有DQN、DDPG、A3C等。下圖是強化學習的乙個基本框架:

總的來說,深度學習並不是強人工智慧的終極實現方式,因為它大量依賴於資料,只要資料不夠或者種類不豐富,神經網路泛化能力效果就差,甚至比傳統的自動控制技術還要差,所以這也就是為什麼人工智慧(AI)技術在工業上的許多領域都沒有大規模應用的原因。工業上獲取大量的資料需要很高的成本,不划算。而強化學習,在筆者看來,是最終實現強人工智慧的一種途徑。

比如AIphaGo、遊戲博弈、王者榮耀等智慧型體戰勝人類運用的都是強化學習的方法。但不可否認的是,現在強化學習還是在萌芽的階段,在許多方面還沒有深度學習成熟,遷移能力也不行,如果換個環境就需要重新訓練一次,工業上的gap也是被許多人詬病的乙個方面。但是我堅信強化學習是通往未來強AI世界的乙個重要通道!

強化學習相比深度學習有什麼優勢嗎?

Noel 如果是有監督的深度學習,它的流程一般是借助深度網路 大量有標籤資料完成深層特徵提取,進而把這些特徵用在資料分類,特徵遷移,機器翻譯等等領域。強化學習涉及的面非常廣,比較被人所熟知的工作就是用神經網路做自動控制。可以基於策略,也可以基於價值。比如使用DQN 值函式近似 做決策來自動玩雅達利遊...

機器學習 深度學習以及強化學習在金融領域有哪些應用?

GorgeousShar 據我所知,兩年前就有人做量化投資方面的交易了,但是收益嘛。因為資料一般是波段操作,這就導致了目前需要進行一些監督,並且演算法有限,現在還有些距離,個人期待AutoML能夠解決這個問題 gutu Granth 瀉藥,反洗錢反欺詐領域有很大的運用,NLP 之類演算法在這方面應用...

一文概覽深度強化學習(一) Value based DRL

織田前右府 有可能出的中國產歷史劇vs已經出過的NHK大河劇 柔福 帝姬們的靖康 vs 江 公主們的戰國 楊門虎將 vs 真田太平記 二次革命日記 vs 太平記 新 曹家物語 vs 新 平家物語 瓦崗英雄傳 vs 風與雲與虹 世民 vs 義經 大唐法師玄奘 vs 武藏坊弁慶 存勖 vs 信長 李淵 ...