為什麼 Deep Learning 最先在語音識別和影象處理領域取得突破？

1樓：科大訊飛

深度學習源於人工神經網路(artificial neural network, ANN)的研究。人工神經網路是機器學習與人工智慧領域的一種模型，它的提出是為了模擬人類神經系統對事物的認知和學習能力。而人類的視覺系統和聽覺系統是最直觀的、也是受到最多關注的人類神經系統。

例如目前影象處理領域最流行的模型--卷積神經網路，其就是受到神經科學對動物的視覺神經系統的研究而提出來的。所以將神經網路應用到語音識別以及影象處理領域一直受到研究人員的關注。另外深度學習本質上是利用深層的神經網路進行多層的非線性特徵提取和轉化。

人類對語音頻號以及影象訊號的處理和感知就是乙個典型複雜的訊號與資訊處理過程，而且在生物學上是具有明顯的多層次或深層次處理結構。

所以，對於這種復雜訊號採用深層的結構，利用多層的非線性變換提取語音及影象訊號中的結構化資訊和高層資訊，似為更合理的選擇。所以大量的語音以及影象處理領域的專家和學者投入到深度學習的研究中，針對具體問題，提出大量的演算法和改進的網路結構，這使得基於深度學習的語音識別以及影象處理獲得了突破性的進展。此外另乙個原因是計算能力以及資料量的問題。

早在上世紀90年代就有大量關於神經網路應用到語音識別以及影象處理領域的研究，但是當時沒有取得成功。因為神經網路是乙個十分複雜的模型，包含大量的引數，所以需要大量的資料進行訓練，才可以保證模型的擴充套件性。以前計算機的計算能力達不到，這也限制了可以使用的訓練資料量。

目前進入大資料時代，在語音以及影象領域都可以獲得海量的使用者資料，同時計算機計算能力獲得了極大的提公升，使得用海量資料訓練深度神經網路成為可能。這也促成了深度學習在語音識別以及影象處理領域取得突破。

2樓：

深度學習只是類腦計算的乙個支流。類腦計算實際上存在兩個技術層面：第1層面是「走出諾依曼框架」，主要屬於人工神經網路的大範疇；第2層面是「基於神經科學的計算機演算法」，試圖超越人工神經網路框架和擺脫權值計算模型，實現對生物腦的高逼真性模擬。

所以歐盟都已經聯合開始研究人腦，都成立乙個叫「人類腦計畫」，美國也開始關注類腦。所以從人腦開始研究，最先應該是人的感觸得到啟發。比如視覺，聽覺等！

所以原先音訊和影象是較好採集得到的，並且有一定的研究基礎在。後期在各個領域都會涉及到類腦，所以這個方向是前途無量的，希望我們這些新手可以一起互相交流學習，共同進步！

3樓：

個人一點感受：人腦功能包括兩個層次：右腦->感知、直覺左腦->語言、邏輯，深度學習是模擬了右腦的功能。要真正實現AI，左腦功能是必須要解決的，所以最終還是要回到符號主義上來。

4樓：科研小丁

大神，最近工作需要，要研究語音識別演算法，有沒有系統的資料可以學習，還有開源的框架TensorFlow 和微軟的CNTK哪個更適合快速構建出自己的語音系統

5樓：

其實因為其它問題的特徵工程比較好做，很多特徵的選取和處理都是比較顯而易見的，特別是一些業務場景，什麼商品推薦啊、廣告投放啊之類，跟業務相關度很強，這時候deep learning很複雜又未必能提高多少。而影象、音訊這些領域，特徵整體而言複雜度很高，因此deep learning的優勢就發揮出來了

6樓：唐煒

個人研究和分析後的綜合感覺，大腦的認知方式碰巧和這種深度的方式在某些層面上比較類似。

神經學的實驗也顯示出類似的情況，視覺是個計算過程，從視網膜的影象到V1，V2，V4，一直到IT層，大腦其實也是通過視網膜到皮層到皮層到皮層 ......一點點計算出來的。當然，這個計算和反饋機制估計和現在多層深度學習的方式不是一模一樣，也許很多地方不同，但應該有些類似的地方了

7樓：楊超

1.這兩個問題相對簡單

2.幾十年來語音識別和影象識別一直都在做基於神經網路的研究比如 dengli和yudong很多年前就一直在嘗試用nn代替gmm

3.這兩個問題有一定的工業價值也方便拿來炒作公司花錢標註了許多資料另外語音識別中涉及到很多東西神經網路的改進只是其中一小塊所謂的突破不過是某些人鼓吹的其實用nn做語音這塊本是微軟的成果但微軟也沒覺得有啥驚天大突破結果被某些只會吹噓急功近利的公司抄去後就天天沒完的吹都是鬧劇而已！

8樓：張騰

對影象不是很懂，就語音識別領域說一下吧。在語音識別領域有一則廣為人知的軼事，曾經提出基於統計的語音識別框架的賈里尼克教授在IBM工作時說：我們每開除乙個語言學家，我們的語音識別系統識別率就上公升一點。

如今的語音識別，基於統計的方法佔據絕對的主流優勢，而三四十年前的基於規則的方法越來越式微。為什麼要說這個呢，其實DNN在語音識別中的應用很有限。整體的HMM框架是沒有人會動的，DNN只是其中的一部分，而DNN代替的這一部分，有很多優化策略是基於規則的，至少是基於經驗的，這正是統計學習方法裡面的大忌。

當大家不能確定一件事情的對錯時，總是希望把它假設為隨機的，引入的知識越少就越靠譜，因為你無法保證你的引入是正確的。DNN很多時候都是在消除人為引入的先驗知識。至於說為什麼人們明知道有問題還會引入這些知識，那實在是因為以前的學習方法實在學習不了如此複雜的模型。

至於影象裡面，我個人的直觀印象應該與影象鄰域結構有關吧。

而且你說進展很大或者進展不大，這個標準實在不好界定。現在很多地方都在用DNN，而且也有不少結果出現，只能說語音識別和影象處理有比較完善的模型，在結果上也更好比較更加容易為人所知，但至少就語音識別領域而言，我個人的意見是，DNN的意義並沒有它所宣傳的那麼大。

9樓：張昊

首先不確定是不是偽命題，因為在其他方面也有很多進步，比如，深度學習新演算法，完成字裡行間的情緒識別-CSDN.NET，還有http://

licstar.net/archives/32

8不過，仿人的AI演算法，大多強調於image processing和audio processing，因為這是人最能直接感知的東西...相信在課堂裡學習基礎的機器學習演算法的時候，也是強調於此，至少我是這樣

10樓：

在影象上，也就是Hinton那幫人做了CUDA-CONVNET出來，能用GPU跑，才突然大火起來，今年ImageNet LSVRC2013 上一窩蜂都是用Deep Learning的。其實他們用的卷積網路從發明以來從來都是work的，而且天然就是個deep structure。最近的所謂「突破」，我想更可能是因為影象天然的易於並行化適合了GPU或者分布式系統的計算特點，以及我們可以輕易獲得大量的影象訓練樣本。

11樓：陳樂天

DL當然有它的優勢，有一些進展，對於AI有些貢獻。但是個人覺得，人工神經網路，還是人工湊出來的網路結構，打著模擬人腦的旗幟，不論你怎麼學習，我們還不知道大腦是到底如何處理資訊，神經網路只是結構上的模擬，內部機制呢，所以最近搞生物研究結合計算機的挺熱的。最終還是得從生物方面弄清楚大腦機制才是王道。

所以個人不同的觀點是，大佬手一揮，大部隊往上湧，其實離人工智慧還遠著。不過畢竟研究就是各種新鮮的嘗試。一萬次實驗成功一次就是成功。

DL應該是最近看來比較好的嘗試之一，不過稍稍熱多了一點。

12樓：非理

我感覺有兩方面：

1. 影象識別比自然語言處理中的很多問題，比如詞義消歧本身要簡單。我自己個人判斷的土辦法是，如果人容易處理的（在人工智慧這方面），那麼計算機就相對容易處理，反之亦然。

2. 影象處理比較容易並行化，適合GPU計算，計算週期較小，這樣可以更好地調整引數。語言處理一算就要好幾個星期，調整引數很難。

從理論上而言，神經網路可以模擬任何潛在函式，如果資料太少就會過度擬合。但是我們目前還沒有這麼多計算能力來計算如此龐大的資料。

13樓：

有些時候我們神話了DeepLearning。在很多 IR 和NLP的領域，已有的模型已經取得了很好的效果。比如英語的Parser已經快95%了，你怎麼指望DNN去給你做的更高。

很多時候明明可以用很簡單的模型就可以解決的，我們就別用DNN了。。。而自然語言正是很多事情簡單的模型已經搞定了，就不需要DNN了，不能很好的提公升效果

14樓：tonychen

降維和出色的模式識別能力不能簡單的說Deep learning在這兩方面的應用 deep learning是乙個框架，其中還有針對不同引用可以換模組比如深度卷積神經網路和深度可信度網路

為什麼 Deep Learning 最先在語音識別和影象處理領域取得突破？

深度學習（deep learning）距離實際應用還有多遠，會有大規模應用嗎？

如何評價吳恩達的DeepLearning最新課程Sequence Model？

如何判斷兩個Deep Learning 資料集的資料分布是否一致？

其他用戶還看了：