為什麼都說神經網路是個黑箱?

時間 2021-05-07 00:07:27

1樓:一絲混亂

知道大技霸嗎?就是那個「俺尋思」然後造出的東西居然可以正常工作的。

DNN的情況就是一些人「俺尋思」調整,然後真的就能跑對了。

然後為啥這樣調整,這樣的意義是什麼,是否還有優化空間?統統說不清。

所以我們除了可以說神經網路是個黑箱以外也可以說工程師是神經網路大技霸

2樓:玄燁

所謂黑箱一說,指的不是結構黑箱或者資料黑箱,而是原理黑箱。而這種「黑箱」觀念實際上是源於一種很基本的錯誤認知:錯把資料當作目的,而其實資料只是手段。

神經網路的結構都是人設計好的,資料的流向雖然複雜但是明確的。神經網路的每層資料都是可視的,雖然資料量大,可以被精確的鎖定和觀察。

人無法解釋神經網路的運作原理,也不能清楚的解釋神經網路每一層提取特徵的具體功能,例如很多所謂破解黑箱的逆向工程會解釋說CNN的卷積核就是通過逐步對影象的邊角等基本影象特徵提取,然後將這些基本邊角特徵重組成簡單幾何圖形進行特徵提取,接著再將這些重組成更複雜的特徵,最終一步步到達人臉的抽象程度為止。

這就給設計神經網路的工程師帶來的困惑,他們會糾結,乙個神經網路識別乙個人臉到底需要幾層網路,卷積核的尺寸到底怎樣才是最佳的,對於網路的各個引數都希望定量,於是通過大量的時間進行調參尋找最優解。

這就令我想到,學生時期做數學時,凡是數學好的人往往更在乎計算的步驟是否嚴謹,但不一定總是把具體的結果記得很清楚(我就是這樣)。我們認為只要推理步驟和計算步驟不出錯,結果就不會出錯,而至於結果到底是多少,其實並不重要。但是數學差的人,往往糾結具體的數值結果。

更有甚者覺得對資料的精確記憶是值得炫耀的行為(有些時候很重要,但分場合),尤其是那些不懂技術的CEO張嘴閉口都是資料,然而這些資料要麼是胡編亂造的,要麼毫無意義,他們以為靠背誦的資料可以增加自己的權威形象(顯得自己很專業,可靠,可信),實則在真正專業人士眼中是一種低階的幼稚的表現。

【思維的轉變】:不應該把神經網路的引數/超引數看作一種目的,而是看作一種手段,不應該去思考它到底是什麼,而是應該去想如何得到它。

也就是說這手調引數的現象並不是神經網路本身的問題,是人的抽象思維不夠強的表現,也是現代數學和工程給人灌輸的一種錯誤的固執的思維模式,用低抽象思維去理解高抽象結構就像是乙隻猴子在擺弄一架航天飛船,簡單的講:乙個最佳的引數是多少其實並沒有如何找到這個引數更重要,同理神經網路的最優結構是什麼也並不重要,重要的是如何找到最優的神經網路結構。因為通用神經網路是乙個動態的時刻自我調節的模型,所以理論上根本不存在乙個訓練好的神經網路(只存在理想狀態下的訓練好的模型)。

重要的是掌握搜尋到最佳引數的方法,搜尋到最佳結構的方法。無論是圖神經網路(GNN),還是強化學習+遺傳演算法的結構搜尋,或者是Adam的自適應性,都是對這一理念的詮釋,【我們知道如何找到最優引數,我們並不需要知道它具體值是多少,因為它只是讓神經網路執行的手段,試圖反過來思考數值本身的意義,其實作用不大】。

舉個例子,假如一家公司需要會計方面的人才,於是應聘了乙個自認為合適的人選,你單獨去看這個人的簡歷時其實根本不能理解為什麼這家公司會招這個人,除非你能夠了解整個公司的結構、發展戰略和當下需求。很多時候我們很難預先設定好理想的條件,然後根據條件招人,而多是找人來實際在崗位上反覆測試,留下那個最適合的,但你問我為什麼這個人他最適合,其實原因並不是很重要,公司的規模在變化,需求在變化,要在每時每刻做出精確評估是根本辦不到的,關鍵是我找到了那個最合適的人,而且我總能找到。

神經網路的核心在於運用特定結構進行搜尋和對映。

所以傳統工程師那種手調引數的習慣實際上是一種陋習,沒有了手調引數的慣性思維就沒有神經網路黑箱的概念。

3樓:探索平等和諧

這是因為人類還沒有發現與建立智慧型與學習的理論基礎,對於人工智慧與機器學習的基本問題根本沒有建立理論框架來探索與回答。例如,學習的終極目標與目標函式是什麼?目標不同,學習的結果也會不同。

顯然,每個人大腦中目標與目標函式必須相同。否則,每個人對世界的認識結果都會不同,某人的認識對另乙個人就是黑箱。所以,如果不知道人腦學習中使用的目標與目標函式,神經網路的學習結果對人來說就是黑箱。

這就是為什麼神經網路具有不可解釋性這一重大缺陷。

4樓:李磊

這個問題也困擾了我好久 , 這段時間想通了 。神經網路本來就是黑箱,沒有「邏輯」, 所以所謂的「邏輯」應該是神經網路訓練的結果,就像人看到被槍瞄準會逃生, 本來就是長期的訓練結果,。 神經網路的方向可以放在訓練基本的邏輯和感知(類似於人類的潛意識)上, 然後可能能夠形成類似於人類的智慧型,比如說可以先嘗試訓練區分大小顏色長短輕重高低形狀速度時間感空間感重力感四則運算等等,基於此然後可以可以訓練更複雜的東西。

神經網路的本質就是複雜的曲線擬合, 和人類學習新的知識差不多。舉個例子來說, 炒房 , 房價從九十年代開始不斷攀公升 , 這個資料使很多人認為投資房產一定賺錢,如果放到神經網路裡訓練,我認為也是同樣的結果。

神經網路也許某一天可以被解釋, 那一天可能就是人類的新篇章或者災難

5樓:風城紀事

神經網路是黑箱的本質在於:引數太多了,模型的複雜度沒有明顯的上限和下限。以有涯隨無涯,殆矣。

當然很多對NN進行probing和summary的辦法也在不斷迭代中,比如說artificial occulusion就是很常用的找出agent的注意力的辦法。

對神經網路的研究更多地在向實驗而非理論的方向發展,歸根結底還是引數空間缺乏提煉。不過譜理論的應用似乎已經取得了一定的進展。

6樓:JasonShengWang

超參合適的DNN作為乙個耗散結構,轉化能量到資訊的效率很高。

細節無法重複,在誤差率可容許的範圍內(比如+-1%),網路的細節可以有很大的差別。

7樓:

神經網路在Machine Learning的範疇裡,是不具備數學上的guarantee的,以BP為代表的修正方法,只是在收斂在區域性的方法,而且一般用神經網路去模擬某種分布的時候,我們並不知道這個分布本身是否能夠是神經網路收斂(大部分的情況下是能夠收斂在Local optimum的)。

這一技術本身在設計上是基於仿生學的,所以在網路越來越深的時候,出現了越來越多的錯誤,是設計者意料之外的,而後來很多諸如dropout,relu之類的trick算得上是在補漏洞的措施,並沒有解決神經網路本身的缺陷。

但這一技術本身在算力增強的現在是具有實用意義的,前段時候做了NTMs(Neural Turing machine)的研討,從計算力本身加強了RNN 的擴容問題,但是NN本質的缺陷並沒有得到改變,個人覺得在沒有新的更加強力的模型之前,NN的餘熱還能穩住。

8樓:

我們模擬一下別的:

比如回歸,方法是怎麼樣的?設解→擬合。解為什麼這麼設?猜的。擬合給出的引數為什麼是這樣的?在某種指標上最接近樣本。

那麼你這裡設的解不是猜的?不完全是猜的,是根據理論模型猜的。

比如短時傅利葉變換和小波變換,同樣是擬合未知函式,為什麼選這一組基底?因為這一組基底在數學上是好的。為什麼頻域是這樣的?因為這樣的頻域結果和值域最接近。

這個解不是猜,而是用了一套數學上可行的基底,但是我們知道這個解給出了頻域特徵。

神經網路的問題是什麼?是你自己都不知道你設的解是什麼意思。這樣做的好處是什麼呢,是可以以任意精度設解而不需要根據理論模型去猜,這就類似於拉普拉斯變換,傅利葉變換,或者泰勒展開:

在數學上成立而不用關心實際情況。壞處是,你看不懂擬合結果。這比傅利葉分解更壞,因為你至少知道傅利葉分解的結果代表頻域。

這就是為啥說是黑箱,因為你看不懂神經網路的訓練結果。

但僅僅這樣還不是問題,問題是這個東西雖然在數學上說可以任意精度擬合,但是常常不靠譜。那麼,「這個東西為啥不靠譜」,「到底是它真的不靠譜還是我以為它不靠譜」……這就很難回答。

9樓:牧星人

因為說不清楚這個矩陣乘到底是個是麼過程,比如影象卷積是在幹啥,大家都是到在找特徵,但是背後的數學理論基礎沒人知道,知識多弄點引數狂塞資料自己嗨~

10樓:lens

滿足以下條件則神經網路可以理解:

1,表達語言相近,通常矩陣和我們的語言顯然比較遙遠;

2,表達結構相同,我們對世界的知識是樹形結構,現在的神經網路不是這樣;

3,表達內容相同,我們區分老虎和貓原因並不僅僅是外表,而神經網路僅僅通過外表區分其邏輯和我們顯然不同;

4,需要是人類本來就理解的領域,如果不理解那鐵定黑箱;

4,滿足以上條件還需要一點巧合,有效分類的邏輯並不一定只有人類的這一種,種類不多且正巧相同的時候才可能被理解。

11樓:鐵褥

我跟物理的導師說神經網路是黑箱,了解一下。描述了半天各個層如何傳遞引數,如何反向傳播,啟用函式,權重什麼的,ta聽了我的描述之後,很不解地問,這不就是乙個非線性函式而已麼。。

我竟無言以對。

12樓:

從回答看來,黑箱是相對的,是因人而異的。對我來說,神經網路不完全是黑箱,相當一部分是可以理解和解釋的。其實我沒遇到不可解釋的問題

cnn為什麼有效?因為資料存在區域性特徵。

網路中每個引數意義是什麼?權重,表示輸入重要的程度。

某一層某個卷積是什麼意思?代表某個抽象層次的乙個特徵。

乙個人臉識別的resnet20網路,其第3塊,第2個卷積層中的第5個卷積是什麼意思?有什麼功能? 視覺化技術可以回答這個問題

13樓:ascenoputing

以CNN為例,所謂的黑箱也不是那麼黑:

CNN訓練出乙個函式,這個函式沒有解析表示式,只知道是由一系列卷積核級聯組成的,至於它有什麼性質,知道的也不多。

每乙個卷積核,是由權重決定的,權重是由訓練得到的。

所以卷積核取決於以下因素:訓練集,目標函式,損失函式,學習率,訓練次數,以及初始化卷積核,所決定的。

人們對黑箱如此詬病的原因在於不知道怎樣確定最優的結構和引數。只能盲目試驗。

14樓:擺渡

15樓:

畢設是cnn,畢業後棄坑了。

以前在debug的時候,不知道要監視哪個節點,不知道每個節點輸出什麼意思,我就改了改超參和結構然後又從頭訓練一遍。想想這東西用在無人車,用在軍事上,完全不敢用。。。可能是我太菜了,不知道其他人怎麼調的。

傳統方法雖然效果沒那麼好,但每個運算元有數學描述,有相應的response,一旦出問題debug相對簡單點。

什麼是 end to end 神經網路?

小學僧 在講end to end之前,先要假設有這麼乙個任務,它需要分步完成。比如多視角三維重建,要經過sfm,點雲擴增等步驟,這些步驟是串聯的,乙個步驟的結果好壞會影響下乙個步驟的結果,每個步驟的模組單獨訓練,最後再級聯在一起,這些模組單獨達到最優時並不能保證串聯後輸出的結果達到最優,因為訓練這些...

神經網路是萬能的嗎?有了神經網路為什麼還要學習其他演算法?

臥聽清風 理解到你說的演算法應該指的是用於影象識別,大資料分析,資料分類等相關的演算法。但演算法的定義遠不止此,比如資料儲存的資料結構設計,排序等,這些基本的方法是提高程式效率的基礎。這些演算法顯然目前深度學習是無法代替的。而對於具體的問題。比如影象識別,資料分類等,神經網路確實以其良好的效果,得到...

RBF神經網路和BP神經網路有什麼區別?

DomainAdaptation 1,從模型結構上來看 RBF神經網路從圖形結構上來說,就是一種單隱層的神經網路.這個隱層的每個神經元輸出的是乙個RBF函式的值,這些RBF函式的核寬都是一樣的,它們中心要麼是每個訓練樣本點,要麼是訓練樣本點的聚類中心,當然還可以有其他。核化的支援向量機就可以看成是一...