在層數較少(3 6層)的神經網路中用 ReLU 層訓練效果會不會比 tanh sigmoid 層好?

時間 2021-05-05 15:00:22

1樓:穆為

從原理上講訓練神經網路的目標是找到其在訓練集上的區分力(對於同類資料的輸出值相近,而不同類資料的輸出值要盡可能大), tanh、sigmoid 是在複雜的網路中選擇值(value)來體現區分力,而tanh是在網路中選擇路徑(path,只啟用部分節點)來體現區分力,這種方式也許更接近人類大腦的工作方式。

2樓:jiumem

實際上這個不能一概而論。具體看資料的複雜度。對於僅有幾層的神經網路,如果資料容易建模,一般來說relu稍好與tanh。

然當資料不容易被建模,tanh稍好與relu,但實際上這個差距並不大,主要考慮的是啟用函式的非線性變化來代替層數的非線性變換,所以這個時候可能prelu,srelu之類的衍生啟用函式會更好一點。

3樓:劉詩昆

通常來說在訓練神經網路時,我們優先選擇ReLU。

ReLU主要的優點在於,1. gradient是常數; 2. sparsity的性質

而tanh/sigmoid 會因為input過大而導致gradient太小。

結合這樣的特性,ReLU在實際試驗中通常會比tanh/sigmoid 收斂快的多。

機器學習 深度學習 神經網路等網路的輸入層變數需要提前篩選嗎?

深藍遠景 傳統的機器學習需要人工篩選特徵,這個叫特徵工程。深度學習的出現,將特徵提取和監督學習放在乙個模型裡,如經典的CNN,通過不同的卷積核自動提取不同的特徵,最後接全連線進行監督學習。因此大多數深度學習都是直接將特徵輸入到輸入層監督學習,不同的深度可以學習到不同層次的特徵。 Leo李浩 仔細篩選...

神經網路的每一層網路 針對特定的問題 有什麼實際的意義嗎?

層中的節點可以看作是從輸入側資料空間到輸出側資料空間的一次變換 濾波,類似時域變換進頻域,只不過nn中是任意抽象空間 一層中不同節點代表對輸入資料在不同輸出空間中的變換,相當於針對輸入側資料不同特徵的提取 抽象 分別,怎麼叫都可以。後面的一層,相當於對前層已經抽象出的特徵的集合所構成的狀態空間再一次...

神經網路怎確定每一層的神經元個數和啟用函式啊

夜星辰 神經元個數隨便設定,看看效果,效果符合你要求那就可以了,不用改了。權重的意義就是更好的變換輸入的訊號,改變輸入特徵在超空間的表示,使網路能正確的完成任務。神經網路不是普通的矩陣乘法,矩陣乘法只適用於最基本的全連線網路的正向傳播過程。哦不,正向傳播過程也不完全是矩陣乘法,畢竟神經元裡還有啟用函...