如何理解卷積神經網路（CNN）中的卷積和池化？

1樓：施念

我的理解：

乙個個卷積核相當於對影象進行區域性特徵提取，從而產生不同的feature map，具體的，在滑動過程中，某pixel所在的卷積區域與卷積核相似(相關)程度大的得到的值越大。多層卷積相當於進行深層次(高維度，更抽象)的特徵提取。

遲化層相當於對之前卷積提取到的每個feature map的區域性特徵進行篩選或融合，選取適當的有代表性的點來表示乙個區域，這樣做的目的是進行泛化以及降維(防止引數過多，訓練成本過高)。

2樓：李壞蛋

卷積

卷積的核心概念是filter。

filter可以看成乙個能在影象上滑動的小視窗，用於檢測特定的pattern。視窗每滑動一步，就做一次pattern檢測，檢測結果在對應的卷積層神經元輸出。

整個卷積層的輸出可以看成一張新的「影象」，其中每個「畫素」不是表示亮度，而是表示對應位置處pattern的顯著程度。

池化

池化把卷積層輸出的「影象」分成多個格仔，然後計算每個格仔內「畫素」的最大值或平均值，計算結果在池化層神經元的輸出。

池化有兩個目的：1 降維 2 translation invariant

降維：降維很好理解，經過池化層之後，「影象」變小了。

translation invariant：從池化的計算過程可以看出，pattern在池化的乙個格仔內移動，池化層的輸出不變，也就是說池化層對pattern的區域性位移不敏感。

3樓：秦夢秋

卷積層每次作用在乙個視窗，它對位置很敏感。池化層可以緩解這個問題，池化層會找出視窗中的最大值，至於最大值在視窗中的什麼位置，它不管。

4樓：YINGCHI.Joey

卷積其實只是式子複雜，形象地理解其實不難，卷積核你當做乙個濾波器，拿二維卷積而言，卷積的操作只是把卷積核(乙個矩陣)翻轉180度在影象上按照一定步長進行「遊走」，同時進行內積計算，卷積核選的合適的話，卷積計算後會過濾出目標影象的邊緣資訊，這是在當今CV/DL領域中非常重要的思想，當然，這個概念已經很早了。

池化的話，舉個例子，乙個班學生成績的池化，假如看教室的俯檢視，若教室裡學生座位是9*9的，那麼可以這樣池化，從左上角，每3*3區域的學生，選出乙個最高分代表整個區域，以此類推，整個教室池化完剩下9個區域的最大值成績，這就是所謂的「最大值池化」，當然，還有平均值池化，不用多說。

5樓：孫堯佳

可以看看這篇文章《An Intuitive Explanation of Convolutional Neural Networks》，感覺講的還挺詳細

翻譯版：[翻譯] 神經網路的直觀解釋

我只是個搬運工，非文章作者…侵刪

如何理解卷積神經網路（CNN）中的卷積和池化？

CNN（卷積神經網路） RNN（迴圈神經網路） DNN（深度神經網路）的內部網路結構有什麼區別？

如何理解一維卷積神經網路的輸入？

卷積神經網路中卷積核是如何學習到特徵的？

其他用戶還看了：