卷積(Convolution),也叫褶積,是分析數學中一種重要的運算。在信號處理或圖像處理中,經常使用一維或二維卷積,本博文我們來學習一維卷積和二維卷積。
理解一維卷積和二維卷積的核心在于把握維度對特征提取方式的影響。我們從數學定義、幾何意義和應用場景三個維度展開分析,并通過對比揭示其本質差異。
一、數學定義對比
1.?一維卷積 (1D Convolution)
特性:
-
滑動方向:單一方向(時間軸/序列方向)
-
感受野:連續區間
-
參數數量:K×Cin×Cout
2.?二維卷積 (2D Convolution)
特性:
-
滑動方向:兩個正交方向(高度+寬度)
-
感受野:矩形區域
-
參數數量:Kh?×Kw?×Cin?×Cout?
二、幾何意義解析
1.?一維卷積的幾何視角
特征提取模式:
-
在時間軸上滑動的局部窗口
-
捕獲時序相關性(如語音中的音素過渡)
-
典型模式檢測:
-
上升沿檢測核:
[1, 0, -1]
-
振動檢測核:
[1, -2, 1]
-
2.?二維卷積的幾何視角
特征提取模式:
-
在平面網格上滑動的局部窗口
-
捕獲空間相關性(如圖像中的邊緣走向)
-
典型模式檢測:
-
水平邊緣檢測核:
-
45度對角線檢測核:
-
三、計算過程對比演示
案例1:一維卷積實例
輸入序列:[3, 5, 2, 6, 8]
卷積核:[0.5, -1]
計算過程(步長=1,無填充):
位置1: 3×0.5 + 5×(-1) = 1.5 -5 = -3.5 位置2: 5×0.5 + 2×(-1) = 2.5 -2 = 0.5 位置3: 2×0.5 + 6×(-1) = 1 -6 = -5 位置4: 6×0.5 + 8×(-1) = 3 -8 = -5
輸出:[-3.5, 0.5, -5, -5]
案例2:二維卷積實例
輸入矩陣:
卷積核:
計算過程(步長1,無填充):
位置(1,1): 1×1 + 3×0 + 4×(-1) + 6×0.5 = 1 -4 +3 = 0位置(1,2): 3×1 + 2×0 + 6×(-1) + 5×0.5 = 3 -6 +2.5 = -0.5位置(2,1): 4×1 + 6×0 + 7×(-1) + 9×0.5 = 4 -7 +4.5 = 1.5位置(2,2): 6×1 + 5×0 + 9×(-1) + 8×0.5 = 6 -9 +4 = 1
輸出矩陣:
四、本質差異深度分析
維度 | 特征提取方向 | 參數空間 | 不變性 | 典型應用 |
---|---|---|---|---|
1D | 單方向時序關系 | O(K) | 時間平移 | 語音識別、股票預測 |
2D | 二維空間關系 | O(K^2) | 空間平移 | 圖像分類、醫學影像 |
關鍵差異點:
-
鄰域結構:
-
1D:線性鄰域(前序-當前-后續)
-
2D:平面鄰域(包含空間拓撲關系)
-
-
參數復雜度:
-
1D參數量隨核長度線性增長
-
2D參數量隨核尺寸平方增長
-
-
平移不變性:
-
1D處理時間平移(早/晚出現相同模式)
-
2D處理空間平移(不同位置相同物體)
-
-
特征組合方式:
-
1D通過堆疊卷積層捕獲長程依賴
-
2D通過分層卷積建立多尺度表征
-
五、統一數學框架
兩種卷積都可以納入張量卷積的一般形式:
-
對于1D卷積,其中一個維度退化(如j=0)
-
對于2D卷積,兩個維度都保持活躍
幾何解釋:
-
1D:在直線上滑動的線段檢測器
-
2D:在平面上滑動的平面檢測器
六、現代擴展形式
擴展類型 | 1D實現 | 2D實現 | 目的 |
---|---|---|---|
空洞卷積 | 間隔采樣時序點 | 棋盤式采樣 | 擴大感受野 |
可分離卷積 | 深度分離時序卷積 | 空間分離卷積 | 降低參數量 |
動態卷積 | 時間自適應的核 | 空間自適應的核 | 增強靈活性 |
七、選擇指導原則
-
數據類型決定維度:
-
時間序列 → 1D卷積
-
圖像/視頻 → 2D/3D卷積
-
-
特征方向性需求:
-
需要捕獲空間方向特征 → 2D卷積
-
僅需序列模式 → 1D卷積
-
-
計算資源約束:
-
資源有限時優先1D
-
允許復雜計算時使用2D
-
終極理解:
一維卷積是時序特征提取器,關注事件發生的順序規律;二維卷積是空間特征提取器,關注模式的幾何分布。
二者的本質區別在于:
1D卷積處理的是因果性(causality),2D卷積處理的是共現性(co-occurrence)。這種維度差異決定了它們在特征表示、參數設計和應用場景上的根本不同。
八、示例
典型類比:
現實場景 | 卷積對應 |
---|---|
金屬探測器掃沙灘 | 在二維空間滑動檢測 |
心電圖機走紙 | 在時間軸上滑動分析 |
驗鈔燈照射紙幣 | 多層級特征驗證 |
一維卷積示例:
下層為輸入信號序列, 上層為卷積結果。連接邊上的數字為濾波器中的權重。下圖的卷積結果為近似值。
二維卷積示例
在數學卷積的定義中,核翻轉指的是在計算卷積前,將卷積核進行反轉操作。具體來說:
- 一維卷積:如果卷積核為 [a, b, c],翻轉后得到 [c, b, a]。
- 二維卷積:如果卷積核為
翻轉操作即先水平翻轉,再垂直翻轉,結果為
這種翻轉是數學卷積定義的一部分,確保了卷積運算的交換性和其他數學性質。需要注意的是,在很多深度學習框架中實際使用的操作更接近于交叉相關(不翻轉卷積核),但嚴格的數學卷積要求核翻轉。以上的例子為嚴格的數學卷積,即先翻轉。
在圖像處理中,卷積經常作為特征提取的有效方法。一幅圖像在經過卷積操作后得到結果稱為特征映射(Feature Map)。下圖給出在圖像處理中幾種常用的濾波器,以及其對應的特征映射。圖中最上面的濾波器是常用的高斯濾波器,可以用來對圖像進行平滑去噪;中間和最下面的濾波器可以用來提取邊緣特征。
九、特性和關鍵優勢:
卷積就像用同一個「特征掃描儀」在數據上逐段檢查,專注尋找重復出現的局部模式。
想象你拿手機掃描超市貨架找可樂:
-
掃描動作:手機攝像頭每次對準貨架的一小塊區域(局部連接)
-
同一標準:無論掃描哪個位置,都用相同的"可樂logo識別程序"(權重共享)
-
滑動檢測:從左到右移動手機,直到找到紅底白字的經典標志(滑動窗口)
-
效率高:1個掃描器重復使用,避免重復造輪子
-
專注細節:每次只看局部,不受無關信息干擾
-
模式專家:專門檢測平移不變的特征(如無論貓咪在圖片哪個位置都能識別)
終極記憶口訣:
"小窗滑動,同標檢測,特征抓取,高效省力"