什么是池化

池化是深度學習中用于降低數據維度、提取核心特征的一種操作，主要應用于卷積神經網絡（CNN）。其核心思想是通過對局部區域進行聚合統計（如取最大值、平均值），保留關鍵信息的同時減少計算量。

池化的作用

降維減參：縮小特征圖尺寸，減少后續計算量。

平移不變性：小幅度的圖像平移不影響輸出（如Max Pooling對局部位置不敏感）。

防止過擬合：抑制噪聲，突出主要特征。
常見池化類型
類型操作方式特點示意圖
最大池化（Max Pooling）取窗口內最大值保留最顯著特征（如紋理、邊緣） [7, 2] → 7
平均池化（Average Pooling）取窗口內平均值平滑特征，減少極端值影響 [7, 2] → 4.5
全局池化（Global Pooling）對整個特征圖求均值/最大值替代全連接層，減少參數量輸入5x5 → 輸出1x1
池化操作示例

輸入特征圖（4x4）：
text

[1, 3, 2, 1]
[0, 2, 4, 5]
[7, 1, 3, 2]
[2, 4, 1, 6]

Max Pooling（2x2窗口，步長2）：第一個窗口 [1,3; 0,2] → 最大值 3第二個窗口 [2,1; 4,5] → 最大值 5輸出：text[3, 5][7, 6]

池化的超參數

窗口大小（Kernel Size）：如2x2、3x3。

步長（Stride）：通常與窗口大小一致（如2x2窗口配步長2）。

填充（Padding）：一般不需要（因為池化本身是降維操作）。
池化 vs 卷積
特性池化卷積
參數無參數（靜態操作）有可學習權重
輸出尺寸通常減半（如4x4→2x2）可通過Padding保持尺寸
功能降維+特征魯棒性特征提取+空間信息保留

現代網絡中的池化

趨勢：部分網絡（如ResNet）用步長卷積（Strided Convolution）替代池化，兼顧降維和特征學習。

特殊池化：

 重疊池化（Overlapping Pooling）：窗口有重疊（如3x3窗口步長2）。分數池化（Fractional Pooling）：輸出尺寸非整數（需插值）。

import torch.nn as nn

最大池化（2x2窗口，步長2）

max_pool = nn.MaxPool2d(kernel_size=2, stride=2)

avg_pool = nn.AvgPool2d(kernel_size=3, stride=1)

input = torch.randn(1, 3, 4, 4)
output = max_pool(input) # 輸出尺寸：1x3x2x2

總結

池化通過局部聚合實現降維和特征魯棒性，是CNN的核心組件之一。雖然現代網絡有時用步長卷積替代，但其思想（如Max Pooling的“突出主要特征”）仍深刻影響深度學習設計。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/909940.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/909940.shtml
英文地址，請注明出處：http://en.pswp.cn/news/909940.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！