LeNet-5
網絡架構

LeNet-5網絡架構示例圖
核心貢獻:
- 卷積-池化交替結構:奠定CNN基礎范式
- 特征層次提取:從邊緣→部件→對象
- 端到端訓練:原始像素到最終分類
- 權值共享:大幅減少參數
技術規格:
- 輸入尺寸:32×32灰度圖像
- 卷積核:5×5
- 池化:2×2平均池化
- 激活函數:Sigmoid
- 首次應用于手寫數字識別(MNIST)
AlexNet
突破性架構設計

AlexNet網絡架構示例圖
革命性創新:
-
ReLU激活函數:
- 解決梯度消失問題
- 加速訓練收斂
- 計算效率高于Sigmoid/Tanh
-
Dropout正則化:
- 在全連接層使用
- 防止過擬合
- 提升泛化能力
-
重疊池化:
- 池化步長(2)小于窗口大小(3)
- 提升特征豐富性
- 減少過擬合
-
多GPU并行:
- 首次分布式訓練
- 跨GPU通信優化
卷積網絡結構優化之路
1. VGG
核心思想:
- 同構塊設計:所有卷積層使用3×3小核
- 深度堆疊:16-19層網絡
- 特征傳遞:每塊通道數翻倍
3×3卷積優勢:
- 相同感受野下參數更少:2層3×3 vs 1層5×5
- 參數量:2×(32C2) = 18C2 vs 25C2
- 更多非線性變換
- 決策函數更具判別性
2. ResNet
核心問題:深度網絡退化現象
殘差塊設計:
y=F(x,Wi)+xy = \mathcal{F}(x, {W_i}) + xy=F(x,Wi?)+x
創新價值:
- 解決梯度消失問題
- 允許訓練1000+層網絡
- 特征復用與傳播
Inception結構
1×1卷積
核心功能:
- 降維壓縮:
- 減少通道數
- 控制計算量
- 特征重組:
- 跨通道信息整合
- 增強特征表達能力
- 非線性增強:
- 添加ReLU激活
- 提升模型表達能力
計算量對比:
- 直接5×5卷積:256×256×5×5×28×28 = 1.28G FLOPs
- 1×1降維后:256×64×1×1×28×28 + 64×256×5×5×28×28 = 0.15G FLOPs
- 計算量減少88%
Inception模塊
設計哲學:
“讓網絡自己選擇最優特征尺度” - Christian Szegedy
基礎Inception模塊:

Inception示例圖
創新特點:
-
并行多尺度處理:
- 1×1卷積:捕獲局部特征
- 3×3卷積:中等感受野
- 5×5卷積:大感受野
- 池化:空間不變性
-
瓶頸設計:
- 每個分支前使用1×1卷積降維
- 平衡計算復雜度
-
特征多樣性:
- 不同感受野特征融合
- 增強模型表達能力
GoogleNet(了解)
網絡架構全景

Inception示例圖
核心成就:
- 2014 ImageNet冠軍(Top-5錯誤率6.67%)
- 僅500萬參數(AlexNet的1/12)
- 計算量1.5G FLOPs(AlexNet的1/3)
創新設計:
- Inception模塊堆疊:9個模塊化單元
- 中間輔助分類器:2個輔助輸出
- 高效特征金字塔:寬度漸增,深度漸減
卷積神經網絡特征可視化
理解CNN的"視覺世界"
可視化方法:
-
第一層濾波器可視化
-
特征圖激活可視化
-
最大激活圖像
層次化特征學習
特征抽象層次:
-
淺層(Conv1-2):
- 邊緣檢測器
- 顏色對比區域
- 方向敏感紋理
-
中層(Conv3-4):
- 紋理組合
- 重復圖案
- 簡單形狀
-
深層(Conv5+):
- 物體部件(眼睛、車輪)
- 復雜結構
- 類別特定特征
經典CNN架構對比分析
架構 | 創新點 | 參數量 | 計算量 | Top-5錯誤率 |
---|---|---|---|---|
LeNet-5 | 首CNN實踐 | 6萬 | - | >1%(MNIST) |
AlexNet | ReLU/Dropout | 6000萬 | 1.1G FLOPs | 15.3% |
VGG-16 | 同構3×3塊 | 1.38億 | 15.5G FLOPs | 7.3% |
Inception v3 | 多尺度融合 | 2400萬 | 5G FLOPs | 5.6% |
ResNet-50 | 殘差連接 | 2560萬 | 4.1G FLOPs | 4.9% |
總結
-
特征學習優于特征工程:
- CNN自動學習層次化特征
- 端到端訓練消除人工干預
-
架構創新驅動性能突破:
- ReLU解決梯度消失
- 殘差連接實現深度訓練
- Inception優化計算效率
-
可視化解鎖黑箱:
- 特征可視化揭示網絡工作原理
- 指導網絡設計與優化
- 增強模型可解釋性
-
未來方向:
- 神經架構搜索(NAS)
- 注意力機制融合
- 多模態聯合學習
- 輕量化部署
“卷積神經網絡不僅改變了計算機視覺,更重塑了我們對學習的理解。” - Geoffrey Hinton
經典CNN架構的演進歷程,展現了一條從手工特征到自主學習、從淺層網絡到深層架構、從單一尺度到多尺度融合的技術進化之路。這些創新奠定了現代深度學習的基礎,也為未來人工智能的發展指明了方向。