Class24AlexNet
AlexNet
AlexNet于2012年ImageNet 圖像識別挑戰賽(ILSVRC-2012)中以 top-5 錯誤率15.3%獲得冠軍,遠遠領先第二名。它首次在大型圖像數據集上證明了深層卷積神經網絡的強大能力。
AlexNet 的總體結構
AlexNet 總共有 8 層具有學習參數的網絡層:
層編號 | 類型 | 參數 / 特點 |
---|---|---|
1 | 卷積層(Conv1) | 11×11 卷積核,96個通道,步幅4,ReLU,局部響應歸一化(LRN),最大池化 |
2 | 卷積層(Conv2) | 5×5 卷積核,256個通道,ReLU,LRN,最大池化 |
3 | 卷積層(Conv3) | 3×3 卷積核,384個通道,ReLU |
4 | 卷積層(Conv4) | 3×3 卷積核,384個通道,ReLU |
5 | 卷積層(Conv5) | 3×3 卷積核,256個通道,ReLU,最大池化 |
6 | 全連接層(FC6) | 輸入維度較大,輸出為 4096,ReLU,Dropout |
7 | 全連接層(FC7) | 4096 → 4096,ReLU,Dropout |
8 | 全連接層(FC8) | 4096 → 1000(類別數),Softmax 輸出 |
AlexNet的特點
1.使用 GPU 加速
AlexNet 是第一個在訓練時使用 GPU 加速的深度網絡。當時使用了 2 個 GPU 并行處理,每個 GPU 處理一半神經元,跨 GPU 只在某些層通信。
2.使用 ReLU 激活函數
替代傳統的 sigmoid / tanh,使得網絡收斂更快。
3.使用 Dropout 防止過擬合
在兩個全連接層之間添加 Dropout(隨機丟棄部分神經元)。
4.數據增強
包括圖像翻轉、裁剪、顏色擾動等,有效擴大訓練集、防止過擬合。
5.LRN 局部響應歸一化
用于增強激活的競爭機制,雖然在后來的網絡(如 VGG、ResNet)中被棄用。
6.重疊池化
池化窗口之間存在重疊(如池化核 3×3,步幅 2),有助于減小信息損失。
AlexNet 與 LeNet 對比
特性 | LeNet-5 | AlexNet |
---|---|---|
提出時間 | 1998 | 2012 |
輸入尺寸 | 32×32×1 | 224×224×3 |
激活函數 | Sigmoid / tanh | ReLU |
網絡層數 | 5 | 8 |
使用GPU | 否 | 是 |
Dropout | 否 | 是 |
數據增強 | 少 | 多 |
3X3卷積和2X2卷積的主要區別
特性 | 3×3 卷積核 | 2×2 卷積核 |
---|---|---|
感受野(感知范圍) | 覆蓋 9 個像素 | 覆蓋 4 個像素 |
參數數量(單通道) | 9 個參數 | 4 個參數 |
特征提取能力 | 更強,能提取更復雜的邊緣和紋理 | 稍弱,適合較簡單的特征 |
適用性 | 應用于大多數主流網絡結構 | 很少用于主干卷積層 |
信息融合能力 | 更強,覆蓋區域大,提取更充分 | 較弱,感受區域小 |
卷積后輸出尺寸變化 | 更容易對稱(保持形狀) | 更容易造成輸出尺寸減半 |
是否常用于堆疊 | 是(如 VGG 中大量堆疊) | 否(多用于特殊場景) |
3×3 卷積是主流標準,信息提取強大;2×2 卷積偶爾作為輕量化或結構替代手段出現,但功能更弱。