零基礎學習之——深度學習算法介紹01

第一節.基礎骨干網絡

物體分類是計算機視覺（computer vision，CV）中最經典的、也是目前研究得最為透徹的一

個領域，該領域的開創者也是深度學習領域的“名人”級別的人物，例如 Geoffrey Hinton、Yoshua

Bengio 等。物體分類常用的數據集有手寫數字識別數據集 MNIST、物體識別數據集 CIFAR-10

（10 類）和類別更多的 CIFAR-100（100 類），以及超大數據集 ImageNet。ImageNet 是由李飛飛教授主導的 ILSVRC（ImageNet Large Scale Visual Recognition Challenge）中使用的數據集，每年的 ILSVRC（此處指 ILSVRC 的物體分類任務）中產生的網絡也指引了分類網絡的發展方向。 2012 年，第三屆 ILSVRC 的冠軍作品 Hinton 團隊的 AlexNet，將 2011 年的 top-5 錯誤率從

25.8% 降低到 16.4%。他們的最大貢獻在于驗證了卷積操作在大數據集上的有效性，從此物體分類進入了深度學習時代。 2013 年，ILSVRC 已被深度學習算法“霸榜”，冠軍作品 ZFNet 使用了更深的深度，并且其論文給出了卷積神經網絡（CNN）的有效性的初步解釋。

2014 年是深度學習領域分類算法“井噴式”發展的一年，在物體檢測方向也是如此。這一屆

ILSVRC 物體分類任務的冠軍作品是 Google 團隊提出的 GoogLeNet（top-5 錯誤率：7.3%），亞軍作品則是牛津大學的 VGG（top-5 錯誤率：8.0%），但是在物體檢測任務中 VGG 擊敗了 GoogLeNet。 VGG 利用的搭建 CNN 的思想現在來看依舊具有指導性，例如按照降采樣的分布對網絡進行分塊，使用小卷積核，每次降采樣之后特征圖（feature map）的數量加倍，等等。另外 VGG 使用了當初賈揚清提出的 Caffe 作為深度學習框架并開源了其模型，憑借比 GoogLeNet 更快的特性，VGG 很快占有了大量的市場，尤其是在物體檢測領域。VGG 也憑借增加深度來提升精度的思想將 CNN 推上了“最高峰”。GoogLeNet 則從特征多樣性的角度研究了 CNN 結構，GoogLeNet 的特征多樣性是基于一種并行的、使用了多個不同尺寸的卷積核的 Inception 單元來實現的。GoogLeNet 的最大貢獻在于指出 CNN 精度的增加不僅僅可以依靠深度實現，增加網絡的復雜性也是一種有效的策略。

2015 年的 ILSVRC 的冠軍作品是何愷明等人提出的殘差網絡（top-5 錯誤率：3.57%）。他們指

出 CNN 的精度并不會隨著深度的增加而增加，導致此問題的原因是網絡的退化問題。殘差網絡

的核心思想是通過向網絡中添加直接映射（跳躍連接）的方式解決退化問題，進而使構建更深的

CNN 成為可能。殘差網絡的簡單易用的特征使其成為目前使用最為廣泛的網絡結構之一。

2016 年 ILSVRC 的前幾名作品都是通過模型集成實現的，CNN 的結構創新陷入了短暫的停滯。

當年的冠軍作品是商湯公司和香港中文大學聯合推出的 CUImage，它是 6 個模型的集成，并無創

新性，此處不贅述。2017 年是 ILSVRC 的最后一屆，這一屆的冠軍是 Momenta 團隊，他們提出了基于注意力機制的 SENet（top-5 錯誤率：2.21%），其通過自注意力（self-attention）機制為每個特征圖計算出一個權重。另外一個非常重要的網絡是黃高團隊于 CVPR 2017 提出DenseNet.。

由于 Transformer 在自然語言處理（ natural language processing ， NLP ）任務上取得的突破性進

展，將 Transformer 應用到分類網絡成為近年來非常火熱的研究方向，比較有代表性的包括 iGPT 、 ViT、 Swin Transformer ，以及混合使用 CNN 和 Transformer 的 CSWin Transformer 。

1.1起源：LeNet-5 和 AlexNet

1.1.1 從 LeNet-5 開始

使用 CNN 解決圖像分類問題可以往前追溯到 1998 年 LeCun 發表的論文 1 ，其中提出了用于解

決手寫數字識別問題的 LeNet 。 LeNet 又名 LeNet-5 ，是因為在 LeNet 中使用的均是 5 × 5 的卷積核。 LeNet-5 的網絡結構如圖 1.1 所示。

? ? ? ?LeNet-5 中使用的結構直接影響了其后的幾乎所有 CNN ，卷積層 + 降采樣層 + 全連接層至今仍然是最主流的結構。卷積操作使網絡可以響應和卷積核形狀類似的特征，而降采樣操作則使網絡擁有了一定程度的不變性。下面我們簡單分析一下 LeNet-5 的網絡結構。

? ? ? ? 輸入： 32 × 32 的手寫數字（數據集中共 10 類）的黑白圖片。

? ? ? ? ?C1 ： C1 層使用了 6 個卷積核，每個卷積核的大小均是 5 × 5 ， pad = 0 ， stride = 1 （有效卷積，與有效卷積對應的是 same 卷積），激活函數使用的是 tanh（雙曲正切），表達式為式（1.1）， tanh 激活函數的值域是 (???1,1) 。所以在第一次卷積之后，特征圖的大小變為 28 × 28 （ (32???5 + 1)/1 = 28 ），該層共有 28 × 28 × 1 × 6 = 4 704 個神經元。加上偏置，該層共有 (5 × 5 + 1) × 6 = 156 個參數。

S2 ： S2 層是 CNN 常使用的降采樣層。在 LeNet-5 中，降采樣的過程是將窗口內的 3 個輸入相

加，乘一個可訓練參數再加上一個偏置。經過 S2 層，特征圖的大小縮小，變成 14 × 14 。該層共有 14 × 14 × 6 = 1 176 個神經元，參數數量是 (1 + 1) × 6 = 12 。

C3 ： C3 層跟 S2 層并不是密集連接的，具體連接方式是， C3 層的前 6 個特征圖以 S2 層中 3 個相鄰的特征圖子集為輸入，接下來 6 個特征圖以 S2 層中 4 個相鄰特征圖子集為輸入，然后的 3 個特征圖以不相鄰的 4 個特征圖子集為輸入，最后一個特征圖以 S2 層中所有特征圖為輸入，如

圖 1.2 所示。這兩個層采用的稀疏連接的方式已被拋棄，目前普遍使用的是密集連接，或輕量級網

絡中使用的深度可分離卷積、分組卷積。

圖 1.2 LeNet-5 中 C3 層和 S2 層的連接方式

C3 層包括 16 個大小為 5 × 5、通道數為 6 的 same 卷積，pad = 0，stride = 1，激活函數同樣為 tanh。一次卷積后，特征圖的大小是 10 × 10（(14???5 + 1)/1 = 10），神經元數量為 10 × 10 × 16 = 1 600，可訓練參數數量為 (3 × 25 + 1) × 6 + (4 × 25 + 1) × 6 + (4 × 25 + 1) × 3 + (6 × 25 + 1) × 1 = 1 516。 S4：與 S2 層的計算方法類似，該層使特征圖的大小變成 5 × 5，共有 5 × 5 × 16 = 400 個神經元，可訓練參數數量是 (1 + 1) × 16 = 32。
C5：節點數為 120 的全連接層，激活函數是 tanh，參數數量是 (400 + 1) × 120 = 48 120。
F6：節點數為 84 的全連接層，激活函數是 tanh，參數數量是 (120 + 1) × 84 = 10 164。
輸出：10個分類的輸出層，使用的是softmax激活函數，如式（1.2）所示，參數數量是(84 + 1) × 10 = 850。softmax 用于分類有如下優點：

使用 Keras 搭建 LeNet-5 網絡的核心代碼如下，其是基于 LeNet-5 網絡，在 MNIST 手寫數字識

別數據集上的實現。完整的 LeNet-5 在 MNIST 上的訓練過程見隨書資料。

注意，這里使用的都是密集連接，沒有復現 C3 層和 S2 層之間的稀疏連接。

import tensorflow as tf
from tensorflow.keras import layers, models
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpointdef build_lenet5(input_shape=(28, 28, 1), num_classes=10):"""構建優化的LeNet-5模型Args:input_shape: 輸入圖像尺寸num_classes: 分類類別數Returns:Keras模型實例"""model = models.Sequential()# 第一層卷積model.add(layers.Conv2D(6, kernel_size=(5,5), padding='valid',activation='relu', input_shape=input_shape))model.add(layers.MaxPooling2D(pool_size=(2,2), strides=2))# 第二層卷積model.add(layers.Conv2D(16, kernel_size=(5,5), padding='valid',activation='relu'))model.add(layers.MaxPooling2D(pool_size=(2,2), strides=2))# 全連接層model.add(layers.Flatten())model.add(layers.Dense(120, activation='relu'))model.add(layers.Dense(84, activation='relu'))model.add(layers.Dense(num_classes, activation='softmax'))return model# 數據預處理配置
train_datagen = ImageDataGenerator(rescale=1./255,validation_split=0.2
)# 加載MNIST數據集
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()
x_train = x_train.reshape(-1, 28, 28, 1).astype('float32')
x_test = x_test.reshape(-1, 28, 28, 1).astype('float32')# 創建數據生成器
train_generator = train_datagen.flow(x_train, y_train, batch_size=128)
validation_generator = train_datagen.flow_from_directory('path_to_validation_data',  # 需要根據實際情況修改target_size=(28,28),color_mode='grayscale',batch_size=128
)# 構建模型
model = build_lenet5()# 編譯模型
model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=1e-3),loss='sparse_categorical_crossentropy',metrics=['accuracy'])# 設置早停和模型檢查點
early_stop = EarlyStopping(monitor='val_loss', patience=5)
checkpoint = ModelCheckpoint('best_model.h5', save_best_only=True)# 訓練模型
history = model.fit(train_generator,steps_per_epoch=len(x_train)//128,epochs=50,validation_data=validation_generator,callbacks=[early_stop, checkpoint]
)# 評估模型
test_loss, test_acc = model.evaluate(x_test, y_test)
print(f'\nTest accuracy: {test_acc:.4f}')

如圖 1.3 所示，經過 10 個 epoch 后， LeNet-5 基本收斂。

圖 1.3 LeNet-5 在 MNIST 數據集上的收斂情況

?1.1.2 覺醒：AlexNet

LeNet-5 之后， CNN 沉寂了約 14 年。直到 2012 年， AlexNet 在 ILSVRC 中一舉奪魁，直接把

在 ImageNet 數據集上的精度提升了約 10 個百分點，它將 CNN 的深度和寬度都提升到了傳統算法無法企及的新高度。從此，深度學習開始在 CV 的各個領域“披荊斬棘”，至今深度學習仍是人工

智能最熱門的話題。 AlexNet 作為教科書式的網絡，值得每個學習深度學習的人深入研究。 AlexNet 的名字取自該模型的第一作者 Alex Krizhevsky 。 AlexNet 在 ImageNet 中的 120 萬張

圖片的 1 000 類分類任務上的 top-1 錯誤率是 37.5% ， top-5 錯誤率則是 15.3% （直接比第二名的

26.2% 低了約 10 個百分點）。 AlexNet 如此成功的原因是其使網絡的寬度和深度達到了前所未有的高度，而該模型也使網絡的可學習參數達到了 58 322 314 個。為了學習這些參數， AlexNet 并行使用了兩塊 GTX 580 ，大幅提升了訓練速度。

? ? ? ? 筆記：? ?

? ? ? ? AlexNet 當初使用分組卷積是因為硬件資源有限，不得不將模型分到兩塊 GPU 上

運行。相關研究者并沒有給出分組卷積的概念，而且沒有對分組卷積的性能進行深入探

討。 ResNeXt 的相關研究者則明確給出了分組卷積的定義，并證明和驗證了分組卷積有

接近普通卷積的精度。

當想要使用機器學習解決非常復雜的問題時，我們必須使用容量足夠大的模型。在深度學習

中，增加網絡的寬度和深度會提升網絡的容量，但是提升容量的同時也會帶來兩個問題：

計算資源的消耗；
模型容易過擬合。

計算資源是當時限制深度學習發展的瓶頸， 2011 年 Ciresan 等人提出了使用 GPU 部署 CNN 的

技術框架 1 ，由此深度學習得到了可以解決其計算瓶頸問題的硬件支持。

下面來詳細分析一下 AlexNet 。 AlexNet 的網絡結構如圖 1.4 所示。

圖 1.4 AlexNet 的網絡結構

AlexNet 基于 Keras 的實現代碼如下。

# 構建 AlexNet 網絡

model = Sequential ()

model . add ( Conv2D ( input_shape = ( 227 , 227 , 3 ), strides = 4 , filters = 96 , kernel_size = ( 11 , 11 ),

padding = 'valid' , activation = 'relu' ))

model . add ( BatchNormalization ())

model . add ( MaxPool2D ( pool_size = ( 3 , 3 ), strides = 2 ))

model . add ( Conv2D ( filters = 256 , kernel_size = ( 5 , 5 ), padding = 'same' , activation = 'relu' ))

model . add ( BatchNormalization ())

model . add ( MaxPool2D ( pool_size = ( 3 , 3 ), strides = 2 ))

model . add ( Conv2D ( filters = 384 , kernel_size = ( 3 , 3 ), padding = 'same' , activation = 'relu' ))

model . add ( BatchNormalization ())

model . add ( Conv2D ( filters = 384 , kernel_size = ( 3 , 3 ), padding = 'same' , activation = 'relu' ))

model . add ( BatchNormalization ())

model . add ( Conv2D ( filters = 256 , kernel_size = ( 3 , 3 ), padding = 'same' , activation = 'relu' ))

model . add ( BatchNormalization ())

model . add ( MaxPool2D ( pool_size = ( 2 , 2 ), strides = 2 ))

model . add ( Flatten ())

model . add ( Dense ( 4096 , activation = 'tanh' ))

model . add ( Dropout ( 0.5 ))

model . add ( Dense ( 4096 , activation = 'tanh' ))

model . add ( Dropout ( 0.5 ))

model . add ( Dense ( 10 , activation = 'softmax' ))

model . summary ()

根據 Keras 提供的 summary() 函數，可以得到圖 1.5 所示的 AlexNet 的參數數量的統計結果 1 ，

計算方法參照 LeNet-5 ，不贅述。

1．多 GPU 訓練

首先對比圖 1.1 和圖 1.4 ，我們發現 AlexNet 將網絡分成了兩個部分。由于當時顯卡的顯存大小有限，因此作者使用了兩塊 GPU 并行訓練模型，例如第二個卷積（圖 1.4 中通道數為 128 的卷積）只使用一個 GPU 自身顯存中的特征圖，而第三個卷積需要使用另外一個 GPU 顯存中的特征圖。不過得益于 TensorFlow 等開源框架對多機多卡的支持和顯卡顯存的提升， AlexNet 部署在單塊 GPU 上已毫無壓力，所以這一部分就不贅述。

2．ReLU

在 LeNet-5 中，使用了 tanh 作為激活函數， tanh 的函數曲線如圖 1.6 所示。 tanh 是一個以原點為中心點、值域為 (???1,1) 的激活函數。在反向傳播過程中，局部梯度會與整個損失函數關于該

局部輸出的梯度相乘。當 tanh( x ) 中的 x 的絕對值比較大的時候，該局部的梯度會非常接近于 0 ，

在深度學習中，該現象叫作“飽和”。同樣，另一個常用的 sigmoid 激活函數也存在飽和的現象。

sigmoid 的函數如式（ 1.3 ）所示，函數曲線如圖 1.7 所示。

Model: "sequential"
_________________________________________________________________
Layer (type) ? ? ? ? ? ? ? ? Output Shape ? ? ? ? ? ? ?Param # ??
=================================================================
conv2d (Conv2D) ? ? ? ? ? ? ?(None, 224, 224, 32) ? ? ?896 ? ? ??
_________________________________________________________________
max_pooling2d (MaxPooling2D) (None, 112, 112, 32) ? ? ?0 ? ? ? ??
_________________________________________________________________
conv2d_1 (Conv2D) ? ? ? ? ? ?(None, 112, 112, 64) ? ? ?18496 ? ??
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 56, 56, 64) ? ? ? ?0 ? ? ? ??
_________________________________________________________________
conv2d_2 (Conv2D) ? ? ? ? ? ?(None, 56, 56, 128) ? ? ? 73856 ? ??
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 28, 28, 128) ? ? ? 0 ? ? ? ??
_________________________________________________________________
conv2d_3 (Conv2D) ? ? ? ? ? ?(None, 28, 28, 256) ? ? ? 295168 ? ?
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 14, 14, 256) ? ? ? 0 ? ? ? ??
_________________________________________________________________
flatten (Flatten) ? ? ? ? ? ?(None, 50176) ? ? ? ? ? ? 0 ? ? ? ??
_________________________________________________________________
dense (Dense) ? ? ? ? ? ? ? ?(None, 4096) ? ? ? ? ? ? ?205524992?
_________________________________________________________________
dropout (Dropout) ? ? ? ? ? ?(None, 4096) ? ? ? ? ? ? ?0 ? ? ? ??
_________________________________________________________________
dense_1 (Dense) ? ? ? ? ? ? ?(None, 4096) ? ? ? ? ? ? ?16781312 ?
_________________________________________________________________
dropout_1 (Dropout) ? ? ? ? ?(None, 4096) ? ? ? ? ? ? ?0 ? ? ? ??
_________________________________________________________________
dense_2 (Dense) ? ? ? ? ? ? ?(None, 1000) ? ? ? ? ? ? ?4097000 ??
=================================================================
Total params: 226,791,720
Trainable params: 226,791,720
Non-trainable params: 0
_________________________________________________________________
?

表1.5 　通過 Keras 的 summary() 函數得到的 AlexNet 參數數量

#!/usr/bin/env python
#-*- coding: utf-8 -*-import tensorflow as tf
from tensorflow.keras import layers, modelsdef build_alexnet(input_shape=(224, 224, 3), num_classes=1000):"""構建AlexNet模型"""model = models.Sequential()# 第1層：卷積 + 池化model.add(layers.Conv2D(32, kernel_size=(3, 3), padding='same', activation='relu',input_shape=input_shape))model.add(layers.MaxPooling2D(pool_size=(2, 2), strides=2))# 第2層：卷積 + 池化model.add(layers.Conv2D(64, kernel_size=(3, 3), padding='same', activation='relu'))model.add(layers.MaxPooling2D(pool_size=(2, 2), strides=2))# 第3層：卷積 + 池化model.add(layers.Conv2D(128, kernel_size=(3, 3), padding='same', activation='relu'))model.add(layers.MaxPooling2D(pool_size=(2, 2), strides=2))# 第4層：卷積 + 池化model.add(layers.Conv2D(256, kernel_size=(3, 3), padding='same', activation='relu'))model.add(layers.MaxPooling2D(pool_size=(2, 2), strides=2))# 全連接層model.add(layers.Flatten())model.add(layers.Dense(4096, activation='relu'))model.add(layers.Dropout(0.5))model.add(layers.Dense(4096, activation='relu'))model.add(layers.Dropout(0.5))model.add(layers.Dense(num_classes, activation='softmax'))return model# 構建模型并打印參數統計
alexnet = build_alexnet(input_shape=(224, 224, 3))
alexnet.summary()

圖 1.6 tanh 的函數曲線

圖 1.7 sigmoid 的函數曲線

飽和現象帶來了一個深度學習中非常嚴重的問題，那便是梯度消失。梯度消失是由反向傳播中

鏈式法則的乘法特性導致的，反映在深度學習的訓練過程中便是越接近損失函數的參數梯度越大，

從而使得這一部分參數成為主要學習的參數，而遠離損失函數的參數的梯度則非常接近 0 ，導致幾

乎沒有梯度傳到這一部分參數，從而使得這一部分參數很難學習到。

為了解決這個問題， AlexNet 引入了 ReLU 激活函數，如式（ 1.4 ）所示。

ReLU 的函數曲線如圖 1.8 所示。

在 ReLU 中，無論 x 的取值有多大， f ( x ) 的導數都是 1 ，也就不存在導數小于 1 導致的 梯度消失 的現象了。圖 1.9 所示的是我們在 MNIST 數據集上，根據 LeNet-5 使用 tanh 和 ReLU 兩個激活函數得到的不同模型的收斂情況，旨在對比兩個不同的激活函數的模型效果。


圖 1.8 ReLU 的函數曲線	圖 1.9 LeNet-5 使用不同激活函數的收斂情況

此外，由于 ReLU 將小于 0 的部分全部置 0 ，因此 ReLU 的另外一個特點就是具有稀疏性，不

僅可以優化網絡的性能， 還可以緩解過擬合現象。

雖然使用 ReLU 的節點不會有飽和問題，但是會“死掉”，即大部分甚至所有的值為負值，從

而導致該層的梯度都為 0 。“死神經元”是由進入網絡的負值引起的（例如在大規模的梯度更新之

后可能出現），減小學習率能緩解該現象。

3．LRN

局部響應歸一化（ local response normalization ， LRN ）模擬的是動物神經中的橫向抑制效應，是

一個已經被淘汰的算法。在 VGG 1 的相關論文中已經指出， LRN 并沒有什么效果。在現在的網絡中， LRN 已經被其他歸一化方法所替代，例如在上面代碼中使用的批歸一（ batchnormalization ， BN ） 2 。 LRN 是使用同一位置臨近的特征圖來歸一化當前特征圖的值的一種方法，其表達式如式（ 1.5 ）所示：

其中， N 表示特征圖的數量， a 是輸入特征圖， b 是輸出特征圖， ( x, y ) 是特征圖上的坐標， n = 5 ， k = 2 ， α = 0.5 ， β = 0.75 ，這些值均由驗證集得出。

另外， AlexNet 把 LRN 放在池化層之前，這在計算上是非常不經濟的，一種更好的做法是把

LRN 放在池化層之后。

4. 覆蓋池化（Overlap Pooling）

定義?
當池化窗口的步長（stride）小于池化核尺寸時，相鄰池化核會在輸入特征圖上產生重疊區域，這種池化方式稱為覆蓋池化（Overlap Pooling）。

原理與優勢?

?緩解過擬合：通過允許特征圖不同區域的重復采樣，增加模型對局部特征位置的魯棒性
?信息保留：相比非重疊池化，能減少特征信息的丟失（如圖1.10所示）
?計算效率：與全連接層相比，仍保持較低的計算復雜度

文獻依據?
AlexNet[1]提出該技術可有效提升模型泛化能力，實驗表明其對模型性能的提升具有顯著作用。

5. Dropout正則化

技術原理?
在訓練階段隨機將神經網絡層的部分神經元權重置零（通常設置比例為30%-50%），測試階段保留所有神經元。其核心思想是通過強制網絡學習冗余特征，增強模型的抗干擾能力。

在AlexNet中的應用?

?實施位置：全連接層的第1和第2層之間（即D1和D2層）

?超參數配置：

python

model.add(layers.Dropout(0.5))  # 50%神經元隨機屏蔽

有效性分析?

?訓練代價：增加約15%-20%的訓練時間（因每次迭代需計算不同子網絡）
?泛化提升：

正則化方法訓練集損失測試集準確率
無 0.0155 0.9826
Dropout 0.0735 ?0.9841?
?生物學解釋：模擬人腦神經元的隨機失活機制，增強特征選擇的魯棒性

正則化方法	訓練集損失	測試集準確率
無	0.0155	0.9826
Dropout	0.0735	?0.9841?

實施要點?

應用在全連接層而非卷積層
需要配合訓練/測試模式切換（Keras自動處理）
推薦與Early Stopping結合使用

圖表引用說明?

圖1.10展示了添加Dropout后的損失曲線變化趨勢，具體數值可參見附錄A的MNIST實驗結果表格。

圖 1.10 　有 Dropout 與沒有 Dropout 對比

1.2更深：VGG

1. VGG網絡概述

2014年牛津大學Visual Geometry Group提出的VGG網絡[1]，通過系統性探索CNN深度與性能關系，在ImageNet ILSVRC競賽中取得突破性成果（物體分類第二名，物體檢測第一名）。其核心創新在于采用小尺寸卷積核構建深層網絡，并通過模塊化設計實現參數數量的漸進式增長。

2. 網絡架構設計原則

2.1 模塊化分層結構

?池化層設計：采用2×2最大池化層，網絡按池化層自然劃分為多個特征塊
?塊內特性：
- 每個塊包含連續的相同尺寸卷積層（均為3×3）
- 特征圖通道數逐塊倍增（64→128→256→512→512）
?尺寸控制機制：每增加一個塊，特征圖尺寸縮小一半（通過池化層實現），確保參數規模可控

2.2 參數擴展策略

參數維度	擴展規則	典型配置
深度	塊數可變（推薦≥16層）	VGG-16（5塊）
寬度	特征圖通道數按指數增長（2^N）	64,128,256,512
卷積層數	塊內卷積層數可調（不影響特征圖尺寸）	常規配置3-4層/塊

3. 核心技術創新

3.1 小卷積核優勢

理論依據：通過多層3×3卷積替代單層大卷積核（如7×7），在保持相同感受野（rfsize = (out-1)*s + k）的同時獲得：

?深度增強：三層級3×3卷積提供更復雜的特征表達
?參數效率：3×3卷積參數量為7×7卷積的121?（不考慮填充）
?計算加速：小卷積核更適合GPU并行計算

3.2 特征金字塔結構

?層級特征提取：通過逐層池化構建多尺度特征金字塔
?決策融合：全連接層整合多層級特征提升分類精度

4. 典型網絡變體

網絡型號	總層數	塊數	特征圖尺寸演變	全連接層維度
VGG-11	11層	4塊	224×224 →7×7	4096×4096×1000
VGG-16	16層	5塊	224×224 →7×7	4096×4096×1000
VGG-19	19層	6塊	224×224 →7×7	4096×4096×1000

5. 實踐價值分析

5.1 遷移學習能力

輸入自適應：通過調整池化次數適配不同分辨率數據（如MNIST:28×28）
特征復用：預訓練模型參數可快速遷移到目標檢測、語義分割等任務

5.2 商業應用影響

開源生態：官方提供Caffe/TensorFlow等框架實現，GitHub星標超50k+
行業部署：被廣泛應用于安防監控、醫療影像分析等領域

6. 性能對比（ILSVRC 2014）

方法	準確率	排名	參數量(M)
GoogLeNet2	74.8%	1st	22M
VGG-16	71.5%	2nd	138M
AlexNet	57.1%	11th	8.5M

7. 技術啟示

?深度優先設計：證明增加網絡深度比單純擴大寬度更能提升特征表征能力
?模塊化工程：通過標準化塊結構降低網絡設計復雜度
?小核優勢：奠定了后續ResNet等網絡采用小卷積核的基礎

圖 1.11 VGG 家族

假設特征圖的數量都是 C ， 3 層 3 × 3 卷積核的參數數量是 3 × (3 × 3+1) × C 2 =30 C 2 ， 1 層

7 × 7 卷積核的參數數量是 1 × (7 × 7+1) × C 2 =50 C 2 ， 3 層 3 × 3 卷積核具有更少的參數。

由于神經元數量和層數的增多，訓練速度會變得更慢。

圖 1.12 反映了 VGG 家族的各個模型的性能。

圖 1.12 VGG 家族的各個模型的性能對比

圖 1.13 展示了把 LeNet-5 的單層 5 × 5 卷積換成兩層 3 × 3 卷積在 MNIST 上的收斂表現。論文中

的實驗表明兩層 3 × 3 卷積的網絡確實比單層 5 × 5 卷積的網絡表現好，但是訓練速度慢了二分之一。

另外，作者在前兩層的全連接處使用丟失率為 0.5 的 Dropout ，然而并沒有在圖 1.11 中反映

出來。

2 ． VGG-A vs VGG-A-LRN

VGG-A-LRN 比 VGG-A 多了一個 AlexNet 介紹的 LRN 層，但是實驗數據表明加入了 LRN 的

VGG-A-LRN 的錯誤率反而更高了，而且 LRN 的加入會更加占用內存，增加訓練時間。

圖 1.13 　單層 5 × 5 卷積的 LeNet 與兩層 3 × 3 卷積的 LeNet 對比

3. VGG系列網絡變體對比分析

3.1 深度-性能關系研究

通過對VGG-A（11層）、VGG-B（13層）、VGG-D（16層）、VGG-E（19層）的實驗對比，觀察到以下規律：

模型	總層數	訓練誤差率	測試誤差率	訓練時間（相對VGG-A）
VGG-A	11	-	7.12%	1×
VGG-B	13	-	6.81%	1.2×
VGG-D	16	-	6.47%	2.5×
VGG-E	19	-	6.35%	4.8×

關鍵現象：

深度增加初期錯誤率顯著下降（VGG-A→VGG-D誤差率降低0.65%）
深度超過臨界點（VGG-D之后）出現收益遞減
最深層模型（VGG-E）訓練時間呈指數級增長

退化問題：
當網絡深度達到19層時，出現以下異常現象：

訓練誤差波動加劇（標準差較VGG-D增加18%）
某些測試集上錯誤率反超較淺層模型（如CIFAR-10數據集）

3.2 結構改進方案對比

3.2.1 VGG-B與VGG-C

改進要點：

在VGG-B全連接層前添加3個1×1卷積層
實現通道維度從512→512→512→512的擴展

性能提升：

模型	測試誤差率	參數增量	訓練時間
VGG-B	6.81%	-	1.2×
VGG-C	6.59%	+1.2M	1.3×

技術優勢：

1×1卷積在不改變感受野的條件下：
- 增強特征空間維度
- 實現跨通道特征加權
- 提升非線性表達能力

3.2.2 VGG-C與VGG-D

改進方案：
將VGG-C的1×1卷積替換為3×3卷積層

效果對比：

模型	測試誤差率	參數增量	訓練速度
VGG-C	6.59%	+1.2M	1.3×
VGG-D	6.47%	+2.4M	1.5×

改進結論：

3×3卷積在參數效率（參數增量/錯誤率下降）上優于1×1卷積
更適合捕捉局部特征相關性

3.3 模型選擇準則

基于實驗數據建立網絡選擇決策樹：

mermaid

graph TD
A[目標數據集] -->|ImageNet全尺寸| B(VGG-D)
A -->|中小尺寸圖像| C(VGG-B/C)
B -->|精度優先| D(VGG-E)
B -->|訓練效率優先| E(VGG-D)
C -->|實時性要求| F(VGG-B)
C -->|特征表達需求| G(VGG-C)