論文解析：一文弄懂ResNet(圖像識別分類、目標檢測)

一、相關資源

論文題目：Deep Residual Learning for Image Recognition

鏈接：CVPR 2016 Open Access Repository

參考代碼：

deep-learning-for-image-processing/pytorch_classification/Test5_resnet at master · WZMIAOMIAO/deep-learning-for-image-processing · GitHub

二、Motivation

????????深度神經網絡在訓練過程中遇到的一個核心問題，即“退化”問題。這個問題表現為，當網絡層數增加到一定程度時，網絡的性能（如準確率）不再提升，反而出現下降的現象。

????????傳統的深度神經網絡在層數增加到一定程度后，會出現梯度消失或梯度爆炸的問題，導致網絡難以訓練。盡管通過標準化初始賦值和中間層（如Batch Normalization）可以在一定程度上緩解這些問題，但還是會出現準確率飽和然后下降的問題。

????????為了解決上述問題，論文提出了一種殘差學習的框架。這種框架允許網絡直接學習輸入與輸出之間的殘差（即差異），而不是直接學習輸入到輸出的映射。

三、技術細節

1.殘差學習過程

????????利用shortcut connection實現殘差塊：

????????實現思想：較深層網絡產生的誤差至少不應該高于上一層產生的訓練誤差。

2.快捷連接類型

????????Identity shortcuts（恒等捷徑）和Projection shortcuts（投影捷徑）是深度殘差網絡（ResNet）中兩種不同類型的捷徑（shortcut）實現方式，它們在處理輸入和輸出維度時扮演著不同的角色，兩種圖像結構在③中展現。

(1)Identity Shortcuts（恒等捷徑）

定義：

????????Identity shortcuts是一種不需要額外參數的捷徑方式，當殘差塊的輸入和輸出維度一致時，可以直接將輸入通過捷徑加到輸出上，實現恒等映射（Identity mapping）。

應用場景：

????????當殘差塊的輸入和輸出維度完全相同時，可以使用Identity shortcuts。

????????例如，在ResNet的某些層中，如果特征圖的尺寸和通道數都沒有改變，那么這些層之間的捷徑就可以是Identity shortcuts。

(2)Projection Shortcuts（投影捷徑）

定義：

????????Projection shortcuts是一種需要額外參數的捷徑方式，用于處理殘差塊輸入和輸出維度不匹配的情況。它通常通過額外的卷積層（如1x1卷積）或其他操作（如池化層）來調整輸入特征的維度，使其與輸出特征的維度相匹配。

應用場景：

????????當殘差塊的輸入和輸出維度不同時，如改變了特征圖的尺寸或通道數，需要使用Projection shortcuts進行維度匹配。

????????例如，在ResNet的降采樣層中，特征圖的尺寸會減半，通道數會增加一倍，此時就需要使用Projection shortcuts來調整輸入特征的維度。

(3)兩種捷徑對比

3.深層瓶頸結構Deeper Bottleneck Architectures

四、網絡結構及參數選擇

這里尤其注意深層瓶頸結構的代碼實現：

1.主網絡

????????第一個網絡塊的1×1卷積核使用stride=2實現下采樣

????????后面三個網絡塊1×1卷積核使用stride=1，塊內層結構如表內所示

2.殘差連接

????????這里只在第一個網絡塊（虛線殘差捷徑）使用1×1卷積核實現維度對齊（128*4）、下采樣(stride=2，長寬減半)

????????后面三個網絡塊（實線殘差捷徑）使用1×1卷積核恒等連接

????????具體可以網絡的結構實現可以看上面相關資源里提及的參考代碼

五、創新點

1.殘差學習框架的提出

????????論文提出了一種殘差學習（Residual Learning）框架，通過引入殘差塊（Residual Block）來解決這一問題。殘差塊通過添加一個跨越連接（Shortcut Connection），將輸入直接加到輸出上，形成殘差映射（Residual Mapping）。這種方式使得網絡更容易學習恒等映射（Identity Mapping），避免了深層網絡中的退化問題（Degradation Problem），即隨著網絡層數的增加，訓練誤差反而增大的現象。

2.高效的殘差塊設計

????????論文中設計了兩種類型的殘差塊：普通的殘差塊和瓶頸殘差塊。普通的殘差塊包含兩個3×3的卷積層，每個卷積層后都跟著批歸一化（Batch Normalization）和ReLU激活函數。瓶頸殘差塊則包含三個卷積層，分別是1×1、3×3和1×1的卷積層，這種設計能夠降低計算復雜度，同時保持相同的網絡深度。這兩種殘差塊的設計使得ResNet能夠在保持網絡性能的同時，減少計算量，提高訓練效率。

3.極深網絡的成功訓練

????????論文通過引入殘差學習框架，成功訓練了超過100層的深度神經網絡。在ImageNet數據集上，使用152層的ResNet取得了3.57%的錯誤率，這一結果優于當時的許多其他網絡模型，如VGG等。此外，ResNet還在多個計算機視覺任務中表現出色，如圖像檢測、定位和分割等，證明了殘差學習框架的通用性和有效性。

六、評價指標

1.圖像識別分類

top-1錯誤率

????????定義：Top-1 Error Rate是指模型對于測試數據集中每張圖片的預測結果中，概率最高的那個類別（即top-1預測）與實際標簽不相符的比例。

????????解釋：這個指標衡量了模型最直接、最自信的預測結果（即概率最高的預測）的準確性。Top-1 Error Rate越低，說明模型在給出最有可能的分類時越準確。

top-5錯誤率

????????定義：Top-5 Error Rate是指模型對于測試數據集中每張圖片的預測結果中，概率最高的前五個類別（即top-5預測）中沒有包含實際標簽的比例。

????????解釋：這個指標考慮了模型在前五個最可能的分類中的預測準確性。由于模型給出了更多的選擇（即前五個預測），因此Top-5 Error Rate在數值上通常會小于Top-1 Error Rate。Top-5 Error Rate越低，說明模型在給出五個最有可能的分類時，包含實際標簽的可能性越高，從而反映出模型在分類任務中的整體性能較好。

2.目標檢測

(1)層響應標準差Standard deviations (std) of layer responses

????????計算每一層響應的標準差，以了解該層輸出數據的離散程度。

????????①反映數據分布：標準差的大小可以反映該層輸出數據的分布情況。標準差大意味著輸出數據的分布范圍較廣，可能存在較大的差異性；標準差小則意味著輸出數據相對集中，差異性較小。

????????②輔助模型診斷：通過觀察不同層響應的標準差，可以輔助進行模型診斷。例如，如果某一層的標準差異常大或異常小，可能意味著該層存在某種問題（如梯度消失、梯度爆炸等），需要進一步檢查和優化。

????????③評估模型穩定性：標準差還可以用于評估模型的穩定性。在相同條件下多次運行模型并計算各層響應的標準差，如果標準差較小且穩定，說明模型在不同運行之間的輸出差異較小，具有較高的穩定性。

(2)mAP

????????mAP是Mean of Average Precision的縮寫，即平均精確度（Average Precision，AP）的平均值。在目標檢測中，由于需要同時考慮物體的分類和定位（即邊界框的準確性），因此傳統的分類準確率（accuracy）并不適用。mAP通過綜合考慮不同IoU（Intersection over Union，交并比）閾值下的模型表現，提供了一個更為全面和準確的性能評估標準。

七、啟發/Idea

1.遷移學習的價值

????????論文中的殘差網絡不僅在圖像識別任務上表現出色，還被廣泛應用于其他計算機視覺任務中，如目標檢測、圖像分割等。這體現了深度學習模型的遷移學習能力，即在一個任務上訓練的模型可以很容易地遷移到其他相關任務上。這啟發我們在實際應用中，要充分利用已有的深度學習資源和模型，通過遷移學習來加速新任務的開發和部署。

2.充分借鑒前人的工作，并在其基礎上進行創新

????????殘差學習的思想并非完全憑空而來，它借鑒了前人關于網絡結構優化和特征學習的研究成果。早期的多層感知機(MLPs)訓練中，會在網絡輸入和輸出之間添加一個線性層。另外，一些工作通過快捷連接來中心化層響應、梯度和傳播誤差。

????????如“highway networks”，指的是一種特殊的神經網絡架構，它旨在解決深度神經網絡在訓練過程中由于層數過深而導致的梯度消失或梯度爆炸問題。Highway Networks通過引入“門控機制”（gating mechanism）來允許信息在網絡層之間更順暢地流動，從而改善深度神經網絡的訓練效率和性能。

????????然而，論文在殘差學習框架的具體實現上進行了創新，設計了殘差塊（Residual Block）作為網絡的基本單元，使得網絡內所有的部分都參與了訓練過程，并通過實驗驗證了其有效性。

3.背景動機要明確，實驗過程要完整

????????論文通過明確的研究背景、創新的方法框架、全面的實驗驗證以及廣泛的應用前景等多個方面體現了其完整性。它不僅解決了深度神經網絡訓練中的難題，還為后續的深度學習研究提供了重要的思路和方法。

????????作者在多個數據集上進行了實驗，包括ImageNet、CIFAR-10等，以驗證殘差網絡的有效性和優越性。詳細分析了實驗結果，展示了殘差網絡在訓練過程中的穩定性和準確性，證明了殘差學習可以有效解決網絡退化問題。論文還將殘差網絡與其他流行的深度神經網絡進行了對比，展示了殘差網絡在性能上的顯著提升。