深度學習之第八課遷移學習（殘差網絡ResNet）

簡介

一、遷移學習

1.什么是遷移學習

2. 遷移學習的步驟

二、殘差網絡ResNet

1.了解ResNet

2.ResNet網絡---殘差結構

三、代碼分析

1. 導入必要的庫

2. 模型準備（遷移學習）

3. 數據預處理

4. 自定義數據集類

5. 數據加載器

6. 設備配置

7. 訓練函數

8. 測試函數

9. 訓練配置和執行

整體流程總結

簡介

????????經過長久的卷積神經網絡的學習、我們學習了如何提高模型的準確率，但是最終我們的準確率還是沒達到百分之八十。原因是因為我們本身模型的局限，面對現有很多成熟的模型，它們有很好的效果，都是經過多次訓練選取了最佳的參數，那我們能不能去使用哪些大佬的模型呢？

????????答案是可以的，這就使用到遷移學習的知識。

深度學習之第五課卷積神經網絡 (CNN)如何訓練自己的數據集（食物分類）

深度學習之第六課卷積神經網絡 (CNN)如何保存和使用最優模型

深度學習之第七課卷積神經網絡 (CNN)調整學習率

一、遷移學習

1.什么是遷移學習

????????遷移學習是指利用已經訓練好的模型，在新的任務上進行微調。遷移學習可以加快模型訓練速度，提高模型性能，并且在數據稀缺的情況下也能很好地工作。

2. 遷移學習的步驟

????????1、選擇預訓練的模型和適當的層：通常，我們會選擇在大規模圖像數據集（如ImageNet）上預訓練的模型，如VGG、ResNet等。然后，根據新數據集的特點，選擇需要微調的模型層。對于低級特征的任務（如邊緣檢測），最好使用淺層模型的層，而對于高級特征的任務（如分類），則應選擇更深層次的模型。

????????2、凍結預訓練模型的參數：保持預訓練模型的權重不變，只訓練新增加的層或者微調一些層，避免因為在數據集中過擬合導致預訓練模型過度擬合。

????????3、在新數據集上訓練新增加的層：在凍結預訓練模型的參數情況下，訓練新增加的層。這樣，可以使新模型適應新的任務，從而獲得更高的性能。

????????4、微調預訓練模型的層：在新層上進行訓練后，可以解凍一些已經訓練過的層，并且將它們作為微調的目標。這樣做可以提高模型在新數據集上的性能。

????????5、評估和測試：在訓練完成之后，使用測試集對模型進行評估。如果模型的性能仍然不夠好，可以嘗試調整超參數或者更改微調層。

太多概念，我們直接使用殘差網絡進行遷移學習。

二、殘差網絡ResNet

1.了解ResNet

????????ResNet 網絡是在 2015年由微軟實驗室中的何凱明等幾位大神提出，斬獲當年ImageNet競賽中分類任務第一名，目標檢測第一名。獲得COCO數據集中目標檢測第一名，圖像分割第一名。

傳統卷積神經網絡存在的問題？

卷積神經網絡都是通過卷積層和池化層的疊加組成的。在實際的試驗中發現，隨著卷積層和池化層的疊加，學習效果不會逐漸變好，反而出現2個問題：

????????1、梯度消失和梯度爆炸梯度消失：若每一層的誤差梯度小于1，反向傳播時，網絡越深，梯度越趨近于0 梯度爆炸：若每一層的誤差梯度大于1，反向傳播時，網絡越深，梯度越來越大

????????2、退化問題

如何解決問題？

為了解決梯度消失或梯度爆炸問題，論文提出通過數據的預處理以及在網絡中使用 BN（Batch Normalization）層來解決。為了解決深層網絡中的退化問題，可以人為地讓神經網絡某些層跳過下一層神經元的連接，隔層相連，弱化每層之間的強聯系。這種神經網絡被稱為殘差網絡 (ResNets)。

????????????????????????????????????????實線為測試集錯誤率虛線為訓練集錯誤率

2.ResNet網絡---殘差結構

ResNet的經典網絡結構有：ResNet-18、ResNet-34、ResNet-50、ResNet-101、ResNet-152幾種，其中，ResNet-18和ResNet-34的基本結構相同，屬于相對淺層的網絡，后面3種的基本結構不同于ResNet-18和ResNet-34，屬于更深層的網絡。

不論是多少層的ResNet網絡，它們都有以下共同點：

網絡一共包含5個卷積組，每個卷積組中包含1個或多個基本的卷積計算過程（Conv-> BN->ReLU）
每個卷積組中包含1次下采樣操作，使特征圖大小減半，下采樣通過以下兩種方式實現：
- 最大池化，步長取2，只用于第2個卷積組（Conv2_x）
- 卷積，步長取2，用于除第2個卷積組之外的4個卷積組
第1個卷積組只包含1次卷積計算操作，5種典型ResNet結構的第1個卷積組完全相同，卷積核均為7x7，步長為均2
第2-5個卷積組都包含多個相同的殘差單元，在很多代碼實現上，通常把第2-5個卷積組分別叫做Stage1、Stage2、Stage3、Stage4
首先是第一層卷積使用kernel 7?7，步長為2，padding為3。之后進行BN，ReLU和maxpool。這些構成了第一部分卷積模塊conv1。
然后是四個stage，有些代碼中用make_layer()來生成stage，每個stage中有多個模塊，每個模塊叫做building block，resnet18= [2,2,2,2]，就有8個building block。注意到他有兩種模塊BasicBlock和Bottleneck。resnet18和resnet34用的是BasicBlock，resnet50及以上用的是Bottleneck。無論BasicBlock還是Bottleneck模塊，都用到了殘差連接(shortcut connection)方式：

下圖以ResNet18為例介紹一下它的網絡模型

layer1

????????ResNet18 ，使用的是?BasicBlock。layer1，特點是沒有進行降采樣，卷積層的?stride = 1，不會降采樣。在進行?shortcut?連接時，也沒有經過?downsample?層。

layer2，layer3，layer4

而?layer2，layer3，layer4?的結構圖如下，每個?layer?包含 2 個?BasicBlock，但是第 1 個?BasicBlock?的第 1 個卷積層的?stride = 2，會進行降采樣。在進行?shortcut?連接時，會經過?downsample?層，進行降采樣和降維。

????????residual結構使用了一種shortcut的連接方式，也可理解為捷徑。讓特征矩陣隔層相加，注意F(X)和X形狀要相同，所謂相加是特征矩陣相同位置上的數字進行相加。

????????一個殘差塊有2條路徑 F(x)和 x，F(x) 路徑擬合殘差，可稱之為殘差路徑；?路徑為`identity mapping`恒等映射，可稱之為`shortcut`。圖中的⊕為`element-wise addition`，要求參與運算的F(x)??和?x的尺寸要相同。

其中關鍵技術?Batch Normalization是對每一個卷積后進行標準化

????????Batch Normalization目的：使所有的feature map滿足均值為0，方差為1的分布規律