論文解析:一文弄懂ResNet(圖像識別分類、目標檢測)

目錄

一、相關資源

二、Motivation

三、技術細節

1.殘差學習過程

2.快捷連接類型

(1)Identity Shortcuts(恒等捷徑)

(2)Projection Shortcuts(投影捷徑)

(3)兩種捷徑對比

3.深層瓶頸結構Deeper Bottleneck Architectures

四、網絡結構及參數選擇

1.主網絡

2.殘差連接

五、創新點

1.殘差學習框架的提出

2.高效的殘差塊設計

3.極深網絡的成功訓練

六、評價指標

1.圖像識別分類

top-1錯誤率

top-5錯誤率

2.目標檢測

(1)層響應標準差Standard deviations (std) of layer responses

(2)mAP

七、啟發/Idea

1.遷移學習的價值

2.充分借鑒前人的工作,并在其基礎上進行創新

3.背景動機要明確,實驗過程要完整


一、相關資源

論文題目:Deep Residual Learning for Image Recognition

鏈接:CVPR 2016 Open Access Repository

參考代碼:

deep-learning-for-image-processing/pytorch_classification/Test5_resnet at master · WZMIAOMIAO/deep-learning-for-image-processing · GitHub

二、Motivation

????????深度神經網絡在訓練過程中遇到的一個核心問題,即“退化”問題。這個問題表現為,當網絡層數增加到一定程度時,網絡的性能(如準確率)不再提升,反而出現下降的現象。

????????傳統的深度神經網絡在層數增加到一定程度后,會出現梯度消失或梯度爆炸的問題,導致網絡難以訓練。盡管通過標準化初始賦值和中間層(如Batch Normalization)可以在一定程度上緩解這些問題,但還是會出現準確率飽和然后下降的問題。

????????為了解決上述問題,論文提出了一種殘差學習的框架。這種框架允許網絡直接學習輸入與輸出之間的殘差(即差異),而不是直接學習輸入到輸出的映射。

三、技術細節

1.殘差學習過程

????????利用shortcut connection實現殘差塊:

????????實現思想:較深層網絡產生的誤差至少不應該高于上一層產生的訓練誤差。

2.快捷連接類型

????????Identity shortcuts(恒等捷徑)和Projection shortcuts(投影捷徑)是深度殘差網絡(ResNet)中兩種不同類型的捷徑(shortcut)實現方式,它們在處理輸入和輸出維度時扮演著不同的角色,兩種圖像結構在③中展現。

(1)Identity Shortcuts(恒等捷徑)

定義:

????????Identity shortcuts是一種不需要額外參數的捷徑方式,當殘差塊的輸入和輸出維度一致時,可以直接將輸入通過捷徑加到輸出上,實現恒等映射(Identity mapping)。

應用場景:

????????當殘差塊的輸入和輸出維度完全相同時,可以使用Identity shortcuts。

????????例如,在ResNet的某些層中,如果特征圖的尺寸和通道數都沒有改變,那么這些層之間的捷徑就可以是Identity shortcuts。

(2)Projection Shortcuts(投影捷徑)

定義:

????????Projection shortcuts是一種需要額外參數的捷徑方式,用于處理殘差塊輸入和輸出維度不匹配的情況。它通常通過額外的卷積層(如1x1卷積)或其他操作(如池化層)來調整輸入特征的維度,使其與輸出特征的維度相匹配。

應用場景:

????????當殘差塊的輸入和輸出維度不同時,如改變了特征圖的尺寸或通道數,需要使用Projection shortcuts進行維度匹配。

????????例如,在ResNet的降采樣層中,特征圖的尺寸會減半,通道數會增加一倍,此時就需要使用Projection shortcuts來調整輸入特征的維度。

(3)兩種捷徑對比

3.深層瓶頸結構Deeper Bottleneck Architectures

四、網絡結構及參數選擇

這里尤其注意深層瓶頸結構的代碼實現

    1.主網絡

    ????????第一個網絡塊的1×1卷積核使用stride=2實現下采樣

    ????????后面三個網絡塊1×1卷積核使用stride=1,塊內層結構如表內所示

    2.殘差連接

    ????????這里只在第一個網絡塊(虛線殘差捷徑)使用1×1卷積核實現維度對齊(128*4)、下采樣(stride=2,長寬減半)

    ????????后面三個網絡塊(實線殘差捷徑)使用1×1卷積核恒等連接

    ????????具體可以網絡的結構實現可以看上面相關資源里提及的參考代碼

    五、創新點

    1.殘差學習框架的提出

    ????????論文提出了一種殘差學習(Residual Learning)框架,通過引入殘差塊(Residual Block)來解決這一問題。殘差塊通過添加一個跨越連接(Shortcut Connection),將輸入直接加到輸出上,形成殘差映射(Residual Mapping)。這種方式使得網絡更容易學習恒等映射(Identity Mapping),避免了深層網絡中的退化問題(Degradation Problem),即隨著網絡層數的增加,訓練誤差反而增大的現象。

    2.高效的殘差塊設計

    ????????論文中設計了兩種類型的殘差塊:普通的殘差塊和瓶頸殘差塊。普通的殘差塊包含兩個3×3的卷積層,每個卷積層后都跟著批歸一化(Batch Normalization)和ReLU激活函數。瓶頸殘差塊則包含三個卷積層,分別是1×1、3×3和1×1的卷積層,這種設計能夠降低計算復雜度,同時保持相同的網絡深度。這兩種殘差塊的設計使得ResNet能夠在保持網絡性能的同時,減少計算量,提高訓練效率。

    3.極深網絡的成功訓練

    ????????論文通過引入殘差學習框架,成功訓練了超過100層的深度神經網絡。在ImageNet數據集上,使用152層的ResNet取得了3.57%的錯誤率,這一結果優于當時的許多其他網絡模型,如VGG等。此外,ResNet還在多個計算機視覺任務中表現出色,如圖像檢測、定位和分割等,證明了殘差學習框架的通用性和有效性。

    六、評價指標

    1.圖像識別分類

    top-1錯誤率

    ????????定義:Top-1 Error Rate是指模型對于測試數據集中每張圖片的預測結果中,概率最高的那個類別(即top-1預測)與實際標簽不相符的比例。

    ????????解釋:這個指標衡量了模型最直接、最自信的預測結果(即概率最高的預測)的準確性。Top-1 Error Rate越低,說明模型在給出最有可能的分類時越準確。

    top-5錯誤率

    ????????定義:Top-5 Error Rate是指模型對于測試數據集中每張圖片的預測結果中,概率最高的前五個類別(即top-5預測)中沒有包含實際標簽的比例。

    ????????解釋:這個指標考慮了模型在前五個最可能的分類中的預測準確性。由于模型給出了更多的選擇(即前五個預測),因此Top-5 Error Rate在數值上通常會小于Top-1 Error Rate。Top-5 Error Rate越低,說明模型在給出五個最有可能的分類時,包含實際標簽的可能性越高,從而反映出模型在分類任務中的整體性能較好。

    2.目標檢測

    (1)層響應標準差Standard deviations (std) of layer responses

    ????????計算每一層響應的標準差,以了解該層輸出數據的離散程度。

    ????????①反映數據分布:標準差的大小可以反映該層輸出數據的分布情況。標準差大意味著輸出數據的分布范圍較廣,可能存在較大的差異性;標準差小則意味著輸出數據相對集中,差異性較小。

    ????????②輔助模型診斷:通過觀察不同層響應的標準差,可以輔助進行模型診斷。例如,如果某一層的標準差異常大或異常小,可能意味著該層存在某種問題(如梯度消失、梯度爆炸等),需要進一步檢查和優化。

    ????????③評估模型穩定性:標準差還可以用于評估模型的穩定性。在相同條件下多次運行模型并計算各層響應的標準差,如果標準差較小且穩定,說明模型在不同運行之間的輸出差異較小,具有較高的穩定性。

    (2)mAP

    ????????mAP是Mean of Average Precision的縮寫,即平均精確度(Average Precision,AP)的平均值。在目標檢測中,由于需要同時考慮物體的分類和定位(即邊界框的準確性),因此傳統的分類準確率(accuracy)并不適用。mAP通過綜合考慮不同IoU(Intersection over Union,交并比)閾值下的模型表現,提供了一個更為全面和準確的性能評估標準。

    七、啟發/Idea

    1.遷移學習的價值

    ????????論文中的殘差網絡不僅在圖像識別任務上表現出色,還被廣泛應用于其他計算機視覺任務中,如目標檢測、圖像分割等。這體現了深度學習模型的遷移學習能力,即在一個任務上訓練的模型可以很容易地遷移到其他相關任務上。這啟發我們在實際應用中,要充分利用已有的深度學習資源和模型,通過遷移學習來加速新任務的開發和部署。

    2.充分借鑒前人的工作,并在其基礎上進行創新

    ????????殘差學習的思想并非完全憑空而來,它借鑒了前人關于網絡結構優化和特征學習的研究成果。早期的多層感知機(MLPs)訓練中,會在網絡輸入和輸出之間添加一個線性層。另外,一些工作通過快捷連接來中心化層響應、梯度和傳播誤差。

    ????????如“highway networks”,指的是一種特殊的神經網絡架構,它旨在解決深度神經網絡在訓練過程中由于層數過深而導致的梯度消失或梯度爆炸問題。Highway Networks通過引入“門控機制”(gating mechanism)來允許信息在網絡層之間更順暢地流動,從而改善深度神經網絡的訓練效率和性能。

    ????????然而,論文在殘差學習框架的具體實現上進行了創新,設計了殘差塊(Residual Block)作為網絡的基本單元,使得網絡內所有的部分都參與了訓練過程,并通過實驗驗證了其有效性。

    3.背景動機要明確,實驗過程要完整

    ????????論文通過明確的研究背景、創新的方法框架、全面的實驗驗證以及廣泛的應用前景等多個方面體現了其完整性。它不僅解決了深度神經網絡訓練中的難題,還為后續的深度學習研究提供了重要的思路和方法。

    ????????作者在多個數據集上進行了實驗,包括ImageNet、CIFAR-10等,以驗證殘差網絡的有效性和優越性。詳細分析了實驗結果,展示了殘差網絡在訓練過程中的穩定性和準確性,證明了殘差學習可以有效解決網絡退化問題。論文還將殘差網絡與其他流行的深度神經網絡進行了對比,展示了殘差網絡在性能上的顯著提升。

    本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
    如若轉載,請注明出處:http://www.pswp.cn/news/909304.shtml
    繁體地址,請注明出處:http://hk.pswp.cn/news/909304.shtml
    英文地址,請注明出處:http://en.pswp.cn/news/909304.shtml

    如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

    相關文章

    動態規劃算法的歡樂密碼(二):路徑問題

    專欄:算法的魔法世界 個人主頁:手握風云 一、例題講解 1.1. 不同路徑 題目要求是計算從網格的左上角(起點)到右下角(終點)的所有不同路徑的數量。機器人每次只能向下或向右移動一步。如下圖所示&#xff0…

    嵌入式相關開源項目、庫、資料------持續更新中

    嵌入式相關開源項目、庫、資料------持續更新中 學習初期最難找的就是找學習資料了,本貼精心匯總了一些嵌入式相關資源,包括但不限于編程語言、單片機、開源項目、物聯網、操作系統、Linux、計算機等資源,并且在不斷地更新中,致力…

    圖像處理與機器學習項目:特征提取、PCA與分類器評估

    圖像處理與機器學習項目:特征提取、PCA與分類器評估 項目概述 本項目將完成一個完整的圖像處理與機器學習流程,包括數據探索、特征提取、主成分分析(PCA)、分類器實現和評估五個關鍵步驟。我們將使用Python的OpenCV、scikit-learn和scikit-image庫來處理圖像數據并實現機器…

    MATLAB | 如何使用MATLAB獲取《Nature》全部繪圖 (附23-25年圖像)

    文末有全部圖片資源 我在兩年前更過如何用 MATLAB 爬取 《Nature》全部插圖,最近又有人問我有沒有下載好的24,25年插圖的壓縮包,于是又去拿代碼運行了一下,發現兩年前寫的代碼今天居然還能用,代碼如下: f…

    中國老年健康調查(CLHLS)數據挖掘教程(1)--CLHLS簡介和數據下載

    北京大學“中國老年健康影響因素跟蹤調查(簡稱‘中國老年健康調查’;英文名稱為Chinese Longitudinal Healthy Longevity Survey (CLHLS))”及交叉學科研究由國家自然科學基金委主任基金應急項目、重大項目、重點項目及國際合作項目。1998-20…

    基本多線程編譯make命令

    背景: 在ffmpeg源碼編譯的時候要等很久,快下班了,等不及。 解決方法: 使用多線程編譯。 make -j{n} 如: make -j8詳解:(沒時間看的可以返回了!) 在編譯 FFmpeg 時使用…

    MNIST數據集上樸素貝葉斯分類器(MATLAB例)

    MNIST數據集上樸素貝葉斯分類器 Naive Bayes Classification fitcnb Train multiclass naive Bayes model Syntax Mdl fitcnb(Tbl,ResponseVarName) Mdl fitcnb(Tbl,formula) Mdl fitcnb(Tbl,Y) Mdl fitcnb(X,Y) Mdl fitcnb(___,Name,Value) [Mdl,AggregateOptimization…

    網站設計小技巧:利用交互設計提升用戶體驗

    現在很多企業朋友都會感覺到,做網站設計掌握不好設計網頁的魂,換了很多設計方式可能效果都不理想。蒙特網站專注高端網站建設20多年,基于為華為、字節跳動、海康威視等頭部企業打造網站的經驗,今天將近期用戶比較喜歡的網頁設計方…

    Github指南-Add .gitignore和Choose a license

    Add .gitignore(添加忽略文件列表) 📌 作用: .gitignore 文件用于告訴 Git 哪些文件或文件夾**不要被上傳(版本控制)**,例如: 編譯生成的臨時文件(如 .exe, .o&#x…

    如何打造沉浸式文件操作體驗

    在操作系統長期運行后,本地文件系統往往會面臨一個常見卻棘手的問題:元數據管理效率下降,導致用戶在海量文件中檢索目標內容時出現顯著的延遲與操作成本。這種現象在未使用標簽化或語義化管理系統的情況下尤為明顯。 而 Oversis 的出現&…

    企業AI深水區突圍:從星辰大海到腳下泥濘的進化論

    一、業務價值旅程:從降本增效到價值躍遷 1.1 技術落地的"甜蜜陷阱" 企業在AI應用初期往往陷入"高配用不起,低配用不了"的困境。一臺8卡A100服務器每月電費超3萬元的成本,對制造業利潤形成巨大擠壓。即便跨過算力門檻&a…

    PostgreSQL的擴展moddatetime

    PostgreSQL的擴展moddatetime moddatetime 是 PostgreSQL 的一個內置擴展,用于自動維護表的最后修改時間字段。這個擴展可以自動更新指定字段為當前時間戳,非常適合需要跟蹤記錄最后修改時間的應用場景。 一、moddatetime 基本功能 核心特性 自動更新…

    自己的電腦搭建外網訪問網站服務器的步驟

    文章目錄 PC電腦做網站服務器的步驟1.前言2. 網站服務器系統的安裝2.1個人電腦安裝IIS(Windows7系統安裝IIS7.0)2.1.1:打開控制面板,給Windows安裝插件 2.2網站配置:2.2.1打開網站配置項:2.2.2開始配置&…

    基于深度學習的智能語音合成系統:技術與實踐

    前言 隨著人工智能技術的飛速發展,智能語音合成(Text-to-Speech, TTS)技術已經成為人機交互領域的重要組成部分。從智能助手到有聲讀物,語音合成技術正在改變我們與數字內容的交互方式。近年來,深度學習技術為語音合成…

    鑄鐵平臺的制造工藝復雜而精細

    鑄鐵平臺的制造工藝確實復雜而精細。首先,需要選擇合適的鑄鐵材料,通常是灰鑄鐵或球墨鑄鐵,以滿足平臺的強度和耐磨性要求。然后,根據設計要求,制作模具,并在高溫下將鐵液倒入模具中進行鑄造。在鑄造過程中…

    ArcPy 與 ArcGIS .NET SDK 讀取 GDB 要素類坐標系失敗?GDAL 外掛方案詳解

    ArcPy 與 ArcGIS .NET SDK 讀取 GDB 要素類坐標系失敗?GDAL 外掛方案詳解 在ArcGIS Pro中正常顯示的坐標系,為何通過ArcPy或.NET SDK卻無法正確讀取?本文將分享我在處理CGCS2000坐標系時的踩坑經歷,以及最終通過GDAL外掛方案解決問…

    Zabbix 高可用架構部署方案(2最新版)

    Zabbix 高可用架構部署方案(MySQL 雙 VIPHAProxyNginx) 前景提要:使用 MySQL 作為數據庫,兩個虛擬 IP(10.0.0.100 和 10.0.0.200),HAProxy 作為數據庫負載均衡,Nginx 作為 Web 訪問…

    深入解析Linux分頁機制:從虛擬內存到物理地址的魔法轉換

    目錄 引言:為什么需要分頁機制? 一、分頁機制基礎概念 1.1 虛擬地址與物理地址 1.2 頁與頁框 1.3 為什么是4KB? 二、多級頁表結構 2.1 為什么需要多級頁表? 2.2 x86_64的四級頁表結構 2.3 頁表項詳解 三、Linux分頁實現機…

    使用python進行圖像處理—圖像變換(6)

    圖像變換是指改變圖像的幾何形狀或空間位置的操作。常見的幾何變換包括平移、旋轉、縮放、剪切(shear)以及更復雜的仿射變換和透視變換。這些變換在圖像配準、圖像校正、創建特效等場景中非常有用。 6.1仿射變換(Affine Transformation) 仿射變換是一種…

    NLP-數據集介紹(并不全,文本類介紹)

    目錄 第一章 STS(語義文本相似度) (重點)一、SemEval STS 年度任務(2012-2017)1. SemEval-2012 STS2. SemEval-2013 STS3. SemEval-2014 STS4. SemEval-2015 STS5. SemEval-2016 STS6. SemEval-2017 STS 二…