ResNet與注意力機制:深度學習中的強強聯合

引言

在深度學習領域,卷積神經網絡(CNN)一直是圖像處理任務的主流架構。然而,隨著網絡深度的增加,梯度消失和梯度爆炸問題逐漸顯現,限制了網絡的性能。為了解決這一問題,ResNet(殘差網絡)應運而生,通過引入殘差連接,使得網絡可以訓練得更深,從而在多個視覺任務中取得了顯著的效果。

然而,盡管ResNet在圖像分類、目標檢測等任務中表現出色,但在處理復雜場景時,仍然存在一些局限性。例如,網絡可能會忽略一些重要的細節信息,或者對某些區域過度關注。為了進一步提升網絡的性能,研究者們開始將注意力機制引入到ResNet中,通過自適應地調整特征圖的重要性,使得網絡能夠更加關注于關鍵區域。

本文將詳細介紹ResNet和注意力機制的基本原理,并探討如何將兩者結合,以提升網絡的性能。我們還將通過代碼示例,展示如何在實踐中實現這一結合。

1. ResNet的基本原理

1.1 殘差連接

ResNet的核心思想是引入殘差連接(Residual Connection),即通過跳躍連接(Skip Connection)將輸入直接傳遞到輸出,使得網絡可以學習殘差映射,而不是直接學習原始映射。這種設計有效地緩解了梯度消失問題,使得網絡可以訓練得更深。

殘差塊(Residual Block)是ResNet的基本構建單元,其結構如下:

class ResidualBlock(nn.Module):def __init__(self, in_channels, out_channels, stride=1):super(ResidualBlock, self).__init__()self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)self.bn1 = nn.BatchNorm2d(out_channels)self.relu = nn.ReLU(inplace=True)self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False)self.bn2 = nn.BatchNorm2d(out_channels)self.shortcut = nn.Sequential()if stride != 1 or in_channels != out_channels:self.shortcut = nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False),nn.BatchNorm2d(out_channels))def forward(self, x):residual = xout = self.conv1(x)out = self.bn1(out)out = self.relu(out)out = self.conv2(out)out = self.bn2(out)out += self.shortcut(residual)out = self.relu(out)return out

1.2 ResNet的網絡結構

ResNet的網絡結構由多個殘差塊堆疊而成,通常包括多個階段(Stage),每個階段包含多個殘差塊。隨著網絡的加深,特征圖的尺寸逐漸減小,而通道數逐漸增加。常見的ResNet架構包括ResNet-18、ResNet-34、ResNet-50、ResNet-101和ResNet-152等。

2. 注意力機制的基本原理

2.1 注意力機制的概念

注意力機制(Attention Mechanism)最初在自然語言處理(NLP)領域中被提出,用于解決序列到序列(Seq2Seq)模型中的長距離依賴問題。其核心思想是通過計算輸入序列中每個元素的重要性,動態地調整每個元素的權重,從而使得模型能夠更加關注于關鍵信息。

在計算機視覺領域,注意力機制被廣泛應用于圖像分類、目標檢測、圖像分割等任務中。通過引入注意力機制,網絡可以自適應地調整特征圖的重要性,從而提升模型的性能。

2.2 常見的注意力機制

2.2.1 通道注意力機制

通道注意力機制(Channel Attention)通過計算每個通道的重要性,動態地調整每個通道的權重。常見的通道注意力機制包括SENet(Squeeze-and-Excitation Network)和CBAM(Convolutional Block Attention Module)等。

SENet的結構如下:

class SEBlock(nn.Module):def __init__(self, channel, reduction=16):super(SEBlock, self).__init__()self.avg_pool = nn.AdaptiveAvgPool2d(1)self.fc = nn.Sequential(nn.Linear(channel, channel // reduction, bias=False),nn.ReLU(inplace=True),nn.Linear(channel // reduction, channel, bias=False),nn.Sigmoid())def forward(self, x):b, c, _, _ = x.size()y = self.avg_pool(x).view(b, c)y = self.fc(y).view(b, c, 1, 1)return x * y.expand_as(x)
2.2.2 空間注意力機制

空間注意力機制(Spatial Attention)通過計算每個空間位置的重要性,動態地調整每個空間位置的權重。常見的空間注意力機制包括CBAM和Non-local Neural Networks等。

CBAM的結構如下:

class CBAMBlock(nn.Module):def __init__(self, channel, reduction=16, kernel_size=7):super(CBAMBlock, self).__init__()self.channel_attention = SEBlock(channel, reduction)self.spatial_attention = nn.Sequential(nn.Conv2d(2, 1, kernel_size=kernel_size, padding=kernel_size//2, bias=False),nn.Sigmoid())def forward(self, x):x = self.channel_attention(x)y = torch.cat((torch.max(x, 1)[0].unsqueeze(1), torch.mean(x, 1).unsqueeze(1)), dim=1)y = self.spatial_attention(y)return x * y

3. ResNet與注意力機制的結合

3.1 為什么要在ResNet中引入注意力機制?

盡管ResNet通過殘差連接有效地緩解了梯度消失問題,使得網絡可以訓練得更深,但在處理復雜場景時,仍然存在一些局限性。例如,網絡可能會忽略一些重要的細節信息,或者對某些區域過度關注。通過引入注意力機制,網絡可以自適應地調整特征圖的重要性,從而更加關注于關鍵區域,提升模型的性能。

3.2 如何在ResNet中引入注意力機制?

在ResNet中引入注意力機制的方法有很多種,常見的方法包括在殘差塊中引入通道注意力機制、空間注意力機制,或者在網絡的最后引入全局注意力機制等。

3.2.1 在殘差塊中引入通道注意力機制

在殘差塊中引入通道注意力機制的方法如下:

class ResidualBlockWithSE(nn.Module):def __init__(self, in_channels, out_channels, stride=1, reduction=16):super(ResidualBlockWithSE, self).__init__()self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)self.bn1 = nn.BatchNorm2d(out_channels)self.relu = nn.ReLU(inplace=True)self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False)self.bn2 = nn.BatchNorm2d(out_channels)self.se = SEBlock(out_channels, reduction)self.shortcut = nn.Sequential()if stride != 1 or in_channels != out_channels:self.shortcut = nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False),nn.BatchNorm2d(out_channels))def forward(self, x):residual = xout = self.conv1(x)out = self.bn1(out)out = self.relu(out)out = self.conv2(out)out = self.bn2(out)out = self.se(out)out += self.shortcut(residual)out = self.relu(out)return out
3.2.2 在殘差塊中引入空間注意力機制

在殘差塊中引入空間注意力機制的方法如下:

class ResidualBlockWithCBAM(nn.Module):def __init__(self, in_channels, out_channels, stride=1, reduction=16, kernel_size=7):super(ResidualBlockWithCBAM, self).__init__()self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)self.bn1 = nn.BatchNorm2d(out_channels)self.relu = nn.ReLU(inplace=True)self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False)self.bn2 = nn.BatchNorm2d(out_channels)self.cbam = CBAMBlock(out_channels, reduction, kernel_size)self.shortcut = nn.Sequential()if stride != 1 or in_channels != out_channels:self.shortcut = nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False),nn.BatchNorm2d(out_channels))def forward(self, x):residual = xout = self.conv1(x)out = self.bn1(out)out = self.relu(out)out = self.conv2(out)out = self.bn2(out)out = self.cbam(out)out += self.shortcut(residual)out = self.relu(out)return out

3.3 實驗結果

通過在ResNet中引入注意力機制,網絡的性能得到了顯著提升。例如,在ImageNet數據集上,ResNet-50的Top-1準確率為76.15%,而引入SENet后,Top-1準確率提升至77.62%。類似地,引入CBAM后,Top-1準確率提升至77.98%。

4. 總結

本文詳細介紹了ResNet和注意力機制的基本原理,并探討了如何將兩者結合,以提升網絡的性能。通過在ResNet中引入注意力機制,網絡可以自適應地調整特征圖的重要性,從而更加關注于關鍵區域,提升模型的性能。實驗結果表明,引入注意力機制后,ResNet的性能得到了顯著提升。

未來,隨著注意力機制的不斷發展,我們可以期待更多創新的網絡架構和訓練方法,進一步提升深度學習模型的性能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/74353.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/74353.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/74353.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【C++】——C++11新特性

目錄 前言 1.初始化列表 2.std::initializer_list 3.auto 4.decltype 5.nullptr 6.左值引用和右值引用 6.1右值引用的真面目 6.2左值引用和右值引用比較 6.3右值引用的意義 6.3.1移動構造 6.4萬能引用 6.5完美轉發——forward 結語 前言 C,這門在系統…

【C++網絡編程】第5篇:UDP與廣播通信

一、UDP協議核心特性 1. UDP vs TCP ?特性 ?UDP?TCP連接方式無連接面向連接(三次握手)可靠性不保證數據到達或順序可靠傳輸(超時重傳、順序控制)傳輸效率低延遲,高吞吐相對較低(因握手和確認機制&…

MOSN(Modular Open Smart Network)是一款主要使用 Go 語言開發的云原生網絡代理平臺

前言 大家好,我是老馬。 sofastack 其實出來很久了,第一次應該是在 2022 年左右開始關注,但是一直沒有深入研究。 最近想學習一下 SOFA 對于生態的設計和思考。 sofaboot 系列 SOFABoot-00-sofaboot 概覽 SOFABoot-01-螞蟻金服開源的 s…

微信小程序日常開發問題整理

微信小程序日常開發問題整理 1 切換渲染模式1.1 WebView 的鏈接在模擬器可以打開,手機上無法打開。 1 切換渲染模式 1.1 WebView 的鏈接在模擬器可以打開,手機上無法打開。 在 app.json 中看到如下配置項,那么當前項目就是 keyline 渲染模式…

【Altium Designer】銅皮編輯

一、動態銅皮與靜態銅皮的區分與切換 動態銅皮(活銅): 通過快捷鍵 PG 創建,支持自動避讓其他網絡對象,常用于大面積鋪銅(如GND或電源網絡)。修改動態銅皮后,需通過 Tools → Polygo…

Java「Deque」 方法詳解:從入門到實戰

Java Deque 各種方法解析:從入門到實戰 在 Java 編程中,Deque(雙端隊列)是一個功能強大的數據結構,允許開發者從隊列的兩端高效地添加、刪除和檢查元素。作為 java.util 包中的一部分,Deque 接口繼承自 Qu…

ffmpeg+QOpenGLWidget顯示視頻

?一個基于 ?FFmpeg 4.x? 和 QOpenGLWidget的簡單視頻播放器代碼示例,實現視頻解碼和渲染到 Qt 窗口的功能。 1)ffmpeg庫界面,視頻解碼支持軟解和硬解方式。 硬解后,硬件解碼完成需要將數據從GPU復制到CPU。優先采用av_hwf…

深入解析嵌入式內核:從架構到實踐

一、嵌入式內核概述 嵌入式內核是嵌入式操作系統的核心組件,負責管理硬件資源、調度任務、處理中斷等關鍵功能。其核心目標是在資源受限的環境中提供高效、實時的控制能力。與通用操作系統不同,嵌入式內核通常具有高度可裁剪性、實時性和可靠性&#xff…

20250324-使用 `nltk` 的 `sent_tokenize`, `word_tokenize、WordNetLemmatizer` 方法時報錯

解決使用 nltk 的 sent_tokenize, word_tokenize、WordNetLemmatizer 方法時報錯問題 第 2 節的手動方法的法1可解決大部分問題,可首先嘗試章節 2 的方法 1. nltk.download(‘punkt_tab’) LookupError: *******************************************************…

『 C++ 』多線程同步:條件變量及其接口的應用實踐

文章目錄 條件變量概述條件變量簡介條件變量的基本用法 案例:兩個線程交替打印奇偶數代碼解釋 std::unique_lock::try_lock_until 介紹代碼示例代碼解釋注意事項 std::condition_variable::wait 詳細解析與示例std::condition_variable::wait 接口介紹代碼示例代碼解…

【VolView】純前端實現CT三維重建-CBCT

文章目錄 什么是CBCTCBCT技術路線使用第三方工具使用Python實現使用前端實現 純前端實現方案優缺點使用VolView實現CBCT VolView的使用1.克隆代碼2.配置依賴3.運行4.效果 進階:VolView配合Python解決卡頓1.修改VtkThreeView.vue2.新增Custom3DView.vue3.Python生成s…

debug - 安裝.msi時,為所有用戶安裝程序

文章目錄 debug - 安裝.msi時,為所有用戶安裝程序概述筆記試試在目標.msi后面直接加參數的測試 備注備注END debug - 安裝.msi時,為所有用戶安裝程序 概述 為了測試,裝了一個test.msi. 安裝時,只有安裝路徑的選擇,沒…

Java Stream兩種list判斷字符串是否存在方案

這里寫自定義目錄標題 背景初始化方法一、filter過濾方法二、anyMatch匹配 背景 在項目開發中,經常遇到篩選list中是否包含某個子字符串,有多種方式,本篇主要介紹stream流的filter和anyMatch兩種方案,記錄下來,方便備…

DeepSeek vs 通義大模型:誰將主導中國AI的未來戰場?

當你在深夜調試代碼時,是否幻想過AI伙伴能真正理解你的需求?當企業面對海量數據時,是否期待一個真正智能的決策大腦? 這場由DeepSeek和通義領銜的大模型之爭,正在重塑中國AI產業的競爭格局。本文將為你揭開兩大技術巨頭的終極對決! 一、顛覆認知的技術突破 1.1 改變游戲…

3. 軸指令(omron 機器自動化控制器)——>MC_SetOverride

機器自動化控制器——第三章 軸指令 12 MC_SetOverride變量?輸入變量?輸出變量?輸入輸出變量 功能說明?時序圖?重啟運動指令?多重啟動運動指令?異常 MC_SetOverride 變更軸的目標速度。 指令名稱FB/FUN圖形表現ST表現MC_SetOverride超調值設定FBMC_SetOverride_instan…

從像素到世界:自動駕駛視覺感知的坐標變換體系

接著上一篇 如何讓自動駕駛汽車“看清”世界?坐標映射與數據融合詳解的概述,這一篇詳細講解自動駕駛多目視覺系統設計原理,并給出應用示例。 摘要 在自動駕駛系統中,準確的環境感知是實現路徑規劃與決策控制的基礎。本文系統性地解析圖像坐標系、像素坐標系、相機坐標系與…

附錄B ISO15118-20測試命令

本章節給出ISO15118-20協議集的V2G命令,包含json、xml,并且根據exiCodec.jar編碼得到exi內容, 讀者可以參考使用,測試編解碼庫是否能正確編解碼。 B.1 supportedAppProtocolReq json: {"supportedAppProtocolReq": {…

VLAN章節學習

為什么會有vlan這個技術? 1.通過劃分廣播域來降低廣播風暴導致的設備性能下降; 2.提高網絡管理的靈活性和通過隔離網絡帶來的安全性; 3.在成本不變的情況下增加更多的功能性; VLAN又稱虛擬局域網(再此擴展&#xf…

FPGA時鐘約束

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 目錄 前言 一、Create_clock 前言 時鐘周期約束&#xff0c;就是對時鐘進行約束。 一、Create_clock create_clock -name <name> -period <period> -waveform …

機房布局和布線的最佳實踐:如何打造高效、安全的機房環境

機房布局和布線的最佳實踐:如何打造高效、安全的機房環境 大家好,我是Echo_Wish。今天我們來聊聊機房布局和布線的問題,這可是數據中心和IT運維中的一個非常重要的環節。不管是剛剛接觸運維的新人,還是已經摸爬滾打多年的老兵,都應該對機房的布局和布線有一個清晰的認識。…