18 - GCNet

論文《GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond》

1、作用

GCNet通過聚合每個查詢位置的全局上下文信息來捕獲長距離依賴關系,從而改善了圖像/視頻分類、對象檢測和分割等一系列識別任務的性能。非局部網絡(NLNet)首次提出了通過聚合查詢特定的全局上下文到每個查詢位置來捕獲長距離依賴的方法。GCNet在此基礎上進行了改進和簡化,旨在以更少的計算量保持NLNet的準確性。

2、機制

GCNet通過以下三個步驟來建模全局上下文:

1、上下文建模

通過加權平均所有位置的特征來形成全局上下文特征

2、特征轉換

捕捉通道間的依賴關系。

3、融合

將全局上下文特征合并到每個位置的特征中。GCNet發現NLNet中的全局上下文對于圖像內的不同查詢位置幾乎是相同的,基于這一發現,GCNet采用了查詢獨立的注意力圖來簡化計算過程。

3、獨特優勢

1、計算效率:GCNet通過使用查詢獨立的注意力圖顯著減少了計算量,與NLNet相比,保持了準確性的同時大幅減少了計算需求。

2、輕量級:GCNet的設計允許它被應用于背骨網絡的多個層次,與SENet相似,它通過特征重標定和全局上下文建模來提高性能,但引入的計算和參數增量非常小。

3、通用性和魯棒性:在多個基準數據集和不同的視覺識別任務(如對象檢測/分割、圖像分類和動作識別)上,GCNet普遍優于簡化的NLNet和SENet,展示了其優越的性能和廣泛的適用性。

4、代碼


import torch
import torch.nn as nn# 定義全局上下文塊類
class GlobalContextBlock(nn.Module):def __init__(self, inplanes, ratio, pooling_type="att", fusion_types=('channel_mul')) -> None:super().__init__()# 定義有效的融合類型valid_fusion_types = ['channel_add', 'channel_mul']# 斷言池化類型為'avg'或'att'assert pooling_type in ['avg', 'att']# 斷言至少使用一種融合方式assert len(fusion_types) > 0, 'at least one fusion should be used'# 初始化基本參數self.inplanes = inplanesself.ratio = ratioself.planes = int(inplanes * ratio)self.pooling_type = pooling_typeself.fusion_type = fusion_typesif pooling_type == 'att':self.conv_mask = nn.Conv2d(inplanes, 1, kernel_size=1)self.softmax = nn.Softmax(dim=2)else:# 否則,使用自適應平均池化self.avg_pool = nn.AdaptiveAvgPool2d(1)# 如果池化類型為'att',使用1x1卷積作為掩碼,并使用Softmax進行歸一化if 'channel_add' in fusion_types:self.channel_add_conv = nn.Sequential(nn.Conv2d(self.inplanes, self.planes, kernel_size=1),nn.LayerNorm([self.planes, 1, 1]),nn.ReLU(inplace=True),nn.Conv2d(self.planes, self.inplanes, kernel_size=1))else:self.channel_add_conv = None# 如果融合類型包含'channel_mul',定義通道相乘卷積if 'channel_mul' in fusion_types:self.channel_mul_conv = nn.Sequential(nn.Conv2d(self.inplanes, self.planes, kernel_size=1),nn.LayerNorm([self.planes, 1, 1]),nn.ReLU(inplace=True),nn.Conv2d(self.planes, self.inplanes, kernel_size=1))else:self.channel_mul_conv = None# 定義空間池化函數def spatial_pool(self, x):batch, channel, height, width = x.size()if self.pooling_type == 'att':input_x = xinput_x = input_x.view(batch, channel, height * width) # 使用1x1卷積生成掩碼input_x = input_x.unsqueeze(1)context_mask = self.conv_mask(x) # 使用1x1卷積生成掩碼context_mask = context_mask.view(batch, 1, height * width)context_mask = self.softmax(context_mask)# 應用Softmax進行歸一化context_mask = context_mask.unsqueeze(-1)context = torch.matmul(input_x, context_mask) # 計算上下文context = context.view(batch, channel, 1, 1)else:context = self.avg_pool(x) # 執行自適應平均池化return context# 定義前向傳播函數def forward(self, x):context = self.spatial_pool(x)out = xif self.channel_mul_conv is not None:channel_mul_term = torch.sigmoid(self.channel_mul_conv(context))  # 將權重進行放大縮小out = out * channel_mul_term  # 與x進行相乘if self.channel_add_conv is not None:channel_add_term = self.channel_add_conv(context)out = out + channel_add_termreturn outif __name__ == "__main__":input = torch.randn(16, 64, 32, 32)  #生成隨機數net = GlobalContextBlock(64, ratio=1 / 16) #還是實例化哈out = net(input)print(out.shape)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/84825.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/84825.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/84825.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

人工智能學習17-Pandas-查看數據

人工智能學習概述—快手視頻 人工智能學習17-Pandas-查看數據—快手視頻

RV1126+OPENCV在視頻中添加LOGO圖像

一.RV1126OPENCV在視頻中添加LOGO圖像大體流程圖 主要是利用RV1126的視頻流結合OPENCV的API在視頻流里面添加LOGO圖像,換言之就是在RV1126的視頻流里面疊加圖片。大體流程我們來看上圖,要完成這個功能我們需要創建兩個線程(實際上還有初始化過程&#xf…

汽車制造通信革新:網關模塊讓EtherCAT成功對接CCLINK

?在現代工業自動化生產領域,不同品牌和類型的設備往往采用不同的通信協議,這給設備之間的互聯互通帶來了挑戰。某汽車制造企業的生產線上,采用了三菱FX5U PLC作為主站進行整體生產流程的控制和調度,同時配備了庫卡機器人作為從站…

vue父類跳轉到子類帶參數,跳轉完成后去掉參數

當通過路由導航的時候,由于父類頁面帶參數到子類,導致路徑上面有參數 這樣不僅不美觀,而且在點擊導航菜單按鈕時還會有各種問題,這時我們只需要將路由后面的參數去掉就好了,在子頁面mounted()函數里面獲取到父類的參數…

純 CSS 實現的的3種掃光效果

介紹一個比較常見的動畫效果。 在日常開發中,為了強調凸顯某些文本或者元素,會加一些掃光動效,起到吸引眼球的效果,比如文本的 或者是一個卡片容器,里面可能是圖片或者文本或者任意元素 除此之外,還有那…

如何在FastAPI中構建一個既安全又靈活的多層級權限系統?

title: 如何在FastAPI中構建一個既安全又靈活的多層級權限系統? date: 2025/06/14 12:43:05 updated: 2025/06/14 12:43:05 author: cmdragon excerpt: FastAPI通過依賴注入系統和OAuth2、JWT等安全方案,支持構建多層級權限系統。系統設計包括基于角色的訪問控制、細粒度權…

大模型_Ubuntu24.04安裝RagFlow_使用hyper-v虛擬機_超級詳細--人工智能工作筆記0251

因為之前使用dify搭建了一個知識庫,但是dify的效果,尤其是在文檔解析方面是非常不友好的,雖然測試了,納米的效果非常好,但是納米只能容納2000個文件,如果 你的知識庫中有代碼,sql文件等等&…

LeetCode - LCR 173. 點名

題目 LCR 173. 點名 - 力扣(LeetCode) 思路 首先對數組進行排序,使學號按順序排列 在排序后的數組中,如果沒有缺失的學號,那么每個元素應該等于其索引值 使用二分查找找到第一個不等于其索引的元素位置&#xff1…

VSCode如何優雅的debug python文件,包括外部命令uv run main.py等等

debug程序的方式有很多種。每一種方式都各有缺點:有的方式雖然優雅,但是局限性很大;有的方式麻煩,但是局限性小。 常規方式: 優點:然后可以觀察所有線程。一勞永逸。缺點:就是寫參數很麻煩,但是你可以讓chatgpt等大模型幫你寫。最最最優雅的方式: 優點:就是需要在代碼…

[調試技巧]VS Code如何在代理模式下使用 MCP 工具?

在開發環境調試MCP,通過agent模式與大模型對話,并不能保證每次均正確調用tool。在閱讀官方文檔之后,得知以下小技巧。 添加 MCP 服務器后,您可以在代理模式下使用它提供的工具。要在代理模式下使用 MCP 工具 打開聊天視圖 (CtrlAl…

京東零售基于Flink的推薦系統智能數據體系 |Flink Forward Asia 峰會實錄分享

京東推薦系統的數據體系極其復雜,從召回、模型到策略和效果評估,每個環節都需要強大的海量數據處理能力支撐。然而,在實際運行中,整個數據鏈路面臨著諸多挑戰:如實時與離線數據的埋點口徑不一致、數倉模型存在偏差、計…

[學習] 牛頓迭代法:從數學原理到實戰

牛頓迭代法:從數學原理到實戰 ——高效求解方程根的數值方法 文章目錄 牛頓迭代法:從數學原理到實戰一、引言:為什么需要牛頓迭代法?二、數學原理:幾何直觀與公式推導1. **核心思想**2. **幾何解釋**3. **收斂性分析*…

使用 Git 將本地倉庫上傳到 GitHub 倉庫的完整指南

使用 Git 將本地倉庫上傳到 GitHub 倉庫的完整指南 一、引言 在現代軟件開發中,版本控制工具 Git 已成為不可或缺的一部分。GitHub 作為全球最大的代碼托管平臺,為開發者提供了代碼協作、項目管理和開源貢獻的便捷方式。本文將詳細介紹如何通過 Git 將本…

數據結構 - 棧與隊列

棧:限定僅在表尾進行插入或刪除操作的線性表。 表尾端有特殊含義,稱為棧頂(top)。 相應的,表頭端稱為棧底(buttom)。不含元素的空表成為空棧。 棧又稱為后進先出的線性表(Last In…

jojojojojo

《JOJO的奇妙冒險》是由日本漫畫家荒木飛呂彥所著漫畫。漫畫于1987年至2004年在集英社的少年漫畫雜志少年JUMP上連載(1987年12號刊-2004年47號刊),2005年后在集英社青年漫畫雜志Ultra Jumphttps://baike.baidu.com/item/Ultra%20Jump/2222322…

統計學核心概念與現實應用精解(偏機器學習)

統計學聽起來似乎很復雜,但其實它的核心就是兩個概念:概率分布和期望。這兩個概念就像是我們日常生活中的決策助手。 概率分布描述了隨機事件各種可能結果出現的可能性大小。比如,擲骰子時每個點數出現的概率,這就是一個典型的概…

go-carbon v2.6.8 發布,輕量級、語義化、對開發者友好的 golang 時間處理庫

carbon 是一個輕量級、語義化、對開發者友好的 Golang 時間處理庫,提供了對時間穿越、時間差值、時間極值、時間判斷、星座、星座、農歷、儒略日 / 簡化儒略日、波斯歷 / 伊朗歷的支持。 carbon 目前已捐贈給 dromara 開源組織,已被 awesome-go 收錄&am…

228永磁同步電機無速度算法--基于雙重鎖相環的滑模觀測器

一、原理介紹 在傳統的正交鎖相環的基礎上,利用前述濾波器、ZOH、代數環等非理想因素對電流信號進行延遲重構,進而得到一個與實際電流信號存在相位偏差的重構信號,且該相位偏差等同于初步估計位置信號與實際位置信號之間的相位偏差。將該重構…

零基礎入門 線性代數

線性代數是一種代數結構,通俗來講,向量空間是這個結構的基石,我們要在向量空間中研究向量與向量的關系 一 對象:向量 各位都有對象嘛?如果沒有對象,想不想知道你們的天命之人是誰捏?如果有對象…

IO之cout格式控制

目錄 簡單了解cout是什么? 什么是字節流 默認格式控制 修改計數系統 調整字符寬度 填充字符 設置浮點數顯示精度 打印末尾的0和小數點 其他格式控制符 right--->設置為右對齊,永久生效 left--->設置為左對齊,永久生效 fixed--…