ResNeSt: Split-Attention Networks論文學習筆記

在這里插入圖片描述


在這里插入圖片描述

這張圖展示了一個名為“Split-Attention”的神經網絡結構,該結構在一個基數組(cardinal group)內進行操作。基數組通常指的是在神經網絡中處理的一組特征或通道。圖中展示了如何通過一系列操作來實現對輸入特征的注意力機制。

以下是圖中各部分的解釋:
輸入層:
圖中頂部有多個輸入(Input 1, Input 2, …, Input r),這些輸入的特征維度為 (h,w,c),其中 h 和 w 分別表示特征圖的高度和寬度,c 表示通道數。

特征聚合:
這些輸入特征通過一個加法操作(+)聚合成一個特征圖,其維度仍然是 (h,w,c)。

全局池化:
聚合后的特征圖通過全局池化(Global pooling)操作,將其空間維度(即 h 和 w)壓縮為一個單一的值,得到一個維度為 (c,) 的向量。

密集層和激活函數:
這個向量通過一個密集層(Dense c′ + BN + ReLU),其中 c′ 是輸出維度,BN 表示批歸一化(Batch Normalization),ReLU 是激活函數。這一步的目的是生成一個特征表示 (c′,)。

分割注意力:
特征表示 (c′,) 被分割成多個部分,每個部分通過一個密集層(Dense c)進行處理,生成多個特征向量 (ci?,)。

Softmax 操作:
這些特征向量通過一個 r-Softmax 操作,生成一組權重。Softmax 操作將這些特征向量轉換為概率分布,表示每個特征的重要性。

加權特征:
這些權重與原始輸入特征進行逐元素相乘(×),然后將結果相加(+),得到最終的輸出特征圖,其維度仍然是 (h,w,c)。

這個結構通過全局池化和密集層生成特征表示,然后通過Softmax操作生成權重,最后將這些權重應用于原始輸入特征,以實現對輸入特征的注意力機制。圖中為了方便可視化,使用了 c=C/K 的表示,其中 C 是總通道數,K 是基數組的數量。


在這里插入圖片描述
這張圖比較了三種不同的神經網絡塊:SE-Net Block、SK-Net Block 和 ResNeSt Block。每種塊都旨在通過不同的方法增強網絡的特征提取能力。圖中詳細展示了這些塊的結構和操作流程。

SE-Net Block
輸入:特征圖尺寸為 (h,w,c)。
操作:
通過一個 1×1 卷積層將通道數減少到 c′。
通過一個 3×3 卷積層進一步處理特征。
再次通過一個 1×1 卷積層恢復通道數到 c。
應用 Split Attention 機制。
最后通過一個加法操作將處理后的特征與原始輸入特征相加。

SK-Net Block
輸入:特征圖尺寸為 (h,w,c)。
操作:
通過一個 1×1 卷積層將通道數減少到 c。
分別通過兩個不同大小的卷積核(3×3 和 5×5)處理特征,每個卷積核的輸出通道數為 c′,且分組數為 32。
應用 Split Attention 機制。
最后通過一個 1×1 卷積層恢復通道數到 c,并與原始輸入特征相加。

ResNeSt Block
輸入:特征圖尺寸為 (h,w,c)。
操作:
將輸入特征分成多個基數組(Cardinal groups),每個基數組包含 r 個特征圖。
每個基數組內,特征圖被進一步分割成 r 個部分,每個部分通過一個 1×1 卷積層將通道數減少到 c′/k,然后通過一個 3×3 卷積層處理特征。
應用 Split Attention 機制。
將處理后的特征圖在每個基數組內進行拼接(Concatenate),然后通過一個 1×1 卷積層恢復通道數到 c。
最后通過一個加法操作將處理后的特征與原始輸入特征相加。

總結

SE-Net Block:通過減少和恢復通道數,以及應用 Split Attention 機制來增強特征提取能力。
SK-Net Block:通過使用不同大小的卷積核和 Split Attention 機制來處理特征。
ResNeSt Block:通過將特征圖分成多個基數組,并在每個基數組內應用 Split Attention 機制,然后將處理后的特征圖拼接和恢復通道數,以增強特征提取能力。

中提到的 Split Attention 機制的詳細視圖在圖 3 中展示,實際實現中使用基數-主視圖(cardinality-major view),即具有相同基數組索引的特征圖組相鄰放置。在補充材料中提到,實際實現中使用基數-主視圖可以通過分組卷積和標準 CNN 層進行模塊化和加速。


在這里插入圖片描述
圖 4 展示了 ResNeSt 塊的 Radix-major 實現方式。Radix-major 實現是將具有相同基數(radix)索引但不同基數組(cardinality)的特征圖組物理上相鄰放置。這種實現可以使用統一的 CNN 操作符來實現。

以下是圖中各部分的解釋:

輸入層:
輸入特征圖的尺寸為 (h,w,c)。

特征圖分割:
輸入特征圖被分割成 r 個部分,每個部分對應一個基數組(Cardinal group)。

基數組處理:
每個基數組包含多個特征圖,每個特征圖通過一個 1×1 卷積層將通道數減少到 c′/kr,然后通過一個 3×3 卷積層進一步處理特征。每個基數組處理后的特征圖被拼接(Concatenate)在一起。

全局池化:
拼接后的特征圖通過全局池化(Global pooling)操作,將其空間維度(即 h 和 w)壓縮為一個單一的值,得到一個維度為 (c′,) 的向量。

密集層和激活函數:
這個向量通過兩個密集層(Dense c′′,group = k 和 Dense c7,group = k),其中 c′′ 和 c7 是輸出維度,group = k 表示分組數為 k。

Softmax 操作:
這些特征向量通過一個 r-Softmax 操作,生成一組權重。Softmax 操作將這些特征向量轉換為概率分布,表示每個特征的重要性。

加權特征:
這些權重與原始輸入特征進行逐元素相乘(×),然后將結果相加(+),得到最終的輸出特征圖,其維度仍然是 (h,w,c)。

輸出層:
最后通過一個 1×1 卷積層恢復通道數到 c,并與原始輸入特征相加。

這個結構通過將輸入特征圖分割成多個基數組,每個基數組內進行卷積操作,然后通過全局池化和密集層生成特征表示,再通過Softmax操作生成權重,最后將這些權重應用于原始輸入特征,以實現對輸入特征的注意力機制。圖中展示的 Radix-major 實現方式使得具有相同基數索引但不同基數組的特征圖組物理上相鄰放置,從而可以使用統一的 CNN 操作符來實現。


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/67307.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/67307.shtml
英文地址,請注明出處:http://en.pswp.cn/web/67307.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

數據收集后臺服務概要設計

為了幫助大家設計一個數據指標匯總的后端應用,我將提供一個概要設計和表設計的建議。這個設計將基于常見的數據收集需求,假設你需要收集、存儲和匯總來自不同數據源的指標數據。 1. 概要設計 1.1 系統架構 數據收集層:負責從不同數據源&am…

探秘 TCP TLP:從背景到實現

回家的路上還討論了個關于 TCP TLP 的問題,閑著無事縷一縷。本文內容參考自 Tail Loss Probe (TLP): An Algorithm for Fast Recovery of Tail Losses 以及 Linux 內核源碼。 TLP,先說緣由。自 TCP 引入 Fast retrans 機制就是為了盡力避免 RTO&#xf…

設計模式Python版 原型模式

文章目錄 前言一、原型模式二、原型模式示例三、原型管理器 前言 GOF設計模式分三大類: 創建型模式:關注對象的創建過程,包括單例模式、簡單工廠模式、工廠方法模式、抽象工廠模式、原型模式和建造者模式。結構型模式:關注類和對…

一文大白話講清楚webpack進階——5——dev-server原理及其作用

文章目錄 一文大白話講清楚webpack進階——5——dev-server原理及其作用1. webpack的作用2. dev-server的作用3. dev-server的原理3.1 啥是webpack-dev-middleware3.2 HMR 一文大白話講清楚webpack進階——5——dev-server原理及其作用 1. webpack的作用 webpack的作用我們之…

【第十天】零基礎入門刷題Python-算法篇-數據結構與算法的介紹-兩種常見的字符串算法(持續更新)

提示:文章寫完后,目錄可以自動生成,如何生成可參考右邊的幫助文檔 文章目錄 前言一、Python數據結構與算法的詳細介紹1.Python中的常用的字符串算法2.字符串算法3.詳細的字符串算法1)KMP算法2)Rabin-Karp算法 總結 前言…

Writing an Efficient Vulkan Renderer

本文出自GPU Zen 2。 Vulkan 是一個新的顯式跨平臺圖形 API。它引入了許多新概念,即使是經驗豐富的圖形程序員也可能不熟悉。Vulkan 的主要目標是性能——然而,獲得良好的性能需要深入了解這些概念及其高效應用方法,以及特定驅動程序實現的實…

使用QSqlQueryModel創建交替背景色的表格模型

class UserModel(QSqlQueryModel):def __init__(self):super().__init__()self._query "SELECT name, age FROM users"self.refresh()def refresh(self):self.setQuery(self._query)# 重新定義data()方法def data(self, index, role): if role Qt.BackgroundRole…

Java數據庫操作指南:快速上手JDBC【學術會議-2025年數字化教育與信息技術(DEIT 2025】

大會官網:www.ic-deit.org 前言 在現代企業應用中,數據庫是數據存儲和管理的重要組成部分。Java作為一種廣泛使用的編程語言,提供了多種方式與數據庫進行交互。本文將介紹 JDBC(Java Database Connectivity)&#x…

神經網絡的通俗介紹

人工神經網絡,是一種模仿人類大腦工作原理的數學模型。人類的大腦是由無數的小“工作站”組成的,每個工作站叫做“神經元”。這些神經元通過“電線”互相連接,負責接收、處理和傳遞信息。 一、人類大腦神經網絡 人類大腦的神經網絡大概長這…

FLTK - FLTK1.4.1 - demo - animgifimage-play

文章目錄 FLTK - FLTK1.4.1 - demo - animgifimage-play概述筆記END FLTK - FLTK1.4.1 - demo - animgifimage-play 概述 看的官方demo越多,在每個新demo中能看到的新增知識點越少。這是好事。 不可能一次將細節都記住,只要知道每個官方demo能干啥&…

OpenEuler學習筆記(八):安裝OpenEuler

在VMware Workstation中安裝OpenEuler 準備工作 下載并安裝VMware Workstation虛擬機軟件。前往OpenEuler官網下載OpenEuler系統鏡像文件。 創建虛擬機 打開VMware Workstation,點擊“創建新的虛擬機”,選擇“自定義”,點擊“下一步”。選擇…

Rust:高性能與安全并行的編程語言

引言 在現代編程世界里,開發者面臨的最大挑戰之一就是如何平衡性能與安全性。在許多情況下,C/C這樣的系統級編程語言雖然性能強大,但其內存管理的復雜性導致了各種安全漏洞。為了解決這些問題,Rust 作為一種新的系統級編程語言進入…

Leetcode::119. 楊輝三角 II

119. 楊輝三角 II 已解答 簡單 相關標簽 相關企業 給定一個非負索引 rowIndex,返回「楊輝三角」的第 rowIndex 行。 在「楊輝三角」中,每個數是它左上方和右上方的數的和。 示例 1: 輸入: rowIndex 3 輸出: [1,3,3,1]示例 2: 輸入: rowIndex 0…

讓Android adb支持互聯網調試脫離局域網

某些特殊場景下由于不方便,手機不在身邊,但需要進行adb調試。 首先可以先開啟adb的無線調試模式,我使用的是第二種方式。 在Android手機上安裝一個終端模擬器,并賦予root權限,隨后執行: setprop service.…

PHP中的獲取器和修改器:探索數據訪問的新維度

在PHP開發中,操作數據是開發人員最常見的任務之一。為了使數據的訪問和修改更加便捷和安全,PHP提供了獲取器和修改器這兩個強大的特性。本文將探索獲取器和修改器的作用和用法,并且通過具體的代碼示例來幫助讀者更好地理解和應用這兩個特性。…

Dest1ny漏洞庫:用友 U8-CRM 系統 ajaxgetborrowdata.php 存在 SQL 注入漏洞

用友U8-CRM系統ajaxgetborrowdata.php存在SQL注入漏洞,文件多個方法存在SQL注入漏洞,未經身份驗證的攻擊者通過漏洞執行任意SQL語句,調用xp_cmdshell寫入后門文件,執行任意代碼,從而獲取到服務器權限。 hunter app.n…

能說說MyBatis的工作原理嗎?

大家好,我是鋒哥。今天分享關于【Redis為什么這么快?】面試題。希望對大家有幫助; 能說說MyBatis的工作原理嗎? MyBatis 是一款流行的持久層框架,它通過簡化數據庫操作,幫助開發者更高效地與數據庫進行交互。MyBatis…

DeepSeek崛起:中國AI新星如何撼動全球資本市場格局

引言 近期,中國人工智能實驗室DeepSeek發布的兩款開源模型——DeepSeek V3和DeepSeek R1——以其優異的性能和低廉的成本迅速爆火,引發了全球資本市場的震動,尤其對美國資本市場產生了顯著影響。DeepSeek R1更是能夠在數學、代碼和推理任務上…

0.91英寸OLED顯示屏一種具有小尺寸、高分辨率、低功耗特性的顯示器件

0.91英寸OLED顯示屏是一種具有小尺寸、高分辨率、低功耗特性的顯示器件。以下是對0.91英寸OLED顯示屏的詳細介紹: 一、基本參數 尺寸:0.91英寸分辨率:通常為128x32像素,意味著顯示屏上有128列和32行的像素點,總共409…

將5分鐘安裝Thingsboard 腳本升級到 3.9

稍微花了一點時間,將5分鐘安裝Thingsboard 腳本升級到最新版本 3.9。 [rootlab5 work]# cat one-thingsboard.shell echo "test on RHEL 8.10 " source /work/java/install-java.shell source /work/thingsboard/thingsboard-rpm.shell source /work/po…