【YOLO v5 v7 v8 小目標改進】ODConv:在卷積核所有維度(數量、空間、輸入、輸出)上應用注意力機制來優化傳統動態卷積

ODConv:在卷積核所有維度(數量、空間、輸入、輸出)上應用注意力機制來優化傳統的動態卷積

    • 提出背景
      • 傳統動態卷積
      • 全維動態卷積
      • 效果
    • 小目標漲點
      • YOLO v5 魔改
      • YOLO v7 魔改
      • YOLO v8 魔改

?


論文:https://openreview.net/pdf?id=DmpCfq6Mg39

代碼:https://github.com/OSVAI/ODConv

?

提出背景

在過去的十年里,我們見證了深度卷積神經網絡(CNN)在許多計算機視覺應用中的巨大成功。

構建深度CNN的最常見方法是堆疊多個卷積層以及其他基本層,并預先定義特征連接拓撲。

通過手工工程和自動搜索對CNN架構設計的巨大進步,許多流行的分類骨架已經被提出。

最近的工作表明,將注意力機制融入卷積塊可以進一步提高現代CNN的性能。

問題1:提高CNN性能

  • 解法:引入注意力機制。
  • 之所以使用這個解法,是因為注意力機制可以加強CNN通過鼓勵有用的特征通道同時抑制不重要的特征通道,從而提高表示能力。

問題2:動態卷積的設計限制

  • 子解法1:多維度注意力機制(ODConv)
    • 之所以使用ODConv,是因為現有的動態卷積方法只關注卷積核數量的一個維度,而忽略了卷積核空間的其他三個維度(空間大小、輸入通道數和輸出通道數),限制了捕獲豐富上下文線索的能力。
  • 子解法2:減少模型大小
    • 之所以使用這個子解法,是因為傳統的動態卷積在替換常規卷積時會增加n倍的卷積參數,導致模型大小大幅增加。通過動態卷積分解方法,可以獲得更緊湊且競爭力的模型。

傳統動態卷積

在這里插入圖片描述
上圖是 DyConv(a 傳統的動態卷積)和ODConv(b 本文的全維動態卷積)的結構圖比較。

在DyConv中,使用全局平均池化(GAP)、全連接層(FC)和Sigmoid激活函數來計算單個注意力標量 α w i αw_i αwi?,這個標量用于加權卷積核 W i W_i Wi?

相比之下,ODConv采用了更復雜的多維度注意力機制來計算四種類型的注意力( α s i , α c i , α f i , 和 α w i αs_i, αc_i, αf_i, 和 αw_i αsi?,αci?,αfi?,αwi?),這些注意力分別對應于卷積核空間的不同維度。

四個不同的注意力通過四個分支生成,并通過Sigmoid或Softmax函數進行歸一化。

這些注意力分別沿著卷積核空間的空間維度、輸入通道維度、輸出通道維度和卷積核數量維度被計算出來,并且以并行的方式應用于卷積核。

?

全維動態卷積

ODConv通過在任何卷積層利用新穎的多維度注意力機制來學習卷積核空間所有四個維度上的四種注意力,這些注意力相互補充,逐步應用它們可以顯著增強CNN的基本卷積操作的特征提取能力。

讓我們以ODConv在任何卷積層利用新穎的多維度注意力機制來學習卷積核空間所有四個維度上的四種注意力為例,舉一個具體的應用場景來說明這種方法的有效性。

ODConv解法

  • 子特征1:空間尺寸注意力。ODConv學習不同空間尺寸的卷積核的重要性,從而能夠更好地捕捉圖像的局部和全局特征。之所以使用空間尺寸注意力,是因為不同大小的特征圖對于捕獲圖像中的不同尺度信息至關重要。

  • 子特征2:輸入通道注意力。通過調整對不同輸入通道的關注程度,ODConv可以更有效地整合來自不同特征通道的信息。之所以使用輸入通道注意力,是因為不同的特征通道可能包含不同的信息,對最終的識別任務有不同的貢獻。

  • 子特征3:輸出通道注意力。ODConv通過學習對輸出通道的不同關注,優化了特征的表示。之所以使用輸出通道注意力,是為了強化模型的能力,以區分和識別圖像數據集中的細粒度類別。

  • 子特征4:卷積核數量注意力。通過動態調整不同卷積核的權重,ODConv能夠根據輸入圖像的特征自適應地選擇最適合的卷積核組合。之所以使用卷積核數量注意力,是因為它允許模型根據輸入特征的復雜度動態調整其表示能力,從而在保持效率的同時提高準確性。

在這里插入圖片描述
(a) αs_i:空間維度注意力,它將不同的權重分配給卷積核的每個空間位置。

(b) αc_i:輸入通道維度注意力,它將不同的權重分配給卷積核的每個輸入通道。

? αf_i:輸出通道維度注意力,它將不同的權重分配給卷積核的每個輸出濾波器。

(d) αw_i:卷積核維度注意力,它將一個整體的權重分配給整個卷積核集合。

因此,即使是使用單個卷積核的ODConv也能與現有的具有多個卷積核的動態卷積對手競爭或勝出,大大減少了額外的參數。

ODConv可以作為一種插入式設計用于替代許多CNN架構中的常規卷積,與現有的動態卷積設計相比,它在模型準確性和效率之間取得了更好的平衡。

?

在傳統的CNN中,每個卷積層都使用固定的卷積核來處理輸入的圖像或特征圖,這意味著無論輸入數據如何,都會應用相同的卷積核。

然而,這種方法并不總是最優的,因為不同的輸入圖像可能需要不同的特征提取方式來更好地識別物體。

ODConv通過引入一種新穎的多維度注意力機制來解決這個問題。

具體來說,它在任何給定的卷積層中,不僅僅學習一個卷積核,而是學習一組卷積核,每個卷積核都針對卷積核空間的一個特定維度(如卷積核的空間尺寸、輸入通道數、輸出通道數和卷積核數量)。

然后,它使用輸入特征動態地決定這些卷積核的注意力權重,使得網絡能夠根據輸入圖像的不同特征自適應地調整其卷積操作。

例如,如果輸入圖像是一只貓,ODConv可能會賦予識別貓特征(如毛發紋理或尾巴形狀)更有用的卷積核更高的注意力權重。

相反,如果輸入圖像是一只鳥,它可能會增加那些能夠捕捉到鳥的特征(如羽毛或翅膀形狀)的卷積核的權重。

通過這種方式,ODConv能夠為每個輸入圖像動態地優化其卷積操作,從而在不同的圖像分類任務中實現更高的準確性,同時減少了需要的額外參數數量,因為它甚至可以使用單個卷積核與現有的多卷積核動態卷積方法競爭或超越它們的性能。

效果

ODConv的核心原理是引入一種全新的多維度注意力機制,這種機制不僅考慮卷積核的數量維度(如傳統的動態卷積所做的),而且還同時考慮卷積核的空間維度、輸入通道維度和輸出通道維度。

這種方法允許網絡根據輸入數據的具體特點,在多個層面上動態調整其卷積核的權重,從而提高特征提取的能力。

ODConv通過在所有卷積核維度上應用注意力機制來優化傳統的動態卷積,這樣做可以提供更精細的特征處理能力,并提高模型對輸入數據變化的適應性和敏感性。

這種細粒度的動態調整使得ODConv能夠在增加很少或沒有額外計算成本的情況下,提高模型的準確性和效率。

通過在輕量級CNN模型中應用ODConv,我們可以顯著提高模型對圖像的識別準確率,而不會帶來太多的額外計算成本。

例如,將ODConv集成到MobileNetV2中,可能會在ImageNet測試集上獲得比原始模型更高的分類準確率,同時保持模型的輕量級特性。

這種方法通過綜合考慮卷積核的所有維度上的注意力,有效地增強了特征的表達力,解決了輕量級CNN在復雜任務上性能不足的問題。

小目標漲點

更新中…

YOLO v5 魔改

YOLO v7 魔改

YOLO v8 魔改

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/713676.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/713676.shtml
英文地址,請注明出處:http://en.pswp.cn/news/713676.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

leedcode刷題--day7(字符串)

23 文章講解 力扣地址 C class Solution { public:void reverseString(vector<char>& s) {int left 0;int right s.size() - 1; // right 應該初始化為 s.size() - 1while (left < right) {swap(s[left], s[right]); // 直接交換 s[left] 和 s[right] 的值lef…

(學習日記)2024.02.29:UCOSIII第二節

寫在前面&#xff1a; 由于時間的不足與學習的碎片化&#xff0c;寫博客變得有些奢侈。 但是對于記錄學習&#xff08;忘了以后能快速復習&#xff09;的渴望一天天變得強烈。 既然如此 不如以天為單位&#xff0c;以時間為順序&#xff0c;僅僅將博客當做一個知識學習的目錄&a…

WSL2外部網絡設置

1 關閉所有WSL系統 wsl --shutdown 2 打開Hyper-V管理器 3 將“虛擬交換機管理器”-> ”WSL連接類型“設置為“外部網絡” 4 啟動WSL系統&#xff0c;手動修改WSL網絡 將WSL網絡IP修改為192.168.1.9 sudo ip addr del $(ip addr show eth0 | grep inet\b | awk {print $2} |…

FFmpeg+OpenCV開發案例匯總

桌面共享工具&#xff08;軟編版&#xff09; 桌面共享工具&#xff08;DXGI硬編版&#xff09; 智能廣告大屏&#xff08;可疊加透明廣告&#xff09; Android手機屏幕RTMP推流工具&#xff08;推麥克風版&#xff09; Android手機屏幕RTMP推流工具&#xff08;推揚聲器版…

FinalMLP:用于推薦系統的簡單但強大的雙流 MLP 模型

原文地址&#xff1a;FinalMLP: A Simple yet Powerful Two-Stream MLP Model for Recommendation Systems 了解 FinalMLP 如何轉變在線推薦&#xff1a;通過尖端 AI 研究解鎖個性化體驗 2024 年 2 月 14 日 介紹 世界正在向數字時代發展&#xff0c;在這個時代&#xff0c;…

Python并發編程:多線程-死鎖現象與遞歸鎖

一  死鎖現象 所謂死鎖&#xff1a;是指兩個或兩個以上的進程或線程在執行過程中&#xff0c;因爭奪資源而造成的一種互相等待的現象&#xff0c;若無外力作用&#xff0c;它們都將無法推進下去。此時稱系統處于死鎖狀態或系統產生了死鎖&#xff0c;這些永遠在互相等待的進程…

持安科技孫維伯:零信任在攻防演練下的最佳實踐|DISCConf 2023

近日&#xff0c;在2023數字身份安全技術大會上&#xff0c;持安科技聯合創始人孫維伯應主辦方的特別邀請&#xff0c;發表了主題為“零信任在攻防演練下的最佳實踐”的演講。 孫維伯在2023數字身份安全技術大會上發表演講 以下為本次演講實錄&#xff1a; 我是持安科技的聯合…

【c++】 STL的組件簡介與容器的使用時機

STL六大組件簡介 STL提供了六大組件&#xff0c;彼此之間可以組合套用&#xff0c;這六大組件分別是:容器、算法、迭代器、仿函數、適配器&#xff08;配接器&#xff09;、空間配置器。 容器&#xff1a;各種數據結構&#xff0c;如vector、list、deque、set、map等,用來存放…

微信云開發-- Mac安裝 wx-server-sdk依賴

第一次上傳部署云函數時&#xff0c;會提示安裝依賴wx-server-sdk 一. 判斷是否安裝wx-server-sdk依賴 先創建一個云函數&#xff0c;然后檢查云函數目錄。 如果云函數目錄下只顯示如下圖所示三個文件&#xff0c;說明未安裝依賴。 如果云函數目錄下顯示如下圖所示四個文件&a…

EdgeX Foundry 邊緣物聯網中間件平臺

文章目錄 1.EdgeX Foundry2.平臺架構3.平臺服務3.1.設備服務3.2.核心服務3.3.支持服務3.4.應用服務3.5.安全服務3.6.管理服務 EdgeX Foundry # EdgeX Foundryhttps://iothub.org.cn/docs/edgex/ https://iothub.org.cn/docs/edgex/edgex-foundry/1.EdgeX Foundry EdgeX Found…

Linux下設置網關以及網絡相關命令

在Linux下設置網關以及進行網絡相關的操作&#xff0c;通常需要使用一系列的命令。以下是一些常用的命令和步驟&#xff1a; 查看網絡接口信息 ifconfig&#xff1a;用于查看網絡接口的狀態和配置信息&#xff08;已淘汰&#xff09;。ip link&#xff1a;顯示本地的鏈路層設…

嵌入式 Linux 下的 LVGL 移植

目錄 準備創建工程修改配置修改 lv_drv_conf.h修改 lv_conf.h修改 main.c修改 Makefile 編譯運行更多內容 LVGL&#xff08;Light and Versatile Graphics Library&#xff09;是一個輕量化的、開源的、在嵌入式系統中廣泛使用的圖形庫&#xff0c;它提供了一套豐富的控件和組件…

ConfigurableBeanFactory學習

簡介 ConfigurableBeanFactory定義BeanFactory的配置。ConfigurableBeanFactory中定義了太多太多的api,比如類加載器,類型轉化,屬性編輯器,BeanPostProcessor,作用域,bean定義,處理bean依賴關系,合并其他ConfigurableBeanFactory,bean如何銷毀。ConfigurableBeanFactory同時繼…

微軟為金融界帶來革命性突破——推出Microsoft 365中的下一代AI助手:Microsoft Copilot for Finance

每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎&#xff1f;訂閱我們的簡報&#xff0c;深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同&#xff0c;從行業內部的深度分析和實用指南中受益。不要錯過這個機會&#xff0c;成為AI領…

雷龍CS SD NAND(貼片式TF卡)測評體驗

前段時間有幸免費得到了雷龍出品的貼片式的TF卡的芯片及轉接板&#xff0c;兩片貼片式nand芯片&#xff0b;一個轉接板&#xff0c;一種一個已讓官方焊接完好&#xff1b;如下圖所示&#xff1a; 正面&#xff1a; 背面&#xff1a; 通過轉接板&#xff0c;可以將CS SD NAND(貼…

數電實驗之流水燈、序列發生器

最近又用到了數電實驗設計的一些操作和設計思想&#xff0c;遂整理之。 廣告流水燈 實驗內容 用觸發器、組合函數器件和門電路設計一個廣告流水燈&#xff0c;該流水燈由 8 個 LED 組成&#xff0c;工作時始終為 1 暗 7 亮&#xff0c;且這一個暗燈循環右移。 1) 寫出設計過…

關于DisableIEToEdge插件閃退問題的解決方案

關于DisableIEToEdge插件閃退問題.今天終于測試找到最佳解決方案了&#xff01; 1.管理員權限運行Windows powershell. 2.執行一下兩條命令修復系統環境 DISM.exe /Online /Cleanup-image /Restorehealth sfc /scannow 3.關閉Windows安全中心的所有安全選項。 4.管理員權限運行…

【計算機考研擇校】四川大學vs電子科技大學哪個難度更大?

川大在文科&#xff0c;經管方面比科大強&#xff0c;醫學在國內都很強。但工科方面特別是電子信息領域明顯是科大強于川大。畢竟一個是綜合大學&#xff0c;一個是工科大學不可同日而語。 就業上&#xff0c;電子科大在IT領域的社會聲譽口碑不錯。就業一向都很好。這個多問問…

.datastore@cyberfear.com.mkp勒索病毒的最新威脅:如何恢復您的數據?

導言&#xff1a; 我們享受著數字化帶來的便利&#xff0c;但同時也要面對不斷演進的網絡威脅。最近出現的 .datastorecyberfear.com.mkp、[hendersoncock.li].mkp [hudsonLcock.li]、.mkp [myersairmail.cc].mkp 勒索病毒就是其中之一&#xff0c;它對我們的數據安全構成了…

張俊將出席用磁懸浮技術改變生活演講

演講嘉賓&#xff1a;張俊 空壓機銷售總監 億昇(天津)科技有限公司 演講題目&#xff1a;用磁懸浮技術改變生活 會議簡介 “十四五”規劃中提出&#xff0c;提高工業、能源領城智能化與信息化融合&#xff0c;明確“低碳經濟”新的戰略目標&#xff0c;熱能產業是能源產業和…