YOLOv13:最新的YOLO目標檢測算法

[2506.17733] YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

Github: https://github.com/iMoonLab/yolov13

YOLOv13:利用超圖增強型自適應視覺感知進行實時物體檢測

主要的創新點提出了HyperACE機制、FullPAD范式、輕量化模塊設計

📌文章針對目前存在的問題:??

  • 包括YOLOv11及早期的基于卷積架構的版本和基于區域自注意力機制的YOLOv12在局部信息聚合和兩兩相關的建模方面存儲局限,缺乏捕獲全局多對多高階相關性的能力,這限制了復雜場景下的檢測性能。個人理解是想讓它和Transformer、Mamba一樣,都能具備良好的全局建模能力。
  • 在卷積網絡里面建模能力主要受限于kernel大小,出現了深度可分離卷積、膨脹卷積和蛇形卷積等,也受限于網絡深度。

  • 目前有一些研究證明了超圖(Hypergraph)來建模視覺任務的多像素高階相關性的必要性和有效性。但是這些方法簡單地使用手動設置的閾值參數值來確定像素是否基于像素特征距離相關,即特征距離低于特定閾值的像素被認為是相關的。這種手動建模范式使得處理復雜場景變得困難,并導致額外的冗余建模,導致檢測精度和魯棒性有限。

🏆方法:??

💰YOLOv13整體架構

YOLOv13 仍沿用 YOLO 系列經典的?Backbone → Neck → Head?架構,引入了HyperACE和FullPAD模塊分別增強特征和網絡的全局建模能力,使整個網絡具備了更強的特征表達和信息流動能力。

Backbone使用了普通卷積、A2C2f、DSConv和DS-C3k2(輕量級的深度可分離卷積模塊)提取了多尺度特征圖B1、B2、B3、B4和B5。

HyperACE增強這三個尺度的特征,將B3和B5的大小調整為與B4相同的空間大小,并通過1×1的卷積層進行聚合,得到融合特征。這個融合特征會被切割為三個部分,分別用于全局高階相關建模、局部低階相關建模和Shortcut 連接,前兩個都是并行進行的。最后,將這三個分支的輸出沿著通道維度進行連接,并通過1×1卷積層進行融合,得到HyperACE的最終輸出。

FullPAD利用三個獨立的Tunnels將增強后的特征分發到網絡各層,貫通整個流程,形成細粒度的信息交互。最后,將頸部的輸出特征映射轉發到檢測頭中,實現多尺度目標檢測。

🏓HyperACE?

Hypergraph-Based Adaptive Correlation Enhancement(HperACE)包含兩個核心組件,即基于C3AH模塊的全局高階感知分支和基于DS-C3k塊的局部低階感知分支。C3AH模塊通過自適應超圖計算對高階視覺關聯進行線性復雜度建模,保留了CSP bottleneck分支分裂機制,同時集成了自適應超圖計算模塊,實現了跨空間位置的全局高階語義聚合。解決了之前的模型只能建模局部兩元關系的問題,這是本文的核心創新之一。

為了有效地對視覺特征中的高階相關性進行建模,實現關聯引導下的特征聚合和增強,提出了一種新的自適應超圖計算范式(C3AH),能夠自適應學習每個超邊緣的每個頂點的參與度。C3AH里面包括Adaptive Hyperedge Generation和Hypergraph Convolution。

Adaptive Hyperedge Generation階段側重于對輸入視覺特征的相關性進行動態建模以生成超邊,并估計每個頂點對每個超邊的參與程度。X=\left \{ x_{i}\in \mathbb{R}^C | i = 1,..., N \right \}表示頂點的特征,C是特征通道的數量。Adaptive Hyperedge Generation會首先使用全局平均池化和最大池化分別生成上下文向量,將這些向量連接起來,得到全局頂點上下文的矩陣。從頂點上下文中生成全局偏置\Delta P,將這些偏置與一個可學習的全局Proto.即P_{0}相加,得到M個動態超邊原型P=P_{0} + \Delta P。這些原型代表了場景中潛在的視覺相關性。為了計算每個頂點的參與度,利用另一個投影層從頂點特征x_{i}生成頂點查詢向量z_{i},即:z_{i} = W_{pre}x_{i}\in \mathbb{R}^CW_{pre}是權重矩陣。

文章引入多頭機制來增加特征多樣性,具體做法是將z_{i}沿著特征維度劃分為h個子空間\left \{ \hat{z} _{i}^{T}\in \mathbb{R}^{d_{h}}\right \}_{\tau =1}^{h},其中d_{h}=C/h。同樣將每個超邊原型劃分為h個子空間\left \{ \hat{p} _{m}^{T}\in \mathbb{R}^{d_{h}}\right \}_{\tau =1}^{h},這樣就可以在所有的子空間中計算第i個頂點查詢向量與第m個原型的相似度:s_{i,m}^{\tau }=\frac{\left \langle \hat{z}_{i}^{\tau}, \hat{p}_{i}^{\tau}\right \rangle}{\sqrt{d_{h}}}。那么總體相似度就可以定義為所有子空間相似度的平均值。

生成自適應超邊后,進行Hypergraph Convolution,實現特征聚合和增強。具體來說,在超圖卷積中,每個超邊緣首先收集所有頂點的特征,并應用線性投影形成超邊緣特征。然后,將超邊緣特征傳播回頂點以更新其表示。

使用輕量化模塊DS-C3k提取精細的局部模式,比如紋理、邊緣等。與高階全局信息形成互補,這就是低階局部增強分支所做的事情。

Shortcut是直通分支,保留了原始輸入特征。

N表示的是頂點的數量,M表示的是超邊的數量,\mathcal{V}是頂點集合,\mathcal{A}是自適應超邊集合。

?FullPAD

為了充分利用從HperACE獲得的相關特征增強特性,YOLOv13 進一步設計了?(Full-Pipeline Aggregation-and-Distribution Paradigm)FullPAD范式,將增強后的特征流向網絡的各個關鍵節點。具體而言就是FullPAD 從主干中收集多尺度特征圖并將它們轉發到 HyperACE,然后通過不同的 FullPAD tunnels將增強的特征重新分配到整個管道中的不同位置。

這樣就會使得特征在整個網絡(Backbone、Neck、Head)中“流動起來”,提高了梯度傳播效率和特征協同能力,提升小目標檢測、遮擋目標識別等復雜場景下的表現。

🔌DS系列輕量化模塊

YOLOv13使用大核深度可分離卷積(depthwise-separable convolution, DSConv)作為基本單元來設計了一系列輕量級特征提取塊。在不影響模型性能的情況下顯著減少了參數數量和計算復雜度。從下圖中能直觀看到DSConv使用的是標準深度可分離卷積層,減少參數量和計算量。在DS-Bottleneck中如果輸入和輸出的通道數相同,則會增加一個剩余的跳過連接,以保留低頻信息。

DS-C3k塊繼承自標準的YOLOv5提出的CSP-C3結構。具體來說,首先將輸入特征轉發到1 × 1卷積層以減少特征通道,然后由 n 個級聯 DS-Bottleneck 塊處理。同時,對輸入特征應用橫向1 × 1卷積分支。最后,沿著通道維度連接兩個分支的特征,并利用1 × 1卷積層來恢復特征通道。該設計保留了CSP結構的跨通道分支,同時集成了深度可分離的輕量級bottlenecks。

DS-C3k2塊來源于YOLOv11的C3k2結構。具體來說,首先應用 1 × 1 卷積層來統一通道。然后,特征分為兩部分,一部分輸入多個 DS-C3k 模塊,另一部分通過快捷連接。最后,輸出與 1×1 卷積層連接和融合。

🧪實驗?

?📊Dataset

使用了MS COCO數據集,所有方法都在Train2017子集上進行訓練,并在Val2017子集上進行測試。為了評估跨域泛化能力,所有方法都使用在 MS COCO 數據集上訓練的模型直接在 Pascal VOC 2007 測試集上進行評估。

🎨訓練設定

600個epochs,batch size是256,初始學習率是0.01,優化器采用的是SGD,線性衰減是adopted,一個線性的warm-up應用在前三個epochs中。input的圖像大小會resize成640×640。數據增強采用的是和YOLO系列一樣的技術,分別使用4個和8個RTX 4090 gpu來訓練YOLOv13-N和YOLOv13-S,使用4個和8個A800 gpu來訓練YOLOv13-L和YOLOv13-X。

📡定量和定性結果

YOLOv13模型和最新的YOLO11和YOLOv12模型在相同的gpu上進行訓練,而現有的方法使用其官方代碼和訓練參數進行訓練。

為了驗證YOLOv13的泛化能力,在 MS COCO 數據集上訓練了YOLOv13 模型和以前的 YOLO 模型,并在 Pascal VOC 2007 數據集上測試所有方法。定量結果如下所示。

?🎑消融實驗

論文在消融實驗中評估了所提出的YOLOv13-Small模型在FullPAD將特征分布到不同位置時的性能。具體來說,當FullPAD不分發任何特性時,相當于刪除了HyperACE。

?在HyperACE模塊中自適應超圖構建生成的代表性超邊的可視化,可以觀察HyperACE的聚焦點。

為了驗證超邊數M對模型性能的影響,論文設置了不同數量的超邊,并測試了YOLOv13-S模型的性能。更少的超邊導致更少的模型參數和更少的計算工作量,但也會導致性能下降。這是由于場景的相關建模不足。文章將N、S、L和X模型的超邊數量分別設置為4、8、8和12,以平衡性能和計算復雜性。

?驗證DS系列模塊在計算復雜度和參數量的優勢。

剩下的就是epochs數和YOLOv13在不同的顯卡上的推理速度。

比較好奇的是,在實驗這一塊,為什么沒有對比一下D-FINE呢?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/89391.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/89391.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/89391.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【深入淺出:計算流體力學(CFD)基礎與核心原理--從NS方程到工業仿真實踐】

關鍵詞:#CFD、#Navier-Stokes方程、#有限體積法、#湍流模型、#網格收斂性、#工業仿真驗證 一、CFD是什么?為何重要? 計算流體力學(Computational Fluid Dynamics, CFD) 是通過數值方法求解流體流動控制方程&#xff0…

qt常用控件--04

文章目錄 qt常用控件labelLCD NumberProgressBar結語 很高興和大家見面,給生活加點impetus!!開啟今天的編程之路!! 今天我們進一步c11中常見的新增表達 作者:?( ‘ω’ )?260 我的專欄:qt&am…

Redmine:一款基于Web的開源項目管理軟件

Redmine 是一款基于 Ruby on Rails 框架開發的開源、跨平臺、基于 Web 的項目管理、問題跟蹤和文檔協作軟件。 Redmine 官方網站自身就是基于它構建的一個 Web 應用。 功能特性 Redmine 的主要特點和功能包括: 多項目管理: Redmine 可以同時管理多個項…

FPGA FMC 接口

1 FMC 介紹 FMC 接口即 FPGA Mezzanine Card 接口,中文名為 FPGA 中間層板卡接口。以下是對它的詳細介紹: 標準起源:2008 年 7 月,美國國家標準協會(ANSI)批準和發布了 VITA 57 FMC 標準。該標準由從 FPGA 供應商到最終用戶的公司聯盟開發,旨在為位于基板(載卡)上的 …

C++中std::atomic_bool詳解和實戰示例

std::atomic_bool 是 C 標準庫中提供的一種 原子類型,用于在多線程環境下對布爾值進行 線程安全的讀寫操作,避免使用 std::mutex 帶來的性能開銷。 1. 基本作用 在多線程環境中,多個線程同時訪問一個 bool 類型變量可能會出現 競態條件&…

深度學習之分類手寫數字的網絡

面臨的問題 定義神經?絡后,我們回到?寫識別上來。我們可以把識別?寫數字問題分成兩個?問題: 把包含許多數字的圖像分成?系列單獨的圖像,每個包含單個數字; 也就是把圖像 ,分成6個單獨的圖像 分類單獨的數字 我們將…

nginx基本使用 linux(mac下的)

目錄結構 編譯后會有:conf html logs sbin 四個文件 (其他兩個是之前下載的安裝包) conf:配置文件html:頁面資源logs:日志sbin:啟動文件,nginx主程序 運行后多了文件:&l…

基于大眾點評的重慶火鍋在線評論數據挖掘分析(情感分析、主題分析、EDA探索性數據分析)

文章目錄 有需要本項目的代碼或文檔以及全部資源,或者部署調試可以私信博主項目介紹數據采集數據預處理EDA探索性數據分析關鍵詞提取算法情感分析LDA主題分析總結每文一語 有需要本項目的代碼或文檔以及全部資源,或者部署調試可以私信博主 項目介紹 本…

鴻蒙系統(HarmonyOS)應用開發之經典藍色風格登錄頁布局、圖文驗證碼

一、項目概述 本項目是一款基于鴻蒙 ArkTS(ETS)開發的用戶登錄頁面,集成了圖文驗證碼功能,旨在為應用提供安全、便捷的用戶身份驗證入口。項目采用現代化 UI 設計,兼顧用戶體驗與安全性,適用于多種需要用戶…

0.96寸OLED顯示屏 江協科技學習筆記(36個知識點)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 32 33 34 35 36

Flutter SnackBar 控件詳細介紹

文章目錄 Flutter SnackBar 控件詳細介紹基本特性基本用法1. 顯示簡單 SnackBar2. 自定義持續時間 主要屬性高級用法1. 帶操作的 SnackBar2. 自定義樣式3. 浮動式 SnackBar SnackBarAction 屬性實際應用場景注意事項完整示例建議 Flutter SnackBar 控件詳細介紹 SnackBar 是 F…

【C++】頭文件的能力與禁忌

在C中,?頭文件(.h/.hpp)?? 的主要作用是聲明接口和共享代碼,但如果不規范使用,會導致編譯或鏈接錯誤。以下是詳細總結: 一、頭文件中可以做的事情 1.1 聲明 函數聲明(無需inline&#xff…

騰訊 iOA 零信任產品:安全遠程訪問的革新者

在當今數字化時代,企業面臨著前所未有的挑戰與機遇。隨著遠程辦公、多分支運營以及云計算的廣泛應用,傳統的網絡安全架構逐漸暴露出諸多不足。騰訊 iOA 零信任產品憑借其創新的安全理念和強大的功能特性,為企業提供了一種全新的解決方案&…

IP5219全集成Type-C移動電源SOC!2.1A快充+2.4A放電,極簡BOM方案

產品概述: IP5219是一款集成升壓轉換器、鋰電池充電管 理、電池電量指示和TYPE_C協議的多功能電源管 理SOC,為移動電源提供完整的電源解決方案。 IP5219的高集成度與豐富功能,使其在應用時 僅需極少的外圍器件,并有效減小整體方案…

報道稱CoreWeave洽談收購Core Scientific,后者漲超30%

CoreWeave與數字基礎設施公司Core Scientific的收購事宜可能在未來幾周內敲定交易,前提是雙方不出現重大分歧。消息傳出后,Core Scientific股價一度暫停交易,隨后恢復交易最終收漲逾32%。 AI云服務巨頭CoreWeave正與數字基礎設施公司Core Sc…

Qt5.15.2實現WebAssembly:2、設置emsdk目錄

步驟1 打開QT,編輯,Preference(首選項): 設備,WebAssembly,游覽。 找到安裝好的emscripten目錄,選擇。 稍等一會,QT會解析出相應的信息,再點確定。 圖中…

SpringMVC--使用RESTFul實現用戶管理系統

一、靜態頁面準備 1. user.css .header {background-color: #f2f2f2;padding: 20px;text-align: center; }ul {list-style-type: none;margin: 0;padding: 0;overflow: hidden;background-color: #333; }li {float: left; }li a {display: block;color: white;text-align: ce…

hello算法_C++_ 最差、最佳、平均時間復雜度

算法的時間效率往往不是固定的,而是與輸入數據的分布有關。假設輸入一個長度為 的數組 nums ,其中 nums 由從 1 至 n 的數字組成,每個數字只出現一次;但元素順序是隨機打亂的,任務目標是返回元素 的索引。我們可以…

2024考研數一真題及答案

歷年數一真題及答案下載直通車 已知函數 f ( x ) ∫ 0 x e cos ? t d t f(x) \int_0^x e^{\cos t} dt f(x)∫0x?ecostdt, g ( x ) ∫ 0 sin ? x e t 2 d t g(x) \int_0^{\sin x} e^{t^2} dt g(x)∫0sinx?et2dt,則( )。 A…

MIT 6.824學習心得(2) 淺談多線程和RPC

上篇文章中我們簡單介紹了分布式系統的設計思想以及簡單性質,之后用一定篇幅簡要介紹了MapReduce這個經典的分布式計算框架的大致工作原理,相信朋友們已經對此有了最基本的理解。在現實場景中,分布式系統的設計初衷是為了解決并發問題&#x…