YOLOv13：最新的YOLO目標檢測算法

[2506.17733] YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

Github: https://github.com/iMoonLab/yolov13

YOLOv13：利用超圖增強型自適應視覺感知進行實時物體檢測

主要的創新點提出了HyperACE機制、FullPAD范式、輕量化模塊設計

📌文章針對目前存在的問題：??

包括YOLOv11及早期的基于卷積架構的版本和基于區域自注意力機制的YOLOv12在局部信息聚合和兩兩相關的建模方面存儲局限，缺乏捕獲全局多對多高階相關性的能力，這限制了復雜場景下的檢測性能。個人理解是想讓它和Transformer、Mamba一樣，都能具備良好的全局建模能力。
在卷積網絡里面建模能力主要受限于kernel大小，出現了深度可分離卷積、膨脹卷積和蛇形卷積等，也受限于網絡深度。

目前有一些研究證明了超圖（Hypergraph）來建模視覺任務的多像素高階相關性的必要性和有效性。但是這些方法簡單地使用手動設置的閾值參數值來確定像素是否基于像素特征距離相關，即特征距離低于特定閾值的像素被認為是相關的。這種手動建模范式使得處理復雜場景變得困難，并導致額外的冗余建模，導致檢測精度和魯棒性有限。

🏆方法：??

💰YOLOv13整體架構

YOLOv13 仍沿用 YOLO 系列經典的?Backbone → Neck → Head?架構，引入了HyperACE和FullPAD模塊分別增強特征和網絡的全局建模能力，使整個網絡具備了更強的特征表達和信息流動能力。

Backbone使用了普通卷積、A2C2f、DSConv和DS-C3k2（輕量級的深度可分離卷積模塊）提取了多尺度特征圖B1、B2、B3、B4和B5。

HyperACE增強這三個尺度的特征，將B3和B5的大小調整為與B4相同的空間大小，并通過1×1的卷積層進行聚合，得到融合特征。這個融合特征會被切割為三個部分，分別用于全局高階相關建模、局部低階相關建模和Shortcut 連接，前兩個都是并行進行的。最后，將這三個分支的輸出沿著通道維度進行連接，并通過1×1卷積層進行融合，得到HyperACE的最終輸出。

FullPAD利用三個獨立的Tunnels將增強后的特征分發到網絡各層，貫通整個流程，形成細粒度的信息交互。最后，將頸部的輸出特征映射轉發到檢測頭中，實現多尺度目標檢測。

🏓HyperACE?

Hypergraph-Based Adaptive Correlation Enhancement（HperACE）包含兩個核心組件，即基于C3AH模塊的全局高階感知分支和基于DS-C3k塊的局部低階感知分支。C3AH模塊通過自適應超圖計算對高階視覺關聯進行線性復雜度建模，保留了CSP bottleneck分支分裂機制，同時集成了自適應超圖計算模塊，實現了跨空間位置的全局高階語義聚合。解決了之前的模型只能建模局部兩元關系的問題，這是本文的核心創新之一。

為了有效地對視覺特征中的高階相關性進行建模，實現關聯引導下的特征聚合和增強，提出了一種新的自適應超圖計算范式（C3AH），能夠自適應學習每個超邊緣的每個頂點的參與度。C3AH里面包括Adaptive Hyperedge Generation和Hypergraph Convolution。

Adaptive Hyperedge Generation階段側重于對輸入視覺特征的相關性進行動態建模以生成超邊，并估計每個頂點對每個超邊的參與程度。令 $X=\left \{ x_{i}\in \mathbb{R}^C | i = 1,..., N \right \}$ 表示頂點的特征，C是特征通道的數量。Adaptive Hyperedge Generation會首先使用全局平均池化和最大池化分別生成上下文向量，將這些向量連接起來，得到全局頂點上下文的矩陣。從頂點上下文中生成全局偏置 $\Delta P$ ，將這些偏置與一個可學習的全局Proto.即 $P_{0}$ 相加，得到M個動態超邊原型 $P=P_{0} + \Delta P$ 。這些原型代表了場景中潛在的視覺相關性。為了計算每個頂點的參與度，利用另一個投影層從頂點特征 $x_{i}$ 生成頂點查詢向量 $z_{i}$ ，即： $z_{i} = W_{pre}x_{i}\in \mathbb{R}^C$ ， $W_{pre}$ 是權重矩陣。

文章引入多頭機制來增加特征多樣性，具體做法是將 $z_{i}$ 沿著特征維度劃分為 $h$ 個子空間 $\left \{ \hat{z} _{i}^{T}\in \mathbb{R}^{d_{h}}\right \}_{\tau =1}^{h}$ ，其中 $d_{h}=C/h$ 。同樣將每個超邊原型劃分為h個子空間 $\left \{ \hat{p} _{m}^{T}\in \mathbb{R}^{d_{h}}\right \}_{\tau =1}^{h}$ ，這樣就可以在所有的子空間中計算第 $i$ 個頂點查詢向量與第 $m$ 個原型的相似度： $s_{i,m}^{\tau }=\frac{\left \langle \hat{z}_{i}^{\tau}, \hat{p}_{i}^{\tau}\right \rangle}{\sqrt{d_{h}}}$ 。那么總體相似度就可以定義為所有子空間相似度的平均值。

生成自適應超邊后，進行Hypergraph Convolution，實現特征聚合和增強。具體來說，在超圖卷積中，每個超邊緣首先收集所有頂點的特征，并應用線性投影形成超邊緣特征。然后，將超邊緣特征傳播回頂點以更新其表示。

使用輕量化模塊DS-C3k提取精細的局部模式，比如紋理、邊緣等。與高階全局信息形成互補，這就是低階局部增強分支所做的事情。

Shortcut是直通分支，保留了原始輸入特征。

N表示的是頂點的數量，M表示的是超邊的數量， $\mathcal{V}$ 是頂點集合， $\mathcal{A}$ 是自適應超邊集合。

?FullPAD

為了充分利用從HperACE獲得的相關特征增強特性，YOLOv13 進一步設計了?（Full-Pipeline Aggregation-and-Distribution Paradigm）FullPAD范式，將增強后的特征流向網絡的各個關鍵節點。具體而言就是FullPAD 從主干中收集多尺度特征圖并將它們轉發到 HyperACE，然后通過不同的 FullPAD tunnels將增強的特征重新分配到整個管道中的不同位置。

這樣就會使得特征在整個網絡（Backbone、Neck、Head）中“流動起來”，提高了梯度傳播效率和特征協同能力，提升小目標檢測、遮擋目標識別等復雜場景下的表現。

🔌DS系列輕量化模塊

YOLOv13使用大核深度可分離卷積（depthwise-separable convolution, DSConv）作為基本單元來設計了一系列輕量級特征提取塊。在不影響模型性能的情況下顯著減少了參數數量和計算復雜度。從下圖中能直觀看到DSConv使用的是標準深度可分離卷積層，減少參數量和計算量。在DS-Bottleneck中如果輸入和輸出的通道數相同，則會增加一個剩余的跳過連接，以保留低頻信息。

DS-C3k塊繼承自標準的YOLOv5提出的CSP-C3結構。具體來說，首先將輸入特征轉發到1 × 1卷積層以減少特征通道，然后由 n 個級聯 DS-Bottleneck 塊處理。同時，對輸入特征應用橫向1 × 1卷積分支。最后，沿著通道維度連接兩個分支的特征，并利用1 × 1卷積層來恢復特征通道。該設計保留了CSP結構的跨通道分支，同時集成了深度可分離的輕量級bottlenecks。

DS-C3k2塊來源于YOLOv11的C3k2結構。具體來說，首先應用 1 × 1 卷積層來統一通道。然后，特征分為兩部分，一部分輸入多個 DS-C3k 模塊，另一部分通過快捷連接。最后，輸出與 1×1 卷積層連接和融合。

🧪實驗?

?📊Dataset

使用了MS COCO數據集，所有方法都在Train2017子集上進行訓練，并在Val2017子集上進行測試。為了評估跨域泛化能力，所有方法都使用在 MS COCO 數據集上訓練的模型直接在 Pascal VOC 2007 測試集上進行評估。

🎨訓練設定

600個epochs，batch size是256，初始學習率是0.01，優化器采用的是SGD，線性衰減是adopted，一個線性的warm-up應用在前三個epochs中。input的圖像大小會resize成640×640。數據增強采用的是和YOLO系列一樣的技術，分別使用4個和8個RTX 4090 gpu來訓練YOLOv13-N和YOLOv13-S，使用4個和8個A800 gpu來訓練YOLOv13-L和YOLOv13-X。