DEYOLO 全面復現，將雙增強跨模態目標檢測網絡 DEYOLO 融合到 YOLOFuse 框架

模型架構	模態	精度 P	召回率 R	mAP50	mAP50-95	模型大小(MB)	計算量(GFLOPs)
yolov8n (baseline)	RGB	0.888	0.829	0.891	0.500	6.2	8.1
yolo-fuse-中期特征融合	RGB+IR	0.951	0.881	0.947	0.601	2.61	3.2
yolo-fuse-早期特征融合	RGB+IR	0.950	0.896	0.955	0.623	5.2	6.7
yolo-fuse-決策級融合	RGB+IR	0.956	0.905	0.955	0.612	8.8	10.7
yolo-fuse-極簡融合	RGB+IR	0.899	0.865	0.939	0.62	7.83	8.5
DEYOLO	RGB+IR	0.943	0.895	0.952	0.615	11.85	16.6

在這里插入圖片描述

論文地址：https://arxiv.org/abs/2412.04931
DEYOLO代碼地址: https://github.com/chips96/DEYOLO
YOLOFuse項目地址：https://github.com/WangQvQ/YOLOFuse

引言

在弱光、霧霾等復雜環境下，單純依靠可見光圖像進行目標檢測往往效果不佳；而紅外圖像能提供清晰的輪廓信息，卻缺乏紋理細節。將兩者融合，能夠互補優勢，但如何在 檢測任務 導向下有效融合、并減少模態間的相互干擾，是目前的挑戰。針對這一問題，本文提出了一種基于 YOLOv8 的 雙增強跨模態目標檢測網絡 DEYOLO，通過 雙語義增強通道權重分配（DECA）、雙空間增強像素權重分配（DEPA） 與 雙向解耦 Focus 模塊，在特征層面實現“檢測驅動”的跨模態信息互補與干擾抑制，并在 M3FD、LLVIP 等數據集上取得了明顯優于 SOTA 的性能提升。

背景與動機

單模態檢測局限
- 傳統可見光目標檢測（如 YOLO、DETR、Swin Transformer）在紋理細節豐富時表現優秀，但對弱光或遮擋場景不魯棒。
- 紅外小目標檢測網絡（如 ALCNet、ISTDU-Net、IRSTD-GAN）雖能在低光條件下檢測，但單獨紅外缺乏色彩和細節信息，難以支持復雜場景的檢測需求。
現有跨模態融合不足
- 常見方法要么將 RGB-IR 拼四通道輸入，要么在特征下游簡單拼接，兩者缺乏深度交互。
- “融合-檢測”策略通常先做圖像融合再檢測，既不以檢測為中心，也沒有解決融合過程中模態間的互相干擾問題。

正是在這樣的背景下，DEYOLO 從特征層面入手，設計“檢測導向”的雙增強機制，以期在保持兩種模態各自優勢的同時，最大化互補效果并抑制相互干擾。

DEYOLO 方法概覽

在這里插入圖片描述

DEYOLO 在 YOLOv8 的骨干與檢測頭之間，引入了兩大跨模態增強模塊（DECA、DEPA），并在骨干前期插入 雙向解耦 Focus，如圖所示：

1. 雙語義增強通道權重分配模塊（DECA）

在這里插入圖片描述

目標：在通道維度上，利用單模態與跨模態融合信息，分別 增強融合特征 與 反向提升單模態特征 的語義表達能力。
流程：
1. 跨模態融合提取：將來自骨干的 RGB/IR 特征拼接后通過卷積得到混合特征 $F_{Mix}^0$ 。
2. 通道權重編碼：對 $F_{Mix}^0$ 進行跨模態權重抽取（CMWE），得權重 $W\_{Mix}^0$ ；同時分別對 RGB、IR 特征通過 SE 結構提取單模態通道權重 $W_V^0, W_{IR}^0$ 。
3. 雙重增強：
  - 第一增強：
    
    $W^{en}_V = W^0_V \otimes \mathrm{softmax}(W^0_{Mix}),\quad W^{en}_{IR} = W^0_{IR} \otimes \mathrm{softmax}(W^0_{Mix})$
  - 第二增強：
    
    $F^1_{IR} = F^0_{IR} \odot W^{en}_V,\quad F^1_V = F^0_V \odot W^{en}_{IR}$

通過上述步驟，DECA 能在通道層面 重分配注意力，兼顧單模態與融合特征的語義重要性。

2. 雙空間增強像素權重分配模塊（DEPA）

目標：在空間（像素）維度上，模擬 DECA 的雙增強機制，用于 位置敏感 的特征融合。
流程：
1. 對 DECA 輸出的 $F^1_V,F^1_{IR}$ 分別進行不同尺度的卷積提取臨時權重，再形變后相乘得到跨模態空間權重 $W^1_{Mix}$ 。
2. 分別使用 3×3 和 5×5 卷積獲得兩種尺度下的單模態像素權重 $W^1_V,W^1_{IR}$ ，再通過軟最大化與 $W^1_{Mix}$ 結合。
3. 雙重增強：
  
  $F_{IR} = F^1_{IR}\odot W^{en}_V,\quad F_V = F^1_V\odot W^{en}_{IR}$
4. 最終將二者相加，送入檢測頭。

DEPA 強調了空間位置上的互補信息，進一步豐富了跨模態特征的結構表達。

3. 雙向解耦 Focus

在這里插入圖片描述

靈感：YOLOv5 的 Focus 模塊可無損下采樣；DEYOLO 通過水平/垂直兩種解耦采樣方式，增強骨干對不同方向上下文的感受野。
結構：將淺層特征按像素間隔分組，在橫向與縱向分別采樣，再進行深度可分離卷積，最后與原特征拼接，擴大感受野且保留細節。

實驗與結果

數據集與評價指標

數據集：M3FD（4,200 對 RGB-IR）、LLVIP（16,836 對）、KAIST（清洗后 7,601/2,252）。
指標：mAP@0.5、mAP@0.5:0.95（mAP50?95）、Log Average Miss Rate (LAMR)。

消融實驗

在這里插入圖片描述

模塊貢獻（Table 1）：
- 單獨 DECA 或 DEPA，在 M3FD 上分別提升 mAP50 +4.2%/+3.6%，mAP50?95 +4.4%/+3.5%。
- DECA+DEPA 聯合 +4.4%/+4.6%，三者（含 Focus）則達 +5.8%/+5.3% 。
核大小與層數：
- DEPA 在 3×3 卷積核時效果最佳（Table 2）。
- DECA 使用 3 層深度可分離卷積效果優于普通卷積（Table 3）。

與 SOTA 比較

單模態 vs DEYOLO：
- 可見光單模態最高 mAP50≈88.3%，紅外≈78.3%；DEYOLO-n 達 86.6%、DEYOLO-l 達 91.2%（M3FD），均超越多種 ViT/RCNN、YOLOv7/8 等。
融合-檢測方法：
- 與 IRFS、U2Fusion、SeAFusion 等融合算法比較，DEYOLO-n 在 M3FD 上至少領先 5.4% mAP50，DEYOLO-l 領先超過 10% 。
泛化能力：在 KAIST 數據集上，雖然未奪魁，但仍優于多數 RGB-T 檢測方法，說明跨光譜特征增強具有廣泛適用性。

討論與展望

優勢：
1. 檢測導向：直接在特征層面交互融合，以檢測性能為優化目標；
2. 雙增強機制：通道與空間維度的互補增強，有效抑制模態間噪聲干擾；
3. 輕量可插拔：DECA/DEPA 與雙向 Focus 可插入其它骨干網絡。
局限與未來：
- 對齊要求較高的數據對；
- 如何在更大尺度、更多模態（如深度/SAR）中擴展？
- 實時性與資源消耗的權衡值得深入探索。

結語

DEYOLO 通過 雙語義 與 雙空間 的“檢測驅動”跨模態特征增強，結合 雙向解耦 Focus，在弱光與復雜場景下顯著提升了目標檢測性能，為可見光與紅外融合檢測提供了新思路。其模塊化設計也為后續多模態檢測模型的構建和應用奠定了基礎。未來，可在更加多樣化的場景與模態上，繼續探索雙增強策略的廣泛適用性與即時性優化。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/86477.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/86477.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/86477.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！