模型架構 | 模態 | 精度 P | 召回率 R | mAP50 | mAP50-95 | 模型大小(MB) | 計算量(GFLOPs) |
---|---|---|---|---|---|---|---|
yolov8n (baseline) | RGB | 0.888 | 0.829 | 0.891 | 0.500 | 6.2 | 8.1 |
yolo-fuse-中期特征融合 | RGB+IR | 0.951 | 0.881 | 0.947 | 0.601 | 2.61 | 3.2 |
yolo-fuse-早期特征融合 | RGB+IR | 0.950 | 0.896 | 0.955 | 0.623 | 5.2 | 6.7 |
yolo-fuse-決策級融合 | RGB+IR | 0.956 | 0.905 | 0.955 | 0.612 | 8.8 | 10.7 |
yolo-fuse-極簡融合 | RGB+IR | 0.899 | 0.865 | 0.939 | 0.62 | 7.83 | 8.5 |
DEYOLO | RGB+IR | 0.943 | 0.895 | 0.952 | 0.615 | 11.85 | 16.6 |
論文地址:https://arxiv.org/abs/2412.04931
DEYOLO
代碼地址: https://github.com/chips96/DEYOLO
YOLOFuse
項目地址:https://github.com/WangQvQ/YOLOFuse
引言
在弱光、霧霾等復雜環境下,單純依靠可見光圖像進行目標檢測往往效果不佳;而紅外圖像能提供清晰的輪廓信息,卻缺乏紋理細節。將兩者融合,能夠互補優勢,但如何在 檢測任務 導向下有效融合、并減少模態間的相互干擾,是目前的挑戰。針對這一問題,本文提出了一種基于 YOLOv8 的 雙增強跨模態目標檢測網絡 DEYOLO,通過 雙語義增強通道權重分配(DECA)、雙空間增強像素權重分配(DEPA) 與 雙向解耦 Focus 模塊,在特征層面實現“檢測驅動”的跨模態信息互補與干擾抑制,并在 M3FD、LLVIP 等數據集上取得了明顯優于 SOTA 的性能提升 。
背景與動機
-
單模態檢測局限
- 傳統可見光目標檢測(如 YOLO、DETR、Swin Transformer)在紋理細節豐富時表現優秀,但對弱光或遮擋場景不魯棒。
- 紅外小目標檢測網絡(如 ALCNet、ISTDU-Net、IRSTD-GAN)雖能在低光條件下檢測,但單獨紅外缺乏色彩和細節信息,難以支持復雜場景的檢測需求 。
-
現有跨模態融合不足
- 常見方法要么將 RGB-IR 拼四通道輸入,要么在特征下游簡單拼接,兩者缺乏深度交互。
- “融合-檢測”策略通常先做圖像融合再檢測,既不以檢測為中心,也沒有解決融合過程中模態間的互相干擾問題 。
正是在這樣的背景下,DEYOLO 從特征層面入手,設計“檢測導向”的雙增強機制,以期在保持兩種模態各自優勢的同時,最大化互補效果并抑制相互干擾。
DEYOLO 方法概覽
DEYOLO 在 YOLOv8 的骨干與檢測頭之間,引入了兩大跨模態增強模塊(DECA、DEPA),并在骨干前期插入 雙向解耦 Focus,如圖所示:
1. 雙語義增強通道權重分配模塊(DECA)
-
目標:在通道維度上,利用單模態與跨模態融合信息,分別 增強融合特征 與 反向提升單模態特征 的語義表達能力。
-
流程:
-
跨模態融合提取:將來自骨干的 RGB/IR 特征拼接后通過卷積得到混合特征 F M i x 0 F_{Mix}^0 FMix0?。
-
通道權重編碼:對 F M i x 0 F_{Mix}^0 FMix0? 進行跨模態權重抽取(CMWE),得權重 W _ M i x 0 W\_{Mix}^0 W_Mix0;同時分別對 RGB、IR 特征通過 SE 結構提取單模態通道權重 W V 0 , W I R 0 W_V^0, W_{IR}^0 WV0?,WIR0?。
-
雙重增強:
-
第一增強:
W V e n = W V 0 ? s o f t m a x ( W M i x 0 ) , W I R e n = W I R 0 ? s o f t m a x ( W M i x 0 ) W^{en}_V = W^0_V \otimes \mathrm{softmax}(W^0_{Mix}),\quad W^{en}_{IR} = W^0_{IR} \otimes \mathrm{softmax}(W^0_{Mix}) WVen?=WV0??softmax(WMix0?),WIRen?=WIR0??softmax(WMix0?)
-
第二增強:
F I R 1 = F I R 0 ⊙ W V e n , F V 1 = F V 0 ⊙ W I R e n F^1_{IR} = F^0_{IR} \odot W^{en}_V,\quad F^1_V = F^0_V \odot W^{en}_{IR} FIR1?=FIR0?⊙WVen?,FV1?=FV0?⊙WIRen?
-
-
通過上述步驟,DECA 能在通道層面 重分配注意力,兼顧單模態與融合特征的語義重要性 。
2. 雙空間增強像素權重分配模塊(DEPA)
-
目標:在空間(像素)維度上,模擬 DECA 的雙增強機制,用于 位置敏感 的特征融合。
-
流程:
-
對 DECA 輸出的 F V 1 , F I R 1 F^1_V,F^1_{IR} FV1?,FIR1? 分別進行不同尺度的卷積提取臨時權重,再形變后相乘得到跨模態空間權重 W M i x 1 W^1_{Mix} WMix1?。
-
分別使用 3×3 和 5×5 卷積獲得兩種尺度下的單模態像素權重 W V 1 , W I R 1 W^1_V,W^1_{IR} WV1?,WIR1?,再通過軟最大化與 W M i x 1 W^1_{Mix} WMix1? 結合。
-
雙重增強:
F I R = F I R 1 ⊙ W V e n , F V = F V 1 ⊙ W I R e n F_{IR} = F^1_{IR}\odot W^{en}_V,\quad F_V = F^1_V\odot W^{en}_{IR} FIR?=FIR1?⊙WVen?,FV?=FV1?⊙WIRen?
-
最終將二者相加,送入檢測頭。
-
DEPA 強調了空間位置上的互補信息,進一步豐富了跨模態特征的結構表達 。
3. 雙向解耦 Focus
- 靈感:YOLOv5 的 Focus 模塊可無損下采樣;DEYOLO 通過水平/垂直兩種解耦采樣方式,增強骨干對不同方向上下文的感受野。
- 結構:將淺層特征按像素間隔分組,在橫向與縱向分別采樣,再進行深度可分離卷積,最后與原特征拼接,擴大感受野且保留細節 。
實驗與結果
數據集與評價指標
- 數據集:M3FD(4,200 對 RGB-IR)、LLVIP(16,836 對)、KAIST(清洗后 7,601/2,252) 。
- 指標:mAP@0.5、mAP@0.5:0.95(mAP50?95)、Log Average Miss Rate (LAMR)。
消融實驗
-
模塊貢獻(Table 1):
- 單獨 DECA 或 DEPA,在 M3FD 上分別提升 mAP50 +4.2%/+3.6%,mAP50?95 +4.4%/+3.5%。
- DECA+DEPA 聯合 +4.4%/+4.6%,三者(含 Focus)則達 +5.8%/+5.3% 。
-
核大小與層數:
- DEPA 在 3×3 卷積核時效果最佳(Table 2)。
- DECA 使用 3 層深度可分離卷積效果優于普通卷積(Table 3)。
與 SOTA 比較
-
單模態 vs DEYOLO:
- 可見光單模態最高 mAP50≈88.3%,紅外≈78.3%;DEYOLO-n 達 86.6%、DEYOLO-l 達 91.2%(M3FD),均超越多種 ViT/RCNN、YOLOv7/8 等 。
-
融合-檢測方法:
- 與 IRFS、U2Fusion、SeAFusion 等融合算法比較,DEYOLO-n 在 M3FD 上至少領先 5.4% mAP50,DEYOLO-l 領先超過 10% 。
-
泛化能力:在 KAIST 數據集上,雖然未奪魁,但仍優于多數 RGB-T 檢測方法,說明跨光譜特征增強具有廣泛適用性。
討論與展望
-
優勢:
- 檢測導向:直接在特征層面交互融合,以檢測性能為優化目標;
- 雙增強機制:通道與空間維度的互補增強,有效抑制模態間噪聲干擾;
- 輕量可插拔:DECA/DEPA 與雙向 Focus 可插入其它骨干網絡。
-
局限與未來:
- 對齊要求較高的數據對;
- 如何在更大尺度、更多模態(如深度/SAR)中擴展?
- 實時性與資源消耗的權衡值得深入探索。
結語
DEYOLO 通過 雙語義 與 雙空間 的“檢測驅動”跨模態特征增強,結合 雙向解耦 Focus,在弱光與復雜場景下顯著提升了目標檢測性能,為可見光與紅外融合檢測提供了新思路。其模塊化設計也為后續多模態檢測模型的構建和應用奠定了基礎。未來,可在更加多樣化的場景與模態上,繼續探索雙增強策略的廣泛適用性與即時性優化。