DEYOLO 全面復現,將雙增強跨模態目標檢測網絡 DEYOLO 融合到 YOLOFuse 框架

模型架構模態精度 P召回率 RmAP50mAP50-95模型大小(MB)計算量(GFLOPs)
yolov8n (baseline)RGB0.8880.8290.8910.5006.28.1
yolo-fuse-中期特征融合RGB+IR0.9510.8810.9470.6012.613.2
yolo-fuse-早期特征融合RGB+IR0.9500.8960.9550.6235.26.7
yolo-fuse-決策級融合RGB+IR0.9560.9050.9550.6128.810.7
yolo-fuse-極簡融合RGB+IR0.8990.8650.9390.627.838.5
DEYOLORGB+IR0.9430.8950.9520.61511.8516.6

在這里插入圖片描述
在這里插入圖片描述

論文地址:https://arxiv.org/abs/2412.04931
DEYOLO代碼地址: https://github.com/chips96/DEYOLO
YOLOFuse項目地址:https://github.com/WangQvQ/YOLOFuse


引言

在弱光、霧霾等復雜環境下,單純依靠可見光圖像進行目標檢測往往效果不佳;而紅外圖像能提供清晰的輪廓信息,卻缺乏紋理細節。將兩者融合,能夠互補優勢,但如何在 檢測任務 導向下有效融合、并減少模態間的相互干擾,是目前的挑戰。針對這一問題,本文提出了一種基于 YOLOv8 的 雙增強跨模態目標檢測網絡 DEYOLO,通過 雙語義增強通道權重分配(DECA)雙空間增強像素權重分配(DEPA)雙向解耦 Focus 模塊,在特征層面實現“檢測驅動”的跨模態信息互補與干擾抑制,并在 M3FD、LLVIP 等數據集上取得了明顯優于 SOTA 的性能提升 。


背景與動機

  1. 單模態檢測局限

    • 傳統可見光目標檢測(如 YOLO、DETR、Swin Transformer)在紋理細節豐富時表現優秀,但對弱光或遮擋場景不魯棒。
    • 紅外小目標檢測網絡(如 ALCNet、ISTDU-Net、IRSTD-GAN)雖能在低光條件下檢測,但單獨紅外缺乏色彩和細節信息,難以支持復雜場景的檢測需求 。
  2. 現有跨模態融合不足

    • 常見方法要么將 RGB-IR 拼四通道輸入,要么在特征下游簡單拼接,兩者缺乏深度交互。
    • “融合-檢測”策略通常先做圖像融合再檢測,既不以檢測為中心,也沒有解決融合過程中模態間的互相干擾問題 。

正是在這樣的背景下,DEYOLO 從特征層面入手,設計“檢測導向”的雙增強機制,以期在保持兩種模態各自優勢的同時,最大化互補效果并抑制相互干擾。


DEYOLO 方法概覽

在這里插入圖片描述

DEYOLO 在 YOLOv8 的骨干與檢測頭之間,引入了兩大跨模態增強模塊(DECA、DEPA),并在骨干前期插入 雙向解耦 Focus,如圖所示:

Backbone
輸入RGB特征
輸入IR特征
雙向解耦 Focus
淺層特征
DECA
DEPA
融合特征
檢測頭

1. 雙語義增強通道權重分配模塊(DECA)

在這里插入圖片描述

  • 目標:在通道維度上,利用單模態與跨模態融合信息,分別 增強融合特征反向提升單模態特征 的語義表達能力。

  • 流程

    1. 跨模態融合提取:將來自骨干的 RGB/IR 特征拼接后通過卷積得到混合特征 F M i x 0 F_{Mix}^0 FMix0?

    2. 通道權重編碼:對 F M i x 0 F_{Mix}^0 FMix0? 進行跨模態權重抽取(CMWE),得權重 W _ M i x 0 W\_{Mix}^0 W_Mix0;同時分別對 RGB、IR 特征通過 SE 結構提取單模態通道權重 W V 0 , W I R 0 W_V^0, W_{IR}^0 WV0?,WIR0?

    3. 雙重增強

      • 第一增強:

        W V e n = W V 0 ? s o f t m a x ( W M i x 0 ) , W I R e n = W I R 0 ? s o f t m a x ( W M i x 0 ) W^{en}_V = W^0_V \otimes \mathrm{softmax}(W^0_{Mix}),\quad W^{en}_{IR} = W^0_{IR} \otimes \mathrm{softmax}(W^0_{Mix}) WVen?=WV0??softmax(WMix0?),WIRen?=WIR0??softmax(WMix0?)

      • 第二增強:

        F I R 1 = F I R 0 ⊙ W V e n , F V 1 = F V 0 ⊙ W I R e n F^1_{IR} = F^0_{IR} \odot W^{en}_V,\quad F^1_V = F^0_V \odot W^{en}_{IR} FIR1?=FIR0?WVen?,FV1?=FV0?WIRen?

通過上述步驟,DECA 能在通道層面 重分配注意力,兼顧單模態與融合特征的語義重要性 。

2. 雙空間增強像素權重分配模塊(DEPA)

  • 目標:在空間(像素)維度上,模擬 DECA 的雙增強機制,用于 位置敏感 的特征融合。

  • 流程

    1. 對 DECA 輸出的 F V 1 , F I R 1 F^1_V,F^1_{IR} FV1?,FIR1? 分別進行不同尺度的卷積提取臨時權重,再形變后相乘得到跨模態空間權重 W M i x 1 W^1_{Mix} WMix1?

    2. 分別使用 3×3 和 5×5 卷積獲得兩種尺度下的單模態像素權重 W V 1 , W I R 1 W^1_V,W^1_{IR} WV1?,WIR1?,再通過軟最大化與 W M i x 1 W^1_{Mix} WMix1? 結合。

    3. 雙重增強:

      F I R = F I R 1 ⊙ W V e n , F V = F V 1 ⊙ W I R e n F_{IR} = F^1_{IR}\odot W^{en}_V,\quad F_V = F^1_V\odot W^{en}_{IR} FIR?=FIR1?WVen?,FV?=FV1?WIRen?

    4. 最終將二者相加,送入檢測頭。

DEPA 強調了空間位置上的互補信息,進一步豐富了跨模態特征的結構表達 。

3. 雙向解耦 Focus

在這里插入圖片描述

  • 靈感:YOLOv5 的 Focus 模塊可無損下采樣;DEYOLO 通過水平/垂直兩種解耦采樣方式,增強骨干對不同方向上下文的感受野。
  • 結構:將淺層特征按像素間隔分組,在橫向與縱向分別采樣,再進行深度可分離卷積,最后與原特征拼接,擴大感受野且保留細節 。

實驗與結果

數據集與評價指標

  • 數據集:M3FD(4,200 對 RGB-IR)、LLVIP(16,836 對)、KAIST(清洗后 7,601/2,252) 。
  • 指標:mAP@0.5、mAP@0.5:0.95(mAP50?95)、Log Average Miss Rate (LAMR)。

消融實驗

在這里插入圖片描述

  • 模塊貢獻(Table 1):

    • 單獨 DECA 或 DEPA,在 M3FD 上分別提升 mAP50 +4.2%/+3.6%,mAP50?95 +4.4%/+3.5%。
    • DECA+DEPA 聯合 +4.4%/+4.6%,三者(含 Focus)則達 +5.8%/+5.3% 。
  • 核大小與層數

    • DEPA 在 3×3 卷積核時效果最佳(Table 2)。
    • DECA 使用 3 層深度可分離卷積效果優于普通卷積(Table 3)。

與 SOTA 比較

  • 單模態 vs DEYOLO

    • 可見光單模態最高 mAP50≈88.3%,紅外≈78.3%;DEYOLO-n 達 86.6%、DEYOLO-l 達 91.2%(M3FD),均超越多種 ViT/RCNN、YOLOv7/8 等 。
  • 融合-檢測方法

    • 與 IRFS、U2Fusion、SeAFusion 等融合算法比較,DEYOLO-n 在 M3FD 上至少領先 5.4% mAP50,DEYOLO-l 領先超過 10% 。
  • 泛化能力:在 KAIST 數據集上,雖然未奪魁,但仍優于多數 RGB-T 檢測方法,說明跨光譜特征增強具有廣泛適用性。


討論與展望

  • 優勢

    1. 檢測導向:直接在特征層面交互融合,以檢測性能為優化目標;
    2. 雙增強機制:通道與空間維度的互補增強,有效抑制模態間噪聲干擾;
    3. 輕量可插拔:DECA/DEPA 與雙向 Focus 可插入其它骨干網絡。
  • 局限與未來

    • 對齊要求較高的數據對;
    • 如何在更大尺度、更多模態(如深度/SAR)中擴展?
    • 實時性與資源消耗的權衡值得深入探索。

結語

DEYOLO 通過 雙語義雙空間 的“檢測驅動”跨模態特征增強,結合 雙向解耦 Focus,在弱光與復雜場景下顯著提升了目標檢測性能,為可見光與紅外融合檢測提供了新思路。其模塊化設計也為后續多模態檢測模型的構建和應用奠定了基礎。未來,可在更加多樣化的場景與模態上,繼續探索雙增強策略的廣泛適用性與即時性優化。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/86477.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/86477.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/86477.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python基于Django+mysql實現的圖書管理系統【完整源碼+數據庫】

摘要 隨著信息技術與教育現代化的深度融合,圖書管理系統的智能化與自動化成為提升資源利用效率的關鍵需求。本文基于Python語言,采用Django框架與MySQL數據庫設計并實現了一套功能完備的圖書管理系統,旨在通過信息化手段優化圖書借閱流程、強…

論軟件設計方法及其應用

20250427-作 題目 軟件設計(Software Design,SD)根據軟件需求規格說明書設計軟件系統的整體結構、劃分功能模塊、確定每個模塊的實現算法以及程序流程等,形成軟件的具體設計方案。軟件設計把許多事物和問題按不同的層次和角度進行抽象&…

QT 自定義ComboBox,實現下拉框文本顏色設置

最近在做項目中遇到需求,在下拉框中,文本需要設置不同的顏色,遂網上了解了一番后,得出以下代碼,可以完美實現效果,現分享出來! 1.實現效果 2.自定義類 colorcombobox.h #ifndef COLORCOMBOBOX…

【時間戳】

在編程競賽和高效數據處理場景中,時間戳技巧是一種極其高效的標記方法,常用于避免頻繁清空數組或 map,提高算法運行效率。本文將從定義、應用場景、模板代碼、技巧細節等方面系統整理時間戳的使用方式。 一、時間戳技巧是什么? 時…

json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig)

有一次爬蟲遇到了json的字符串響應對象 然后轉為json對象 報這個錯誤 raise JSONDecodeError("Unexpected UTF-8 BOM (decode using utf-8-sig)", json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig): line 1 column 1 (char 0) 意思是叫…

python訓練day43 復習日

import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader, random_split import matplotlib.pyplot as plt import numpy as np# 設置中文字體支持,避免繪圖時中文…

C++11 lambda

前言 在Cpp11以前,為了把函數當作對象調用,可以使用C中的函數指針類型,也可以使用Cpp98的仿函數。 但二者都不是很好用,函數指針 return_type (*name)(parameters)的長相就令人望而卻步,仿函數將一個函數重載為一個類…

【國產化-K8s】混合架構的 K8s + KubeSphere 部署指南

本文由 KubeSphere 社區貢獻者 天行1st 編寫。本文為作者實踐總結。本文記錄了在信創環境中基于混合架構(x86 與 ARM64)部署 Kubernetes 和 KubeSphere 的實踐過程,覆蓋多種國產 CPU 和操作系統,具有一定的參考價值。 環境涉及軟…

利用python實現NBA數據可視化

大家好,今天我們利用python爬取NBA球星每年的比賽數據并進行可視化展示。主要用到三個模塊:xpath、matplotlib。其中xpth負責爬取網站上的信息。Matplotlib是Python開發人員常用的Python繪圖庫,可以用來繪制各種2D圖形,具有繪圖質…

基于 SpringBoot+JSP 的醫療預約與診斷系統設計與實現

摘要 本研究針對傳統醫療預約與診斷流程中存在的效率低下、信息不透明、患者等待時間長等問題,設計并實現了一個基于 SpringBootJSP 的醫療預約與診斷系統。系統采用 B/S 架構,整合了用戶管理、科室管理、醫生排班、預約掛號、在線問診、檢查檢驗、診斷…

2025.6.27總結

最近工作又開始內耗了,一位同事的轉崗直接讓我破防了,明明他工作干得很不錯,會得又多,性格又好,我還經常請教他業務上的問題。我和他的關系并不算太好,但他加入其他部門,竟然讓我有些不舍&#…

詳解HashMap底層原理

核心數據結構&#xff1a;數組 鏈表 / 紅黑樹 HashMap 的底層核心是一個 Node<K,V>[] table 數組&#xff08;通常稱為 桶數組 或 哈希桶數組&#xff09;。這個數組的每個元素稱為一個 桶。 Node<K,V> (鏈表節點)&#xff1a; 這是存儲鍵值對的基本單位&#xf…

歷史項目依賴庫Bugfix技巧-類覆蓋

在項目維護過程中&#xff0c;我們可能會遇到歷史項目依賴的第三方庫出現BUG而需要修復的情況&#xff0c;而這些第三方庫可能來源于公司自主開發或開源項目&#xff0c;但由于各種原因&#xff0c;這些庫可能已無人維護。 此時&#xff0c;解決這個問題有三個辦法 1、基于源…

多模態大型語言模型最新綜述

多模態大型語言模型&#xff08;Multimodal Large Language Models&#xff0c;MLLMs&#xff09;已迅速發展&#xff0c;超越了文本生成的范疇&#xff0c;如今能夠覆蓋圖像、音樂、視頻、人類動作以及三維物體等多種輸出模態。它們通過在統一架構下將語言與其他感知模態整合&…

使用ASIO的協程實現高并發服務器

使用ASIO的協程實現高并發服務器 在 C 網絡編程領域&#xff0c;Asio 庫提供了兩種主要的異步編程范式&#xff1a;傳統的回調模式和基于協程的現代模式&#xff0c;傳統的回調模式大家都很清楚&#xff0c;這里不多做介紹&#xff0c;本文主要介紹基于協程的模式&#xff0c;…

OpenCV——輪廓檢測

輪廓檢測 一、輪廓檢測二、輪廓的層級三、輪廓的特征3.1、輪廓面積3.2、輪廓周長3.3、邊界矩形3.4、最小外接圓3.5、近似輪廓3.6、凸包 一、輪廓檢測 輪廓可以簡單的描述為具有相同顏色或灰度的連續點連在一起的一條曲線&#xff0c;輪廓通暢會顯示出圖像中物體的形狀。關于輪…

高等概率論題解-心得筆記【15】

文章目錄 拓撲參考文獻 拓撲 參考文獻 《測度論基礎與高等概率論》

Windows 10關閉自動更新功能

Windows 10關閉自動更新功能&#xff0c;大家是不是經常用下面的幾個步驟&#xff1a; 1、禁用Windows Update服務&#xff1b; 2、在組策略里關閉Win10自動更新相關服務&#xff1b; 3、禁用任務計劃里邊的Win10自動更新&#xff1b; 4、在注冊表中關閉Win10自動更新&…

[Meetily后端框架] 配置指南 | 后端API網關 | API文檔體系

鏈接: https://github.com/Zackriya-Solutions/meeting-minutes docs&#xff1a;會議紀要管理系統 本項目是一個專門用于**處理會議記錄**的后端系統。 系統接收會議文本內容&#xff0c;利用先進的AI模型自動識別關鍵信息&#xff0c;包括行動項、決策內容以及截止期限。 處…

Flink2.0 配置 historyserver

Flink2.0 配置 historyserver 主要是去修改config.yaml配置文件 主要修改的點有兩個 網上很多文檔都是寫的只配置一個 都是坑啊 historyserver :歷史服務器 運行 Flink job 的集群一旦停止(例如yarn模式&#xff0c;程序一旦停止&#xff0c;集群也就關閉了)&#xff0c;只能去…