【論文閱讀 | CVPR 2024 |Fusion-Mamba ：用于跨模態目標檢測】

論文閱讀 | CVPR 2024 |Fusion-Mamba ：用于跨模態目標檢測

1.摘要&&引言
2.方法
- 2.1 預備知識
- 2.2 Fusion-Mamba
- - 2.2.1 架構
  - 特征提取與多模態融合（FMB模塊）
  - FMB的應用與輸出
  - 2.2.2 關鍵組件
  - - 3.2.2.1 SSCS 模塊：淺層跨模態特征交互
    - 3.2.2.2 DSSF 模塊：深層跨模態特征關聯
    - 3.2.2.3 特征增強與融合
  - 2.2.3 損失函數
- 2.3 與基于 Transformer 的融合方法對比
3. 實驗
- 3.1 實驗設置
- - 3.1.1 數據集
  - 3.1.2 評估指標
  - 3.1.3 實現細節
- 3.2 與現有最優方法的對比
- - 3.2.1 LLVIP數據集
  - 3.2.2 M3FD 數據集
  - 3.2.3 FLIR-Aligned 數據集
  - 3.2.4 熱力圖可視化
- 3.3 消融實驗
- - 3.3.1 SSCS 和 DSSF 模塊的影響
  - 3.3.2 FMB 位置的影響。
  - 3.3.3 DSSF 模塊數量的影響。
  - 3.3.4 DSSF 模塊雙向注意力的影響
4. 結論

在這里插入圖片描述

題目：Fusion-Mamba for Cross-modality Object Detection

會議： Computer Vision and Pattern Recognition（CVPR）

論文：https://arxiv.org/abs/2404.09146

代碼：未公開

年份：2024

1.摘要&&引言

跨模態融合通過有效整合不同模態的互補信息，顯著提升了目標檢測性能，使其在更廣泛的應用場景中更具實用性和魯棒性。
現有融合策略通常通過精心設計的神經網絡模塊來結合不同類型的圖像或融合不同主干特征。
然而，這些方法忽視了模態差異對跨模態融合性能的影響 —— 由于不同模態的相機焦距、位置和角度差異，其特征難以有效融合。

本文中，基于改進的 Mamba 與門控機制，通過在隱藏狀態空間中關聯跨模態特征來研究跨模態融合。

我們設計了 Fusion-Mamba 模塊（FMB），將跨模態特征映射到隱藏狀態空間進行交互，從而減少跨模態特征差異，增強融合特征的表示一致性。FMB 包含兩個模塊：狀態空間通道交換（SSCS）模塊促進淺層特征融合，雙狀態空間融合（DSSF）模塊實現隱藏狀態空間的深層融合。在公共數據集上的大量實驗表明，我們的方法在 M3FD 數據集上 mAP 提升 5.9%，在 FLIR-Aligned 數據集上提升 4.9%，超越了現有最優方法，展現了卓越的目標檢測性能。據我們所知，這是首次探索 Mamba 在跨模態融合中的潛力，并為跨模態目標檢測建立了新基線。

在這里插入圖片描述

圖1. 熱力圖可視化。(a)和(b)為初始RGB和IR輸入圖像；?和(d)為使用YOLOv8單模態生成的熱力圖；(e)為基于CNN融合模塊的YOLO-MS熱力圖；(f)和(g)為基于Transformer融合模塊的ICAFusion和CFT熱力圖；(h)為我們的FMB熱力圖，其定位效果更佳。

在這里插入圖片描述

圖2. 所提出的Fusion-Mamba方法架構。檢測網絡包含雙流特征提取網絡和三個Fusion-Mamba模塊（FMB），其頸部和頭部與YOLOv8相同。頂部是我們的檢測框架， $\phi_{i}$ 和 $\varphi_{i}$ 分別是RGB和IR分支的卷積模塊，用于生成 $F_{R_{i}}$ 和 $F_{IR_{i}}$ 特征； $\hat{F}_{R_{i}}$ 和 $\hat{F}_{IR_{i}}$ 是通過FMB增強的特征圖； $P_{3}$ 、 $P_{4}$ 和 $P_{5}$ 是增強特征圖的求和輸出，作為頸部最后三個階段的特征金字塔輸入。底部展示了FMB的設計細節。

本文提出 Fusion-Mamba 方法，旨在隱藏狀態空間中融合特征，為跨模態特征融合開辟新范式。我們受 Mamba 啟發，利用其線性復雜度構建隱藏狀態空間，并通過門控機制進一步改進，實現更深層、更復雜的融合。我們的 Fusion-Mamba 方法核心在于創新的 Fusion-Mamba 模塊（FMB），如圖 2 所示。在 FMB 中，我們設計了狀態空間通道交換（SSCS）模塊用于淺層特征融合，以提升跨模態特征的交互能力；以及雙狀態空間融合（DSSF）模塊，用于構建隱藏狀態空間以實現跨模態特征關聯與互補。這兩個模塊有助于減少融合過程中的模態差異，如圖 1（h）所示，其熱力圖表明我們的方法更有效地融合了特征，使檢測器更聚焦于目標。本工作的貢獻如下：

1）所提出的 Fusion-Mamba 方法探索了 Mamba 在跨模態融合中的潛力，增強了融合特征的表示一致性。我們基于門控機制改進的 Mamba，構建了跨模態交互的隱藏狀態空間，以減少跨模態特征差異。
2）我們設計了包含兩個模塊的 Fusion-Mamba 塊：狀態空間通道交換（SSCS）模塊促進淺層特征融合，雙狀態空間融合（DSSF）模塊實現隱藏狀態空間的深層融合。
3）在三個公共 RGB-IR 目標檢測數據集上的大量實驗表明，我們的方法實現了現有最優性能，為跨模態目標檢測方法提供了新基線。

2.方法

2.1 預備知識

狀態空間模型

狀態空間模型（SSMs）常用于表示線性時不變系統，其通過中間隱狀態 h (t)∈??處理一維輸入序列 x (t)∈?，生成輸出 y (t)∈?。從數學上看，SSMs 通常表示為線性常微分方程（ODEs）：

$\begin{aligned} h'(t) &= A h(t) + B x(t), \\ y(t) &= C h(t) + D x(t), \end{aligned}$

其中系統行為由一組參數定義，包括狀態轉移矩陣 A∈??×?、投影參數 B、C∈??×1，以及跳躍連接 D∈?。為簡化表述，可通過設置 D=0 移除 D x (t) 項。

離散化

式 1 中 SSMs 的連續時間特性在深度學習場景中應用時面臨重大挑戰。為解決此問題，需通過離散化過程將 ODEs 轉換為離散函數，這是確保模型與輸入數據中底層信號采樣率對齊、促進高效計算操作的關鍵。考慮輸入 x?∈??×?（遵循 [40] 的長度為 L 的信號流中的采樣向量），時間尺度參數 Δ 的引入允許根據零階保持（ZOH）原理，將連續參數 A 和 B 轉換為離散形式 ? 和 B?。
因此，式 1 離散化為：
$\begin{aligned} h? &= \tilde{A} h_{k-1} + \tilde{B} x?, \\ y(t) &= \tilde{C} h? + D x?, \\ \tilde{A} &= e^{ΔA}, \\ \tilde{B} &= (ΔA)^{-1}(e^{ΔA} - I)ΔB, \\ \tilde{C} &= C, \end{aligned}$
其中 B、C∈??，I 為單位矩陣。離散化后，SSMs 通過具有結構化卷積核 K?∈??的全局卷積計算：
$\tilde{K}, \quad \tilde{K} = (C \tilde{B}, C \tilde{A} \tilde{B}, \cdots, C \tilde{A}^{L-1} \tilde{B}). \quad (3)$

基于式 2 和式 3，Mamba 設計了一種簡單的選擇機制，根據輸入 ### 參數化 Δ、A、B 和 C 的 SSM 參數，用于 1D 語言序列建模中沿序列長度維度選擇性傳播或遺忘信息。

2D 選擇性掃描機制

2D 視覺數據與 1D 語言序列的不兼容性使得 Mamba 直接應用于視覺任務時存在不足。例如，2D 空間信息在視覺任務中至關重要，而在 1D 序列建模中僅占次要地位，這種差異導致感受野有限，無法捕捉與未探索塊的潛在相關性。中引入 2D 選擇性掃描（SS2D）機制以解決上述挑戰，其概述如圖 3 所示。

在這里插入圖片描述

圖3. RGB圖像上二維選擇性掃描（SS2D）的示意圖。首先，圖像經過掃描擴展，生成四個不同的特征序列；隨后，每個序列獨立通過S6塊處理；最后，通過掃描合并S6塊的輸出，生成最終的二維特征圖。

SS2D 首先將圖像塊沿四個不同方向掃描擴展，生成四個獨立序列，這種四向掃描方法確保特征圖中的每個元素包含不同方向上所有其他位置的信息，從而在無需計算復雜度線性增加的情況下建立全面的全局感受野。隨后，每個特征序列通過選擇性掃描狀態空間序列模型（S6）處理，最后聚合特征序列以重建 2D 特征圖。
SS2D 是視覺狀態空間（VSS）塊的核心元素，如圖 2 所示，將用于構建跨模態特征融合的隱藏狀態空間。

2.2 Fusion-Mamba

2.2.1 架構

模型架構如圖 2 所示。其檢測主干包含雙流特征提取網絡和三個 Fusion-Mamba 模塊（FMB），檢測網絡包含用于跨模態目標檢測的頸部和頭部。

在這里插入圖片描述

特征提取與多模態融合（FMB模塊）

特征提取網絡從 RGB 圖像和紅外（IR）圖像中分別提取局部特征，記為 $F_{R_i}$ （RGB局部特征）和 $F_{IR_i}$ （IR局部特征）。

在這里插入圖片描述

為減少跨模態特征差異并增強融合一致性，將 $F_{R_i}$ 和 $F_{IR_i}$ 輸入多模態融合塊（FMB）。FMB的核心流程如下：

淺層特征融合（SSCS模塊）：
首先通過狀態空間通道交換（State Space Channel Swap, SSCS）模塊對 $F_{R_i}$ 和 $F_{IR_i}$ 進行淺層交互，生成交互特征 $\tilde{F}_{R_i}$ （RGB交互特征）和 $\tilde{F}_{IR_i}$ （IR交互特征）。
深層特征融合（DSSF模塊）：
交互特征進一步輸入雙狀態空間融合（Dual State Space Fusion, DSSF）模塊，在隱藏狀態空間中完成深層特征融合，生成互補特征 $\bar{F}_{R_i}$ （RGB互補特征）和 $\bar{F}_{IR_i}$ （IR互補特征）。
局部特征增強：
將原始特征與互補特征逐元素相加，增強局部表征能力：
$\hat{F}_{R_i} = F_{R_i} + \bar{F}_{R_i}, \quad \hat{F}_{IR_i} = F_{IR_i} + \bar{F}_{IR_i} \tag{A}$
其中 $\hat{F}_{R_i}$ 和 $\hat{F}_{IR_i}$ 表示增強后的RGB和IR局部特征。
融合特征生成：
增強特征直接相加生成最終融合特征 $P_i$ ：
$P_i = \hat{F}_{R_i} + \hat{F}_{IR_i} \tag{B}$

FMB的應用與輸出

FMB僅應用于模型的最后三個階段（生成 $P_3$ 、 $P_4$ 、 $P_5$ ），這些融合特征作為 YOLOv8 頸部（Neck）和頭部（Head）的輸入，最終輸出目標檢測結果（如圖 4 所示）。
在這里插入圖片描述

2.2.2 關鍵組件

給定輸入的 RGB 圖像 $I_R$ 和紅外（IR）圖像 $I_{IR}$ ，首先通過一系列卷積塊提取局部特征。具體而言，RGB 分支的第 $i$ 階段局部特征 $F_{R_i}$ 和 IR 分支的第 $i$ 階段局部特征 $F_{IR_i}$ 可表示為：
$F_{R_i} = \phi_i \circ \phi_{i-1} \circ \cdots \circ \phi_1(I_R), \quad F_{IR_i} = \psi_i \circ \psi_{i-1} \circ \cdots \circ \psi_1(I_{IR})$
其中 $\phi_i$ 和 $\psi_i$ 分別表示 RGB 和 IR 分支第 $i$ 階段的卷積塊

現有跨模態融合方法主要關注空間特征的集成，但未充分考慮模態間的特征差異，導致融合模型難以有效建模不同模態目標間的相關性，最終降低模型的表示能力。受 Mamba[8] 在狀態空間序列建模中的強大能力啟發，我們設計了融合 Mamba 塊（Fusion-Mamba Block, FMB），通過構建跨模態特征交互與關聯的隱藏狀態空間，解決上述問題。FMB 的核心由兩個關鍵模塊組成：狀態空間通道交換（State Space Channel Swap, SSCS）模塊和雙狀態空間融合（Dual State Space Fusion, DSSF）模塊，二者協同減少跨模態特征差異，增強融合特征的表示一致性。算法 1 詳細給出了 SSCS 和 DSSF 模塊的計算流程。

3.2.2.1 SSCS 模塊：淺層跨模態特征交互

SSCS 模塊的目標是通過通道交換操作和 VSS 塊（見圖 2）增強跨模態特征的淺層交互，豐富通道多樣性以提升融合性能。具體步驟如下：

在這里插入圖片描述

通道交換操作（CS）：
首先通過通道交換生成 RGB 和 IR 的新局部特征 $T_{R_i}$ 和 $T_{IR_i}$ ，公式為：
$T_{R_i} = CS(F_{R_i}, F_{IR_i}), \quad T_{IR_i} = CS(F_{IR_i}, F_{R_i}) \tag{5}$
其中 $CS(\cdot, \cdot)$ 表示通道交換操作，實現方式為：將 $F_{R_i}$ 和 $F_{IR_i}$ 沿通道維度均分為四部分，從 $F_{R_i}$ 中選擇第 1、3 部分，從 $F_{IR_i}$ 中選擇第 2、4 部分，按順序拼接后生成新的 RGB 局部特征 $T_{R_i}$ ；IR 局部特征 $T_{IR_i}$ 以類似方式生成（交換通道選擇順序）。
淺層融合增強：
對 $T_{R_i}$ 和 $T_{IR_i}$ 分別應用 VSS 塊（VSS Block），進一步強化跨模態交互：
$\tilde{F}_{R_i} = VSS(T_{R_i}), \quad \tilde{F}_{IR_i} = VSS(T_{IR_i}) \tag{6}$
其中 $VSS(\cdot)$ 表示圖 2 所示的 VSS 塊（基于門控機制的狀態空間模型[21]）， $\tilde{F}_{R_i}$ 和 $\tilde{F}_{IR_i}$ 分別為 RGB 和 IR 分支的淺層融合特征輸出。

3.2.2.2 DSSF 模塊：深層跨模態特征關聯

為進一步減少模態差異，DSSF 模塊通過在隱藏狀態空間中建模跨模態目標相關性，實現深層特征融合。其核心是利用門控機制構建雙向信息交互，具體步驟如下：

在這里插入圖片描述

隱藏狀態投影：
首先通過無門控的 VSS 塊 $P_{\text{in}}(\cdot)$ 將淺層融合特征 $\tilde{F}_{R_i}$ 和 $\tilde{F}_{IR_i}$ 投影到隱藏狀態空間：
$y_{R_i} = P_{\text{in}}(\tilde{F}_{R_i}), \quad y_{IR_i} = P_{\text{in}}(\tilde{F}_{IR_i}) \tag{7}$
其中 $y_{R_i}$ 和 $y_{IR_i}$ 表示 RGB 和 IR 分支的隱藏狀態特征。
門控參數生成：
同時，通過雙流門控操作生成門控參數 $z_{R_i}$ 和 $z_{IR_i}$ ，用于調制隱藏狀態轉移：
$z_{R_i} = f_{\theta_i}(\tilde{F}_{R_i}), \quad z_{IR_i} = g_{\omega_i}(\tilde{F}_{IR_i}) \tag{8}$
其中 $f_{\theta_i}(\cdot)$ 和 $g_{\omega_i}(\cdot)$ 分別表示 RGB 和 IR 分支的帶參數門控函數（參數為 $\theta_i$ 和 $\omega_i$ ）。
隱藏狀態交互與調制：
利用門控參數 $z_{R_i}$ 和 $z_{IR_i}$ 對隱藏狀態 $y_{R_i}$ 、 $y_{IR_i}$ 進行雙向調制，實現跨模態信息互補：
$y'_{R_i} = y_{R_i} \cdot z_{R_i} + z_{R_i} \cdot y_{IR_i}, \quad y'_{IR_i} = y_{IR_i} \cdot z_{IR_i} + z_{IR_i} \cdot y_{R_i} \tag{9}$
其中 $y'_{R_i}$ 和 $y'_{IR_i}$ 為交互后的隱藏狀態特征， $\cdot$ 表示逐元素乘積。式(9)通過門控機制動態調整跨模態信息的傳遞權重，增強隱藏狀態空間的關聯性。
投影回原空間與殘差連接：
將交互后的隱藏狀態 $y'_{R_i}$ 、 $y'_{IR_i}$ 通過投影操作 $P_{\text{out}}(\cdot)$ （含線性變換）映射回原始特征空間，并與淺層融合特征 $\tilde{F}_{R_i}$ 、 $\tilde{F}_{IR_i}$ 殘差連接，生成互補特征：
$\overline{F}_{R_i} = P_{\text{out}}(y'_{R_i}) + \tilde{F}_{R_i}, \quad \overline{F}_{IR_i} = P_{\text{out}}(y'_{IR_i}) + \tilde{F}_{IR_i} \tag{10}$

3.2.2.3 特征增強與融合

為進一步增強局部特征的表示能力，將原始特征 $F_{R_i}$ 、 $F_{IR_i}$ 與互補特征 $\overline{F}_{R_i}$ 、 $\overline{F}_{IR_i}$ 逐元素相加，得到增強后的局部特征：
$\hat{F}_{R_i} = F_{R_i} + \overline{F}_{R_i}, \quad \hat{F}_{IR_i} = F_{IR_i} + \overline{F}_{IR_i} \tag{11}$

在這里插入圖片描述

算法 1 Fusion-Mamba 塊（FMB）算法

2.2.3 損失函數

經過 FMB 增強的 RGB 和 IR 特征（即式(12) 中的 $\hat{F}_{R_i}$ 和 $\hat{F}_{IR_i}$ ）通過逐元素相加生成融合特征 $P_i$ ，作為 YOLOv8 頸部的輸入以提升檢測性能。總損失函數遵循經典目標檢測框架 [12,13]，定義為：
$\mathcal{L} = \lambda_{\text{coord}} \mathcal{L}_{\text{coord}} + \mathcal{L}_{\text{conf}} + \mathcal{L}_{\text{class}} \tag{13}$
其中：

$\lambda_{\text{coord}}$ 是平衡定位損失 $\mathcal{L}_{\text{coord}}$ 權重的超參數；
$\mathcal{L}_{\text{conf}}$ 為置信度損失，用于衡量預測框與真實框的匹配程度；
$\mathcal{L}_{\text{class}}$ 為分類損失，用于優化目標的類別預測。
各損失項的具體實現細節可參考 Ultralytics YOLOv8 的官方文檔 [jocher2022ultralytics]。

2.3 與基于 Transformer 的融合方法對比

現有基于 Transformer 的跨模態融合方法 [6,26] 通常采用以下流程：將 RGB 和 IR 特征展平后與卷積特征拼接，生成中間融合特征；再通過多頭交叉注意力機制完成跨模態融合。然而，這類方法存在以下局限性：

模態差異建模不足：僅依賴空間交互（如注意力權重分配），難以有效捕捉跨模態目標間的深層相關性，導致融合特征的表示一致性受限。
局部信息丟失：全局注意力機制需展平特征圖，破壞了局部空間結構，可能丟失細粒度的位置信息。

相比之下，本文提出的 FMB 塊在跨模態融合中具有顯著優勢：

局部信息保留：通過沿四個方向掃描特征（如水平、垂直、對角線等），生成四組局部塊，避免全局展平操作，在融合過程中有效保留特征的局部結構。
隱藏空間深度交互：將特征投影到隱藏狀態空間，通過雙向門控注意力機制（如 DSSF 模塊中的門控參數 $z_{R_i}$ 和 $z_{IR_i}$ ）動態調制跨模態信息傳遞，抑制冗余特征并增強互補信息的融合。
計算效率更優：Transformer 的全局注意力機制時間復雜度為 $O(N^2)$ （ $N$ 為序列長度），而 FMB 基于 Mamba 的狀態空間模型，時間復雜度僅為 $O (N)$ 。實驗驗證表明，在相同檢測模型架構下，將基于 Transformer 的融合模塊替換為 FMB 塊，單張圖像的推理時間可節省 7-19ms（詳見實驗部分）。

綜上，FMB 通過局部信息保留、隱藏空間深度交互及高效計算機制，在減少跨模態差異的同時提升了融合效率，優于傳統基于 Transformer 的融合方法。

3. 實驗

3.1 實驗設置

3.1.1 數據集

實驗在三個廣泛使用的可見光-紅外（RGB-IR）基準數據集上進行評估，覆蓋低光、多場景及晝夜環境，具體信息如下：

LLVIP：低光環境下的行人檢測數據集，包含15,488對對齊的RGB-IR圖像。數據采集于夜間低光照條件，聚焦行人目標檢測。遵循官方劃分，使用12,025對圖像訓練，3,463對測試。
M3FD：多模態多場景數據集，包含4,200對對齊的RGB-IR圖像，覆蓋不同光照（如強光、弱光）、季節（春、夏、秋、冬）和天氣（晴、雨、霧）場景。數據涵蓋自動駕駛和道路監控中常見的6個類別（行人、車輛、自行車等）。由于無官方劃分，采用文獻[18]的訓練/測試分割。
FLIR：晝夜場景數據集，包含5個類別（人、汽車、自行車、狗、其他車輛）。遵循文獻[38]，使用FLIR-Aligned子集，其中4,129對訓練，1,013對測試。

3.1.2 評估指標

采用目標檢測領域最常用的兩個指標：

mAP??：IoU閾值為0.50時的平均精度（Average Precision），反映模型對目標定位和分類的基礎能力；
mAP：IoU閾值在0.50到0.95（步長0.05）范圍內的平均精度，綜合評估模型在不同重疊度下的魯棒性。

此外，報告在A800 GPU上對輸入尺寸為640×640的圖像進行5次運行評估的平均推理時間（單位：ms），衡量模型的計算效率。

3.1.3 實現細節

所有實驗基于雙流框架[6]，在單張A800 GPU上完成。默認使用YOLOv5-l或YOLOv8-l作為主干網絡（Backbone），頸部（Neck）和頭部（Head）結構與對應YOLO版本保持一致。訓練超參數設置如下：

批量大小（Batch Size）：4；
優化器：SGD，動量（Momentum）0.9，權重衰減（Weight Decay）0.001；
輸入尺寸：640×640；
訓練輪次（Epochs）：150；
初始學習率（Initial LR）：0.01；
Fusion-Mamba模塊參數：SSCS模塊數量1，DSSF模塊數量8；
定位損失權重： $\lambda_{\text{coord}} = 7.5$ （其他超參數與YOLOv8默認配置一致）。

3.2 與現有最優方法的對比

為驗證Fusion-Mamba的有效性，我們在LLVIP數據集上與兩類方法對比：單模態檢測方法（僅RGB或僅IR）和多光譜融合方法（同時利用RGB-IR特征）。實驗結果如表1所示（此處假設表1為對比數據）。

在這里插入圖片描述

3.2.1 LLVIP數據集

LLVIP作為低光行人檢測數據集，單模態檢測中IR模態因對光照不敏感，性能普遍優于RGB模態（如僅IR的Cascade R-CNN mAP為58.4%）。融合方法通過跨模態信息互補，理論上應優于單模態檢測。

與單模態方法對比：基于ResNet50主干的RSDet（融合方法）在LLVIP上mAP為62.9%，較僅IR的Cascade R-CNN（58.4%）提升4.5%；而僅IR的簡單YOLOv5框架（無融合）已達到61.9% mAP，顯著優于部分融合方法（如DIVFusion僅9.9% mAP），說明低質量融合可能破壞IR模態的固有優勢。
與多光譜融合方法對比：在相同YOLOv5主干下，Fusion-Mamba的mAP為62.8%（較僅IR的YOLOv5提升0.9%），較RSDet（61.3%）提升1.5%。核心優勢源于SSCS模塊的淺層通道交換（增強跨模態信息交互）和DSSF模塊的深層門控融合（抑制冗余特征并捕捉互補信息），有效減少了模態差異，提升了融合特征的表示一致性。
與YOLOv8主干對比：基于YOLOv8-l的Fusion-Mamba進一步優化了性能，達到mAP??=97.0%、mAP=64.3%，為當前LLVIP上的最優結果。

3.2.2 M3FD 數據集

我們將我們的方法與 7 種基于 YOLOv5 的現有最優檢測器和 1 種基于 YOLOv7 的現有最優檢測器進行比較。如表 2 所示，與基于相同 YOLOv5 主干的現有最優方法相比，我們的 Fusion-Mamba 在所有類別上使用 mAP??和 mAP 指標均表現最佳；基于 YOLOv8 主干的方法在 People、Bus、Motorcycle 和 Truck 類別上實現了新的現有最優結果，同時 mAP??和 mAP 指標進一步提升了 3% 和 4.4%。此外，盡管 YOLOv5 的特征表示能力低于 YOLOv7，我們使用 YOLOv5 主干的方法仍比基于 YOLOv7 的 SuperFusion 高出 1.5% mAP 和 mAP??，這得益于我們 FMB 的有效性，提升了跨模態特征的固有互補性。

在這里插入圖片描述

3.2.3 FLIR-Aligned 數據集

如表 3 所示，Fusion-Mamba 在 Aligned-FLIR 數據集上也表現最佳。與基于雙流 YOLOv5 主干的 CrossFormer 相比，我們基于 YOLOv8 和 YOLOv5 的方法在 mAP??上分別超越它們 5.6% 和 5%，在 mAP 上分別超越 4.9% 和 2.3%。我們還比 RSDet 高出 3.8% mAP??和 5.6% mAP。在速度方面，我們使用 YOLOv5 的方法實現了最快速度，與基于 Transformer 的 CFT 和 CrossFormer 方法相比，一對圖像的檢測分別節省 7ms 和 19ms。在參數方面，我們基于 YOLOv5 的方法比 CrossFormer 方法節省約 100M 參數。盡管我們基于 YOLOv8 的方法比 YOLOv5 增加了約 40M 參數，但 mAP 顯著提升了 2.6%。該結果表明，我們基于隱藏空間建模的方法更好地整合了不同模態之間的特征，抑制了模態差異，以最佳的性能和計算成本權衡增強了融合特征的表示能力。

在這里插入圖片描述

3.2.4 熱力圖可視化

為直觀展示我們模型的高性能，我們從三個實驗數據集中各隨機選擇一對圖像，可視化 P?熱力圖，并與其他融合方法進行比較。如圖 5 所示，與其他方法相比，我們的模型更聚焦于目標，而非分散或聚焦于無關部分。更多示例見補充材料。我們還在補充材料中可視化了目標檢測結果，以評估我們方法的有效性。

在這里插入圖片描述

3.3 消融實驗

我們使用 FLIR-Aligned 數據集進行消融實驗，以分別驗證 SSCS 和 DSSF 模塊的有效性，并進一步探索 DSSF 模塊數量和位置的影響。特別地，我們還評估了 DSSF 模塊雙向注意力的效果。所有實驗均基于 YOLOv8 主干進行。

3.3.1 SSCS 和 DSSF 模塊的影響

FMB 中移除 SSCS 和 DSSF 的結果匯總于表 4。
在這里插入圖片描述

移除 SSCS 模塊后（表 4 第二行），檢測器性能在 mAP??和 mAP 上分別下降 2% 和 1.1%。原因在于，沒有兩模態特征的初始交換和淺層映射融合，在后續深層融合中特征差異未得到有效減少。同時，沒有 DSSF（表 4 第三行），僅淺層融合交互無法在特征融合過程中有效抑制冗余特征并激活有效特征，導致檢測器性能在 mAP??和 mAP 上分別下降 2.5% 和 2.4%。同時移除 SSCS 和 DSSF，直接通過兩局部模態特征相加獲得融合特征（表 4 第四行），其性能在 mAP??和 mAP 上分別顯著下降 4.8% 和 7.6%。這些結果表明，FMB 的這兩個組件對跨模態目標檢測有效。

3.3.2 FMB 位置的影響。

遵循 [6,14] 的工作，我們也設置三個 FMB 用于特征融合。在此，我們進一步探索 FMB 位置的影響，即應在哪些階段添加 FMB。我們選擇三組多級特征：{P?, P?, P?}、{P?, P?, P?} 和 {P?, P?, P?} 進行消融實驗，其中 P?是使用 FMB 在第 i 階段的融合特征。如表 5 所示，位置 {P?, P?, P?} 在性能和計算復雜度之間實現了最佳權衡，因此我們默認選擇此位置進行實驗。

在這里插入圖片描述

表 5. FLIR-Aligned 數據集上 FMB 位置的影響。

3.3.3 DSSF 模塊數量的影響。

我們已在表 4 中驗證了 DSSF 的有效性，在此進一步評估 DSSF 模塊數量的影響，結果匯總于表 6。

在這里插入圖片描述

我們選擇四種 DSSF 數量（即 2、4、8、16），并保持其他模型設置與上述實驗一致。可以看出，模塊數量設置為 8 時實現最佳性能，8 個 DSSF 模塊將達到飽和，增加數量會導致互補特征漂移，從而降低融合性能。

3.3.4 DSSF 模塊雙向注意力的影響

在這里插入圖片描述

為進一步探索我們門控機制中 DSSF 模塊雙向注意力的有效性，我們分別移除 RGB 分支中的 IR 注意力（即式 9 中的 z_{IR?}?y_{R?}）、IR 分支中的 RGB 注意力（即式 10 中的 z_{IR?}?y_{R?}）以及雙向注意力。結果如表 7 所示。移除 IR 注意力或 RGB 注意力后，由于減少了兩特征間的注意力交互，mAP??分別下降 1.6% 或 1.1%；當移除雙向注意力時，DSSF 模塊變為 VSS 塊的堆疊，mAP??下降 2%。值得注意的是，IR 和 RGB 注意力分支與其他分支共享權重，與移除雙向注意力相比，這相當于僅添加激活函數和特征加法操作。因此，雙向注意力的使用對模型參數和運行時間沒有顯著影響，但顯著提升了檢測性能。

4. 結論

本文提出了一種新穎的 Fusion-Mamba 方法，通過精心設計的 SSCS 模塊和 DSSF 模塊實現多模態特征融合。具體而言，SSCS 交換紅外和可見光通道特征以實現淺層特征融合；隨后，DSSF 進一步設計用于在基于 Mamba 的隱藏狀態空間中實現更深層的多模態特征交互，門控注意力用于抑制冗余特征以增強特征融合的有效性。在三個公共 RGB-IR 數據集上進行的大量實驗表明，我們的方法實現了現有最優性能，且推理效率高于 Transformer。我們的工作證實了 Mamba 在跨模態融合中的潛力，相信我們的工作能為 Mamba 在跨模態任務中的應用激發更多研究。