摘要
問題一:自模態注意力優化單元和跨模態加權優化單元什么意思?
1 優化中間件結構的作用
位置:位于編碼器和解碼器之間
輸入:編碼器提取的RGB特征,深度特征以及RGB-D特征。
輸出:經過優化的RGB,深度,和RGB-D特征,這些特征被傳遞到解碼器中進行進一步處理。
目的:通過優化中間件結構,模型能夠更好地捕捉單模態和跨模態的特征信息,減少冗余,增強顯著目標的判別性。
2?自模態注意力優化單元(smAR)
功能:?smAR單元用于優化單模態特征(即RGB特征、深度特征和RGB-D特征),減少特征中的冗余信息,并強調空間和通道維度中的重要特征。
實現方式:
(1)通過**空間注意力(Spatial Attention, SA)和通道注意力(Channel Attention, CA)**生成一個3D注意力張量。
(2)這個3D注意力張量用于對輸入特征進行加權,從而突出重要區域并抑制背景噪聲。
公式:
輸出:經過優化的單模態特征?
3?跨模態加權優化單元(cmWR)
功能:cmWR單元用于進一步優化多模態特征,通過捕捉RGB、深度和RGB-D特征之間的全局上下文依賴關系,增強跨模態信息的互補性。
實現方式:
(1)?首先,將RGB、深度和RGB-D特征映射到一個統一的特征空間。
(2)然后,計算RGB和深度特征之間的相關性(M1?)以及RGB-D特征自身的相關性(M2?)。
(3)最后,通過加權融合這些相關性信息,生成跨模態的全局依賴權重,用于優化輸入特征。
公式:
輸出:經過優化的多模態特征?
4 整體流程
輸入:編碼器提取的RGB特征、深度特征和RGB-D特征。
步驟:
? ? ? ? (1)自模態優化:通過smAR單元對RGB、深度和RGB-D特征分別進行優化,減少冗余并突出重要信息。
? ? ? ? (2)跨模態優化:通過cmWR單元進一步優化多模態特征,捕捉RGB、深度和RGB-D特征之間的全局上下文依賴關系。
輸出:優化后的RGB、深度和RGB-D特征,這些特征將被傳遞到解碼器中進行顯著目標預測。
一 介紹
二 有關工作
三 提出的方法
圖3. 所提出的CIR-Net的概覽圖。從主干網絡中提取的RGB特征和深度特征分別表示為,其中r和d分別代表RGB分支和深度分支,
表示特征層級的索引。在特征編碼器中,我們還使用漸進式注意力引導融合(PAI)單元來生成跨模態的RGB-D編碼器特征
。然后,將頂層的RGB、深度和RGB-D特征嵌入到由自模態注意力優化(smAR)單元和跨模態加權優化(cmWR)單元組成的優化中間件中,以自模態和跨模態的方式逐步優化多模態編碼器特征。最后,RGB分支和解碼器特征以及深度分支的解碼器特征流入相應的RGB-D分支,以便在特征解碼器階段通過重要性門控融合(IGF)單元學習更全面的交互特征。請注意,所有三個分支都會輸出一個相應的顯著目標預測圖,并且我們將RGB-D分支的輸出作為最終結果。
一 整體結構
1 輸入圖像:左側有多個輸入圖像,包括 ?RGB圖像?和 ?深度圖像。
2 處理模塊:包括 ?Progressive Attention guided Integration (PAI) unit、Refinement Middleware?和 ?Up-sampling operation?等模塊。
3 輸出圖像:右側展示了處理后的融合圖像。
二 詳細模塊解釋
1 輸入圖像:RGB圖像:提供顏色和紋理信息。深度圖像:提供幾何結構信息。
2?Progressive Attention guided Integration (PAI) unit(漸進式注意力機制?)
(1)功能:逐步引導注意力集成,增強特征融合效果。
(2)操作:通過注意力機制,逐步融合RGB和深度特征。
(3)輸出:生成融合后的特征圖。
3?Refinement Middleware(中間件模塊)
(1)Self-modality Attention Refinement (smAR)(自模態注意力精煉):對單一模態的特征進行優化,增強特征表示。
在 RGB 和 Depth 各自的分支 內部,smAR 模塊通過注意力機制 增強自身模態的信息表達,去除不必要的噪聲,提高模態內部的特征質量。
(2)?Cross-modality Weighting Refinement (cmWR)(跨模態加權精煉):對跨模態特征進行加權優化,增強模態間協同作用。
cmWR 進一步在 RGB 和 Depth 之間調整權重,增強有用的信息,削弱冗余信息,使兩種模態的信息更加互補。
(3)Importance Gated Fusion (IGF)(重要性門控融合):通過重要性門控機制,動態融合RGB和深度特征。
4. Up-sampling operation(向上采樣操作)
(1)功能:通過反卷積或插值上采樣特征圖,提升圖像分辨率。
(2)操作:逐步將低分辨率特征圖上采樣為高分辨率特征圖。
5. Skip-connection(跳躍連接)
(1)功能:通過跳躍連接將底層特征與高層特征結合,保留細節信息。
(2)作用:防止信息丟失,增強特征傳遞。
6. Spatial attention(空間注意力)
?(1)功能:通過空間注意力機制,增強重要區域的響應。
(2)?作用:提升模型對顯著區域的理解能力。
三 信息流動
輸入圖像:RGB圖像和深度圖像分別輸入到系統中。
Progressive Attention guided Integration (PAI) unit:逐步融合RGB和深度特征,生成融合后的特征圖。
Refinement Middleware:通過smAR、cmWR和IGF模塊優化特征表示。
?Up-sampling operation:逐步上采樣特征圖,提升圖像分辨率。
Skip-connection?和 ?Spatial attention:通過跳躍連接和空間注意力機制,增強特征傳遞和注意力機制。
輸出圖像:生成處理后的融合圖像。
四 總結
框架圖的核心流程:
- ?輸入圖像:接收RGB圖像和深度圖像。
- ?Progressive Attention guided Integration (PAI) unit:逐步融合RGB和深度特征。
- ?Refinement Middleware:通過smAR、cmWR和IGF模塊優化特征表示。
- ?Up-sampling operation:逐步上采樣特征圖,提升圖像分辨率。
- ?Skip-connection?和 ?Spatial attention:增強特征傳遞和注意力機制。
- ?輸出圖像:生成處理后的融合圖像。
作用:
- 實現RGB和深度模態的高效特征融合。
- 通過注意力機制和優化模塊,提升特征表示質量。
- 生成高質量的融合圖像,用于后續任務(如顯著性檢測、目標檢測)。
圖4。在改進中間軟件結構中,自模式注意力完善(SMAR)單元和交叉模式加權改進(CMWR)單元的插圖。