DeepInteraction++基于多模態交互的自動駕駛感知與規劃框架
1 論文核心概念
DeepInteraction++ 提出了一種名為"模態交互"(modality interaction)的新策略,用于自動駕駛中的多模態(LiDAR 和相機)感知任務。其核心思想是不將多模態信息融合為單一表示,而是分別保持兩種模態特有的表示,并通過編碼器中的"表示交互"(representational interaction)和解碼器中的"預測交互"(predictive interaction)實現雙向信息交換與互補。這種方法避免了傳統融合方法中因信息壓縮而丟失模態特有優勢的問題,顯著提升了3D目標檢測和端到端自動駕駛任務的性能。
2 論文名詞解釋
多模態融合(Multi-modal Fusion) 傳統方法,將LiDAR點云和相機圖像的特征合并為一個統一的表示,用于后續檢測或預測。
模態交互(Modality Interaction) 本文提出的策略,保持兩種模態的獨立表示,在編碼器和解碼器中分別進行雙向信息交換。
表示交互(Representational Interaction) 在編碼器中進行的跨模態特征增強,包括圖像到LiDAR和LiDAR到圖像的雙向注意力機制。