同濟大學多模態感知具身導航全面綜述

作者： I-Tak Ieong, Hao Tang
單位：同濟大學計算機學院，北京大學計算機學院
論文標題： Multimodal Perception for Goal-oriented Navigation: A Survey
論文鏈接：https://arxiv.org/pdf/2504.15643

主要貢獻

基于推理域的分類：首次將目標導向導航方法按照推理域進行分類，涵蓋了多種任務范式。這種分類方法揭示了不同任務之間的共性和差異，為理解導航方法提供了統一的框架。
計算模式的識別：識別了超越特定導航任務的共同計算模式，為具身推理的基本原理提供了見解。這些模式包括顯式地圖構建、隱式表示學習、圖結構推理等。
推理域的優勢和局限性比較：系統地比較了不同推理域在各種導航場景中的優勢和局限性。例如，顯式地圖方法在路徑規劃中表現優異，但計算成本較高；而隱式表示方法則在計算效率上更具優勢，但在復雜環境中的泛化能力可能受限。
多模態集成趨勢：突出了多模態感知的集成挑戰和機遇，特別是視覺、語言和音頻處理的融合，以增強導航能力。文章討論了如何通過多模態融合來提高導航的魯棒性和適應性。

研究背景

目標導向導航是自主系統中的一個基本挑戰，要求智能體能夠在復雜環境中導航以到達指定目標。
過去十年中，導航技術從簡單的幾何路徑規劃發展到復雜的多模態推理，整合了視覺、語言和音頻信息。
隨著領域的發展，成功的導航方法越來越多地將低級感知與高級語義理解相結合，通過不同的計算框架實現。

基礎概念

歷史發展

導航任務的歷史發展：從簡單的點目標導航（PointNav）到更復雜的多模態導航范式，導航任務的復雜性不斷增加。例如，ObjectNav要求智能體找到特定對象，ImageNav要求智能體導航到與給定圖像匹配的位置，AudioGoalNav要求智能體導航到聲音源。
任務形式化定義：導航任務被形式化為一個決策過程，智能體需要在未知環境中通過一系列動作到達指定目標。數學框架適用于所有導航模態，包括環境（E）、狀態空間（S）、觀測空間（O）、動作空間（A）和目標空間（G）。

導航數據集

數據集規模和覆蓋范圍：Habitat-Matterport 3D (HM3D) 數據集是最大的集合，包含1000個建筑規模的重建，覆蓋112.5k平方米的可導航區域。其他數據集如Gibson和Matterport3D在規模和復雜性上有所不同。
導航復雜性和場景雜亂程度：Matterport3D的導航復雜性最高，而RoboTHOR和ScanNet等房間規模的數據集則相對簡單。
視覺保真度和重建質量：HM3D在視覺保真度上表現最佳，而ScanNet在重建缺陷方面表現最差。

評估指標

成功率（SR）：智能體成功到達目標的百分比。
路徑長度加權成功率（SPL）：結合成功率和路徑效率的指標。
距離相關指標：如目標距離（DTG）和導航誤差（NE）。
多目標導航指標：如進度（PR）和路徑長度加權進度（PPL）。
音頻導航特定指標：如聲音導航效率（SNE）和動態SPL（DSPL）。

點目標導航

任務描述

任務描述：智能體需要根據相對坐標導航到目標位置，沒有環境布局的先驗知識。主要挑戰是使用以自我為中心的感官輸入（主要是視覺數據，如RGBD、GPS/指南針）來確定智能體的位置，估計距離并規劃路徑。

潛在地圖推理域

方法：構建和維護環境的顯式表示，如占用網格或語義地圖，以支持路徑規劃。例如，ANM通過神經SLAM構建地圖，LSP-UNet通過U-Net架構估計前沿屬性，UPEN通過集成學習生成不確定性地圖。
關鍵方法：
- ANM：通過神經SLAM模塊構建地圖，結合全局策略進行探索，局部策略進行短期動作執行。
- LSP-UNet：使用U-Net架構估計前沿屬性，通過Bellman方程進行路徑規劃。
- UPEN：通過集成學習生成不確定性地圖，引導智能體探索信息豐富的區域。

隱式表示學習推理域

方法：不構建顯式地圖，而是通過神經網絡參數隱式編碼空間理解。例如，DD-PPO通過分布式訓練提高可擴展性，IMN-RPG結合自我監督的視覺里程計和強化學習，無需顯式映射。
關鍵方法：
- DD-PPO：通過分布式訓練提高可擴展性，解決了高維輸入的收斂問題。
- IMN-RPG：結合自我監督的視覺里程計和強化學習，無需顯式映射，通過自我運動預測維持智能體的中心位置估計。

目標對象導航

任務描述

任務描述：智能體需要在未知環境中找到并導航到特定對象。與PointNav不同，ObjectNav需要語義理解，智能體必須根據語義線索推斷對象的位置。

模塊化方法

方法：將ObjectNav任務分解為不同的模塊，如映射、策略和路徑規劃。例如，Sem-EXP構建語義地圖，PEANUT預測目標概率，L2M主動學習預測語義地圖。
關鍵方法：
- Sem-EXP：通過不同iable投影構建語義地圖，使用Mask R-CNN進行目標檢測，結合目標導向的語義策略進行長期導航規劃。
- PEANUT：使用PSPNet生成語義分割掩碼，投影到頂視圖地圖上，預測目標概率。

端到端方法

方法：直接從原始感官輸入學習導航策略，無需顯式中間表示。例如，VTNet利用空間感知描述符，DRL方法結合卷積層與LSTM進行序列處理。
關鍵方法：
- VTNet：利用空間感知描述符，結合DETR進行目標檢測，通過預訓練方案將視覺特征與導航信號關聯。
- DRL：結合卷積層與LSTM進行序列處理，通過PAAC算法進行訓練。

零樣本方法

方法：利用預訓練的視覺語言模型實現零樣本泛化，如EmbCLIP、ZSEL等。這些方法通過統一的嵌入空間建立視覺觀察和語言描述之間的語義聯系。
關鍵方法：
- EmbCLIP：使用凍結的CLIP ResNet-50嵌入，通過GRU進行有效的動作預測。
- ZSEL：引入模塊化遷移學習框架，結合視圖對齊優化和任務增強技術，建立聯合目標嵌入空間。

圖像目標導航

任務描述

任務描述：智能體需要根據參考圖像導航到目標位置，需要視覺推理能力來建立當前觀察和目標圖像之間的對應關系。

潛在地圖推理域

方法：構建顯式環境表示以支持目標匹配和路徑規劃。例如，MANav通過自監督狀態嵌入網絡增強導航，Mod-IIN結合前沿探索和目標實例再識別。
關鍵方法：
- MANav：通過自監督狀態嵌入網絡和情節記憶機制增強導航。
- Mod-IIN：結合前沿探索和目標實例再識別，使用SuperPoint和SuperGlue進行目標匹配。

隱式表示推理域

方法：不依賴顯式地圖，通過神經網絡參數隱式編碼環境理解。例如，EmerNav通過估計觀察和目標圖像之間的匹配特征來直接導航。
關鍵方法：
- EmerNav：通過估計觀察和目標圖像之間的匹配特征來直接導航。
- SLING：結合神經關鍵點描述符和透視-n-點算法，動態調整探索和利用策略。

圖推理域

方法：將環境表示為關系結構，通過圖遍歷算法進行規劃。例如，TSGM實現了一個雙記憶系統，包括一個拓撲圖和語義特征。
關鍵方法：
- TSGM：實現了一個雙記憶系統，包括一個拓撲圖和語義特征，通過層次化決策過程進行規劃。

擴散模型推理域

方法：使用擴散模型生成導航策略，如NOMAD，它通過目標掩碼進行條件推理，生成探索和目標導向行為的統一策略。
關鍵方法：
- NOMAD：通過目標掩碼進行條件推理，生成探索和目標導向行為的統一策略。

音頻目標導航

任務描述

任務描述：智能體需要根據聲音源導航到目標位置，需要整合空間音頻處理、視覺感知和路徑規劃。

潛在地圖推理域

方法：構建顯式空間-聲學表示以指導導航。例如，VAR結合視覺感知映射和聲音定位，AV-WaN構建空間音頻強度圖。
關鍵方法：
- VAR：結合視覺感知映射和聲音定位，通過STFT頻譜圖處理聲音信號。
- AV-WaN：構建空間音頻強度圖，結合幾何表示進行路徑規劃。

隱式表示學習推理域

方法：不構建顯式地圖，而是通過神經網絡參數編碼空間-聲學理解。例如，SAVi處理靜態聲源導航，ORAN處理動態聲源導航。
關鍵方法：
- SAVi：處理靜態聲源導航，通過Transformer架構處理視覺和雙耳音頻輸入。
- ORAN：處理動態聲源導航，通過深度幾何地圖和雙耳音頻輸入進行路徑規劃。

嵌入式推理域

方法：利用預訓練的視覺和音頻模型建立語義連接。例如，AVLMaps通過自然語言理解擴展音頻-視覺導航。
關鍵方法：
- AVLMaps：通過自然語言理解擴展音頻-視覺導航，結合視覺、音頻和語言模態。

語言推理域

方法：利用大型語言模型增強音頻-視覺導航，如RILA，它通過語言模型進行環境推理。
關鍵方法：
- RILA：通過語言模型進行環境推理，結合視覺和音頻輸入進行路徑規劃。

討論

跨任務見解

潛在地圖適應性：潛在地圖方法在不同導航任務中表現出不同的復雜性和信息內容。例如，在PointNav中，地圖主要編碼幾何信息；在ObjectNav中，地圖整合了語義對象標簽和概率分布。
隱式表示的專門化：隱式表示方法在不同任務中表現出專門化，但共享核心架構元素。例如，在PointNav中，重點是視覺里程計和姿態估計；在ObjectNav中，重點是對象關系建模。
圖的語義變化：圖方法在不同任務中表現出不同的節點語義和關系結構。例如，在ObjectNav中，圖通常表示對象-場景關系；在ImageNav中，圖表示視覺上不同的位置。
語言集成策略：語言推理域在不同導航范式中表現出不同的集成深度。例如，在ObjectNav中，語言模型用于推理對象關系和空間布局；在AudioGoalNav中，語言模型用于推理聲音源的語義屬性。
嵌入平衡和適應性：嵌入式方法在不同任務中表現出不同的預訓練知識和任務特定適應性平衡。例如，在ObjectNav中，直接利用CLIP的語義知識；在AudioGoalNav中，需要仔細整合AudioCLIP嵌入與空間推理。
擴散模型的環境合成：擴散模型在需要語義預測未觀察區域的任務中表現出特別的潛力。例如，在ObjectNav中，擴散模型用于生成未觀察區域的語義地圖。

當前挑戰

模擬到現實的轉移：模擬環境與現實世界之間存在顯著差異，尤其是在物理動態、傳感器噪聲特性和聲學屬性方面。雖然有一些方法開始解決聲學模擬到現實的差距，但全面的解決方案仍然難以捉摸。
多模態表示和集成：雖然在多模態集成方面取得了顯著進展，但最優融合策略仍然是一個開放性問題。當前的方法通常優先考慮一種感官模態，而其他模態則起到輔助作用。例如，在AudioGoalNav中，音頻通常提供方向線索，而視覺數據主要用于障礙物避免。

未來工作

人機交互：結合自動化泛化和戰略性人類互動，開發能夠識別自身局限性并請求幫助的系統。例如，通過人類指導提供補充支持，結合語言機制進行通信、潛在地圖進行空間表示和擴散模型進行環境補全。
多模態表示學習：開發真正平衡集成的多模態表示學習方法，通過共享標記化方法和跨模態注意力機制動態加權模態。例如，開發專門針對具身導航任務的多模態基礎模型，建立統一的環境理解框架。