-
作者: Zehao Wang, Mingxiao Li, Minye Wu, Marie-Francine Moens, Tinne Tuytelaars
-
單位:魯汶大學電氣工程系,魯汶大學計算機科學系
-
論文標題: Instruction-guided path planning with 3D semantic maps for vision-language navigation
-
出版信息:Neurocomputing 625 (2025) 129457
-
論文鏈接:https://www.sciencedirect.com/science/article/abs/pii/S0925231225001298?via%3Dihub
主要貢獻
-
引入高分辨率3D語義地圖:提出使用高分辨率的3D語義地圖作為環境表示,相比傳統的2D地圖或拓撲地圖,能夠保留更多環境信息,為導航提供更豐富的語義和空間上下文。
-
提出模塊化導航框架(iPPD):設計了一種模塊化的導航方法,包含路徑提議和路徑評分兩個階段。通過指令約束的路徑提議算法生成候選路徑,并利用基于Transformer的評分模型選擇最佳路徑,有效利用全局信息,避免了局部決策的誤差累積。
-
創新的路徑特征編碼方案:提出了一種針對3D語義地圖的路徑特征編碼方法,通過“對象羅盤”感知局部環境,并結合PointNet和Transformer模型對路徑特征進行編碼,增強了路徑與語言指令的對齊能力。
-
全局路徑規劃方法:這是首個基于3D語義地圖的全局路徑規劃方法,通過預探索階段構建的全局地圖進行路徑規劃,顯著提升了語言引導導航任務的性能,減少了訓練需求,并展示了其在實際應用中的潛力。
背景知識
-
視覺語言導航(VLN)的目標是讓機器人能夠理解人類自然語言指令,并在環境中成功導航以執行這些指令。這需要整合語言理解、視覺感知和決策能力。
-
傳統的 VLN 方法大多基于離散環境假設,即導航位置是預先定義好的,但在現實場景中,這種假設限制了機器人的靈活性和適應性。
-
因此,研究者們開始探索連續環境中的 VLN 任務,以縮小與實際應用的差距。
研究方法
論文提出了一種名為 Instruction-aware Path Proposal and Discrimination (iPPD) 的新方法,該方法包含兩個主要階段:語義地圖構建和基于語言的路徑規劃。
1. 語義地圖構建
在預探索階段,機器人在環境中隨機行走,利用 RGBD(彩色圖像和深度圖像)傳感器收集數據,并通過預訓練的語義分割模型(Mask2Former)對每個時間步的觀察結果進行語義分割。這些分割結果被投影到 3D 點云中,并結合相機姿態信息,動態更新到全局 3D 語義地圖中。地圖的分辨率設置為 0.1 米,并通過多視圖一致性約束和最大池化操作來減少語義預測誤差。
2. 基于語言的路徑規劃
路徑規劃階段包含兩個模塊:路徑提議和路徑評分。
-
路徑提議:受經典粒子濾波算法啟發,論文提出了一種基于指令約束的路徑提議算法。該算法利用從指令中提取的稀疏動作-對象序列(如“向左轉”、“觀察沙發”)來引導粒子的運動。粒子在地圖中模擬機器人運動,生成一系列候選路徑。這些路徑隨后被編碼并評分。
-
路徑評分:論文設計了一種基于 Transformer 的語言驅動判別器,用于評估候選路徑并選擇最佳路徑作為最終結果。路徑特征編碼方案專門針對 3D 語義地圖設計,能夠將路徑上的環境信息編碼為特征表示。這些特征與語言指令對齊,以驗證路徑是否符合指令。
實驗
實驗使用了 VLN-CE 數據集,并在驗證集上進行了評估。評估指標包括歸一化動態時間彎曲(nDTW)、成功率(SR)、成功加權路徑長度(SPL)等。
關鍵結論
-
性能提升:iPPD 方法在驗證集上的表現顯著優于其他方法,尤其是在 nDTW 和 SR 指標上。例如,在驗證集的 seen 環境中,iPPD 的 nDTW 為 0.66,SR 為 0.51,而在 unseen 環境中,nDTW 為 0.63,SR 為 0.42。
-
地圖質量的影響:通過對比使用構建的語義地圖和使用真實語義地圖的模型性能,論文發現構建的語義地圖在性能上與真實地圖相當,表明其包含的語義信息足以支持導航任務。
-
路徑提議策略的影響:論文還比較了不同的路徑提議策略,包括隨機行走、考慮障礙物的提議策略等。結果表明,論文提出的策略在召回率和路徑形狀相似性之間取得了較好的平衡。
討論與未來工作
盡管 iPPD 方法在預探索環境中的 VLN 任務中表現出色,但仍有改進空間。論文指出,未來的研究方向包括:
-
提高語義地圖的精度,例如包含實例級信息。
-
探索更先進的語言模型以增強指令理解能力。
-
研究更高效的路徑規劃算法,以減少對評分模型的依賴。
-
改進地圖管理技術,以支持更大規模環境的導航。