3D語義地圖中的全局路徑規劃！iPPD：基于3D語義地圖的指令引導路徑規劃視覺語言導航

作者： Zehao Wang, Mingxiao Li, Minye Wu, Marie-Francine Moens, Tinne Tuytelaars
單位：魯汶大學電氣工程系，魯汶大學計算機科學系
論文標題： Instruction-guided path planning with 3D semantic maps for vision-language navigation
出版信息：Neurocomputing 625 (2025) 129457
論文鏈接：https://www.sciencedirect.com/science/article/abs/pii/S0925231225001298?via%3Dihub

主要貢獻

引入高分辨率3D語義地圖：提出使用高分辨率的3D語義地圖作為環境表示，相比傳統的2D地圖或拓撲地圖，能夠保留更多環境信息，為導航提供更豐富的語義和空間上下文。
提出模塊化導航框架（iPPD）：設計了一種模塊化的導航方法，包含路徑提議和路徑評分兩個階段。通過指令約束的路徑提議算法生成候選路徑，并利用基于Transformer的評分模型選擇最佳路徑，有效利用全局信息，避免了局部決策的誤差累積。
創新的路徑特征編碼方案：提出了一種針對3D語義地圖的路徑特征編碼方法，通過“對象羅盤”感知局部環境，并結合PointNet和Transformer模型對路徑特征進行編碼，增強了路徑與語言指令的對齊能力。
全局路徑規劃方法：這是首個基于3D語義地圖的全局路徑規劃方法，通過預探索階段構建的全局地圖進行路徑規劃，顯著提升了語言引導導航任務的性能，減少了訓練需求，并展示了其在實際應用中的潛力。

背景知識

視覺語言導航（VLN）的目標是讓機器人能夠理解人類自然語言指令，并在環境中成功導航以執行這些指令。這需要整合語言理解、視覺感知和決策能力。
傳統的 VLN 方法大多基于離散環境假設，即導航位置是預先定義好的，但在現實場景中，這種假設限制了機器人的靈活性和適應性。
因此，研究者們開始探索連續環境中的 VLN 任務，以縮小與實際應用的差距。

研究方法

論文提出了一種名為 Instruction-aware Path Proposal and Discrimination (iPPD) 的新方法，該方法包含兩個主要階段：語義地圖構建和基于語言的路徑規劃。

1. 語義地圖構建

在預探索階段，機器人在環境中隨機行走，利用 RGBD（彩色圖像和深度圖像）傳感器收集數據，并通過預訓練的語義分割模型（Mask2Former）對每個時間步的觀察結果進行語義分割。這些分割結果被投影到 3D 點云中，并結合相機姿態信息，動態更新到全局 3D 語義地圖中。地圖的分辨率設置為 0.1 米，并通過多視圖一致性約束和最大池化操作來減少語義預測誤差。

2. 基于語言的路徑規劃

路徑規劃階段包含兩個模塊：路徑提議和路徑評分。

路徑提議：受經典粒子濾波算法啟發，論文提出了一種基于指令約束的路徑提議算法。該算法利用從指令中提取的稀疏動作-對象序列（如“向左轉”、“觀察沙發”）來引導粒子的運動。粒子在地圖中模擬機器人運動，生成一系列候選路徑。這些路徑隨后被編碼并評分。
路徑評分：論文設計了一種基于 Transformer 的語言驅動判別器，用于評估候選路徑并選擇最佳路徑作為最終結果。路徑特征編碼方案專門針對 3D 語義地圖設計，能夠將路徑上的環境信息編碼為特征表示。這些特征與語言指令對齊，以驗證路徑是否符合指令。

實驗

實驗使用了 VLN-CE 數據集，并在驗證集上進行了評估。評估指標包括歸一化動態時間彎曲（nDTW）、成功率（SR）、成功加權路徑長度（SPL）等。

關鍵結論

性能提升：iPPD 方法在驗證集上的表現顯著優于其他方法，尤其是在 nDTW 和 SR 指標上。例如，在驗證集的 seen 環境中，iPPD 的 nDTW 為 0.66，SR 為 0.51，而在 unseen 環境中，nDTW 為 0.63，SR 為 0.42。
地圖質量的影響：通過對比使用構建的語義地圖和使用真實語義地圖的模型性能，論文發現構建的語義地圖在性能上與真實地圖相當，表明其包含的語義信息足以支持導航任務。
路徑提議策略的影響：論文還比較了不同的路徑提議策略，包括隨機行走、考慮障礙物的提議策略等。結果表明，論文提出的策略在召回率和路徑形狀相似性之間取得了較好的平衡。

討論與未來工作

盡管 iPPD 方法在預探索環境中的 VLN 任務中表現出色，但仍有改進空間。論文指出，未來的研究方向包括：

提高語義地圖的精度，例如包含實例級信息。
探索更先進的語言模型以增強指令理解能力。
研究更高效的路徑規劃算法，以減少對評分模型的依賴。
改進地圖管理技術，以支持更大規模環境的導航。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/901679.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/901679.shtml
英文地址，請注明出處：http://en.pswp.cn/news/901679.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！