無需訓練的具身導航探索！TRAVEL：零樣本視覺語言導航中的檢索與對齊

作者： Navid Rajabi, Jana Kosecka
單位：喬治梅森大學計算機科學系
論文標題：TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation
論文鏈接：https://arxiv.org/pdf/2502.07306

主要貢獻

提出了基于模塊化方法的Vision-Language Navigation（VLN）任務解決方案，該方法在零樣本設置下利用最先進的大型語言模型（LLMs）和視覺語言模型（VLMs），將問題分解為四個子模塊，通過提取導航指令中的地標和訪問順序，檢索最后地標的候選位置，生成路徑假設，并計算與指令的對齊分數，最終評估路徑保真度。
在復雜的R2RHabitat指令數據集上，與使用聯合語義地圖的方法（如VLMaps）相比，展示了優越的性能，并詳細量化了視覺定位對導航性能的影響。

研究背景

VLN任務：要求控制智能體（在模擬環境或現實世界中）根據自然語言指令在環境中導航。例如，讓智能體按照“在走廊左轉，去廚房，在水槽邊停下”這樣的指令行動。該任務需要解析語言輸入，將短語與視覺概念（場景、地標、動作等）以及時間線索（如“在……之前”）進行對應。
現有方法：
- 端到端方法：采用序列到序列模型，輸入語言指令和視覺信息，輸出低級導航動作序列。訓練時使用強化學習和模仿學習的混合方法，但在新環境和復雜指令下性能受限，且需要大量高質量訓練樣本和計算資源。
- 基于LLM和VLM的模塊化方法：將LLMs、VLMs與傳統地圖表示和機器人導航堆棧相結合。例如，CLIPNav利用CLIP VLMs和GPT-3進行指令分解和方向判斷，但依賴于環境的可導航圖，且CLIP在關聯地標與圖像方面能力有限；VLMaps構建聯合視覺語言語義占用圖，但指令簡單，且需要額外數據集進行LLMs微調。

研究方法

整體框架：該方法包含八個主要步驟，基于R2R-Habitat數據集的復雜指令，利用預訓練的LLMs和VLMs進行零樣本導航。

步驟詳解：
- 步驟1：使用數據集的訓練集構建環境的拓撲地圖，將每個節點表示為360°RGB全景圖，邊的權重為1，確保訓練集中每個真實路徑節點在拓撲地圖中有對應節點。
- 步驟2：使用預訓練的LLM（LLama-3.1-8B-Instruct）從自然語言指令中提取地標序列，并識別最后地標短語，搜索最后地標的候選目標節點。
- 步驟3：利用最先進的VLM（SigLIP）進行目標/最后地標識別，通過計算全景圖與地標文本描述的余弦相似度來完成。與VLMaps方法相比，在127個地標上的平均Precision@10從34.4%提升到70.0%，優勢在于使用SigLIP代替CLIP進行地標識別。
- 步驟4：根據前k個目標位置，從起始位置到目標節點計算BFS最短路徑，得到k條路徑假設。
- 步驟5（方法一）：將路徑與指令對齊問題視為序列到序列對齊問題，構建全景圖序列與地標短語序列的矩陣A，使用VLM（GPT-4o）獲取地標在全景圖中的二值定位分數，然后通過動態規劃算法（Pano2Land）計算路徑的歸一化對齊分數，類似于最長公共子序列問題。
- 步驟6（方法二）：直接提示GPT-4o根據全景圖序列、原始自然語言指令和提取的地標短語序列，對路徑進行1到5的評分，跳過了單獨地標定位和Pano2Land算法計算對齊分數的步驟，但性能略低于方法一，且結果可解釋性較差。
- 步驟7：對于每種方法的輸出，計算真實路徑與最佳對齊路徑之間的歸一化動態時間規整（nDTW）度量，以評估路徑保真度，nDTW比成功率（SR）更符合任務目標，因為SR僅考慮智能體最后位置與真實目標的距離，而不考慮智能體按順序訪問的中間地標。

實驗

實驗設置：在R2R-Habitat數據集的五個環境中進行實驗，使用上述兩種方法對路徑進行排名和選擇。

實驗結果：
- 路徑假設生成準確率：平均準確率為65.72%，表明在大多數情況下，真實路徑或高度相似的路徑能夠被選為路徑假設之一。
- nDTW分數：方法一的平均nDTW分數為88.92%，方法二為88.34%，且方法一的成功率（nDTW分數高于87%）更高，說明方法一在路徑與指令對齊方面表現更好。
- 標準差：兩種方法的標準差均較小，表明結果具有一定的穩定性。

討論與未來工作

局限性：
- 該方法僅適用于之前探索過的環境，并且需要拓撲地圖。
- 當自然語言指令不是基于地標，而是包含大量空間和時間短語、動作短語以及絕對距離時，該方法可能不適用。
- 由于管道是模塊化的，不是端到端訓練的，因此早期階段（如LLM地標提取和VLM檢索）的缺點會傳播到后續階段的Pano2Land對齊或GPT-4o排名中，路徑假設的質量最終決定了GPT-4o或其他VLM計算的排名上限。
未來工作：可以通過對現有的VLMs在導航任務上進行微調，以及將智能體的探索和導航部分無縫整合，使其能夠在以前未見過的環境中部署，從而實現性能提升。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/77431.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/77431.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/77431.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！