-
作者: Navid Rajabi, Jana Kosecka
-
單位:喬治梅森大學計算機科學系
-
論文標題:TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation
-
論文鏈接:https://arxiv.org/pdf/2502.07306
主要貢獻
-
提出了基于模塊化方法的Vision-Language Navigation(VLN)任務解決方案,該方法在零樣本設置下利用最先進的大型語言模型(LLMs)和視覺語言模型(VLMs),將問題分解為四個子模塊,通過提取導航指令中的地標和訪問順序,檢索最后地標的候選位置,生成路徑假設,并計算與指令的對齊分數,最終評估路徑保真度。
-
在復雜的R2RHabitat指令數據集上,與使用聯合語義地圖的方法(如VLMaps)相比,展示了優越的性能,并詳細量化了視覺定位對導航性能的影響。
研究背景
-
VLN任務:要求控制智能體(在模擬環境或現實世界中)根據自然語言指令在環境中導航。例如,讓智能體按照“在走廊左轉,去廚房,在水槽邊停下”這樣的指令行動。該任務需要解析語言輸入,將短語與視覺概念(場景、地標、動作等)以及時間線索(如“在……之前”)進行對應。
- 現有方法:
-
端到端方法:采用序列到序列模型,輸入語言指令和視覺信息,輸出低級導航動作序列。訓練時使用強化學習和模仿學習的混合方法,但在新環境和復雜指令下性能受限,且需要大量高質量訓練樣本和計算資源。
-
基于LLM和VLM的模塊化方法:將LLMs、VLMs與傳統地圖表示和機器人導航堆棧相結合。例如,CLIPNav利用CLIP VLMs和GPT-3進行指令分解和方向判斷,但依賴于環境的可導航圖,且CLIP在關聯地標與圖像方面能力有限;VLMaps構建聯合視覺語言語義占用圖,但指令簡單,且需要額外數據集進行LLMs微調。
-
研究方法
-
整體框架:該方法包含八個主要步驟,基于R2R-Habitat數據集的復雜指令,利用預訓練的LLMs和VLMs進行零樣本導航。
- 步驟詳解:
-
步驟1:使用數據集的訓練集構建環境的拓撲地圖,將每個節點表示為360°RGB全景圖,邊的權重為1,確保訓練集中每個真實路徑節點在拓撲地圖中有對應節點。
-
步驟2:使用預訓練的LLM(LLama-3.1-8B-Instruct)從自然語言指令中提取地標序列,并識別最后地標短語,搜索最后地標的候選目標節點。
-
步驟3:利用最先進的VLM(SigLIP)進行目標/最后地標識別,通過計算全景圖與地標文本描述的余弦相似度來完成。與VLMaps方法相比,在127個地標上的平均Precision@10從34.4%提升到70.0%,優勢在于使用SigLIP代替CLIP進行地標識別。
-
步驟4:根據前k個目標位置,從起始位置到目標節點計算BFS最短路徑,得到k條路徑假設。
-
步驟5(方法一):將路徑與指令對齊問題視為序列到序列對齊問題,構建全景圖序列與地標短語序列的矩陣A,使用VLM(GPT-4o)獲取地標在全景圖中的二值定位分數,然后通過動態規劃算法(Pano2Land)計算路徑的歸一化對齊分數,類似于最長公共子序列問題。
-
步驟6(方法二):直接提示GPT-4o根據全景圖序列、原始自然語言指令和提取的地標短語序列,對路徑進行1到5的評分,跳過了單獨地標定位和Pano2Land算法計算對齊分數的步驟,但性能略低于方法一,且結果可解釋性較差。
-
步驟7:對于每種方法的輸出,計算真實路徑與最佳對齊路徑之間的歸一化動態時間規整(nDTW)度量,以評估路徑保真度,nDTW比成功率(SR)更符合任務目標,因為SR僅考慮智能體最后位置與真實目標的距離,而不考慮智能體按順序訪問的中間地標。
-
實驗
-
實驗設置:在R2R-Habitat數據集的五個環境中進行實驗,使用上述兩種方法對路徑進行排名和選擇。
- 實驗結果:
-
路徑假設生成準確率:平均準確率為65.72%,表明在大多數情況下,真實路徑或高度相似的路徑能夠被選為路徑假設之一。
-
nDTW分數:方法一的平均nDTW分數為88.92%,方法二為88.34%,且方法一的成功率(nDTW分數高于87%)更高,說明方法一在路徑與指令對齊方面表現更好。
-
標準差:兩種方法的標準差均較小,表明結果具有一定的穩定性。
-
討論與未來工作
- 局限性:
-
該方法僅適用于之前探索過的環境,并且需要拓撲地圖。
-
當自然語言指令不是基于地標,而是包含大量空間和時間短語、動作短語以及絕對距離時,該方法可能不適用。
-
由于管道是模塊化的,不是端到端訓練的,因此早期階段(如LLM地標提取和VLM檢索)的缺點會傳播到后續階段的Pano2Land對齊或GPT-4o排名中,路徑假設的質量最終決定了GPT-4o或其他VLM計算的排名上限。
-
-
未來工作:可以通過對現有的VLMs在導航任務上進行微調,以及將智能體的探索和導航部分無縫整合,使其能夠在以前未見過的環境中部署,從而實現性能提升。