無需訓練的具身導航探索!TRAVEL:零樣本視覺語言導航中的檢索與對齊

  • 作者: Navid Rajabi, Jana Kosecka

  • 單位:喬治梅森大學計算機科學系

  • 論文標題:TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation

  • 論文鏈接:https://arxiv.org/pdf/2502.07306

主要貢獻

  • 提出了基于模塊化方法的Vision-Language Navigation(VLN)任務解決方案,該方法在零樣本設置下利用最先進的大型語言模型(LLMs)和視覺語言模型(VLMs),將問題分解為四個子模塊,通過提取導航指令中的地標和訪問順序,檢索最后地標的候選位置,生成路徑假設,并計算與指令的對齊分數,最終評估路徑保真度。

  • 在復雜的R2RHabitat指令數據集上,與使用聯合語義地圖的方法(如VLMaps)相比,展示了優越的性能,并詳細量化了視覺定位對導航性能的影響。

研究背景

  • VLN任務:要求控制智能體(在模擬環境或現實世界中)根據自然語言指令在環境中導航。例如,讓智能體按照“在走廊左轉,去廚房,在水槽邊停下”這樣的指令行動。該任務需要解析語言輸入,將短語與視覺概念(場景、地標、動作等)以及時間線索(如“在……之前”)進行對應。

  • 現有方法
    • 端到端方法:采用序列到序列模型,輸入語言指令和視覺信息,輸出低級導航動作序列。訓練時使用強化學習和模仿學習的混合方法,但在新環境和復雜指令下性能受限,且需要大量高質量訓練樣本和計算資源。

    • 基于LLM和VLM的模塊化方法:將LLMs、VLMs與傳統地圖表示和機器人導航堆棧相結合。例如,CLIPNav利用CLIP VLMs和GPT-3進行指令分解和方向判斷,但依賴于環境的可導航圖,且CLIP在關聯地標與圖像方面能力有限;VLMaps構建聯合視覺語言語義占用圖,但指令簡單,且需要額外數據集進行LLMs微調。

研究方法

  • 整體框架:該方法包含八個主要步驟,基于R2R-Habitat數據集的復雜指令,利用預訓練的LLMs和VLMs進行零樣本導航。

  • 步驟詳解
    • 步驟1:使用數據集的訓練集構建環境的拓撲地圖,將每個節點表示為360°RGB全景圖,邊的權重為1,確保訓練集中每個真實路徑節點在拓撲地圖中有對應節點。

    • 步驟2:使用預訓練的LLM(LLama-3.1-8B-Instruct)從自然語言指令中提取地標序列,并識別最后地標短語,搜索最后地標的候選目標節點。

    • 步驟3:利用最先進的VLM(SigLIP)進行目標/最后地標識別,通過計算全景圖與地標文本描述的余弦相似度來完成。與VLMaps方法相比,在127個地標上的平均Precision@10從34.4%提升到70.0%,優勢在于使用SigLIP代替CLIP進行地標識別。

    • 步驟4:根據前k個目標位置,從起始位置到目標節點計算BFS最短路徑,得到k條路徑假設。

    • 步驟5(方法一):將路徑與指令對齊問題視為序列到序列對齊問題,構建全景圖序列與地標短語序列的矩陣A,使用VLM(GPT-4o)獲取地標在全景圖中的二值定位分數,然后通過動態規劃算法(Pano2Land)計算路徑的歸一化對齊分數,類似于最長公共子序列問題。

    • 步驟6(方法二):直接提示GPT-4o根據全景圖序列、原始自然語言指令和提取的地標短語序列,對路徑進行1到5的評分,跳過了單獨地標定位和Pano2Land算法計算對齊分數的步驟,但性能略低于方法一,且結果可解釋性較差。

    • 步驟7:對于每種方法的輸出,計算真實路徑與最佳對齊路徑之間的歸一化動態時間規整(nDTW)度量,以評估路徑保真度,nDTW比成功率(SR)更符合任務目標,因為SR僅考慮智能體最后位置與真實目標的距離,而不考慮智能體按順序訪問的中間地標。

實驗

  • 實驗設置:在R2R-Habitat數據集的五個環境中進行實驗,使用上述兩種方法對路徑進行排名和選擇。

  • 實驗結果
    • 路徑假設生成準確率:平均準確率為65.72%,表明在大多數情況下,真實路徑或高度相似的路徑能夠被選為路徑假設之一。

    • nDTW分數:方法一的平均nDTW分數為88.92%,方法二為88.34%,且方法一的成功率(nDTW分數高于87%)更高,說明方法一在路徑與指令對齊方面表現更好。

    • 標準差:兩種方法的標準差均較小,表明結果具有一定的穩定性。

討論與未來工作

  • 局限性
    • 該方法僅適用于之前探索過的環境,并且需要拓撲地圖。

    • 當自然語言指令不是基于地標,而是包含大量空間和時間短語、動作短語以及絕對距離時,該方法可能不適用。

    • 由于管道是模塊化的,不是端到端訓練的,因此早期階段(如LLM地標提取和VLM檢索)的缺點會傳播到后續階段的Pano2Land對齊或GPT-4o排名中,路徑假設的質量最終決定了GPT-4o或其他VLM計算的排名上限。

  • 未來工作:可以通過對現有的VLMs在導航任務上進行微調,以及將智能體的探索和導航部分無縫整合,使其能夠在以前未見過的環境中部署,從而實現性能提升。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/77431.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/77431.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/77431.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Vue3+Vite+TypeScript+Element Plus開發-22.客制Table組件

系列文檔目錄 Vue3ViteTypeScript安裝 Element Plus安裝與配置 主頁設計與router配置 靜態菜單設計 Pinia引入 Header響應式菜單縮展 Mockjs引用與Axios封裝 登錄設計 登錄成功跳轉主頁 多用戶動態加載菜單 Pinia持久化 動態路由 -動態增加路由 動態路由-動態刪除…

Java讀取JSON文件并將其中元素轉為JSON對象輸出

🤟致敬讀者 🟩感謝閱讀🟦笑口常開🟪生日快樂?早點睡覺 📘博主相關 🟧博主信息🟨博客首頁🟫專欄推薦🟥活動信息 文章目錄 Java讀取JSON文件并將其中元素轉為JSON對象輸…

Spring Boot自動配置原理深度解析:從條件注解到spring.factories

大家好!今天我們來深入探討Spring Boot最神奇的特性之一——自動配置(Auto-configuration)。這個功能讓Spring Boot如此受歡迎,因為它大大簡化了我們的開發工作。讓我們一起來揭開它的神秘面紗吧!👀 🌟 什么是自動配置…

【ELF2學習板】利用OpenMP采用多核并行技術提升FFTW的性能

目錄 引言 OpenMP簡介 編譯OpenMP支持的FFTW庫 部署與測試 測試程序 程序部署 測試結果 結語 引言 在前面已經介紹了在ELF2開發板上運行FFTW計算FFT。今天嘗試利用RK3588的多核運算能力來加速FFT運算。FFTW利用多核能力可以考慮使用多線程或者OpenMP。今天介紹一下Ope…

2000-2017年各省城市天然氣供氣總量數據

2000-2017年各省城市天然氣供氣總量數據 1、時間:2000-2017年 2、來源:國家統計局、能源年鑒 3、指標:行政區劃代碼、城市、年份、城市天然氣供氣總量 4、范圍:31省 5、指標說明:城市天然氣供氣總量是指在一定時間…

Hadoop的三大結構及其作用?

Hadoop是一個分布式存儲和計算框架,其三大核心組件是HDFS(Hadoop Distributed File System)、YARN(Yet Another Resource Negotiator)和MapReduce。它們各自有著重要的作用,共同構成了Hadoop生態系統的基礎…

【AI論文】ColorBench:視覺語言模型能否看到并理解多彩的世界?一個全面的色彩感知、推理和魯棒性基準測試

摘要:顏色在人類感知中起著重要作用,通常在視覺推理中提供關鍵線索。 然而,尚不清楚視覺語言模型(VLMs)是否以及如何像人類一樣感知、理解和利用顏色。 本文介紹了ColorBench,這是一個精心設計的創新基準&a…

Python番外——常用的包功能講解和分類組合

目錄 1. Web開發框架與工具 2. 數據處理與分析 3. 網絡請求與爬蟲 4. 異步編程 5. 數據庫操作 6. 圖像與多媒體處理 7. 語言模型與NLP 8. 安全與加密 9. 配置與工具 10. 其他工具庫 11.典型組合場景 此章節主要是記錄我所使用的包,以及模塊。方便供自己方…

華碩原廠系統槍神9/9p超竟版-WIN11原裝開箱出廠系統安裝

華碩原廠系統槍神9/9p超竟版-WIN11-24H2-專業工作站版本安裝可帶F12-ASUSRecovery恢復功能 適用機型: G635LX、G635LW、G835LX、G835LW、G615LW、G615LP、G615LM、G615LH G815LW、G815LP、G815LM、G815LH、G635LR、G835LR、G615LR、G815LR 遠程恢復安裝&#xff…

拉取windows的docker鏡像轉到服務器上構建服務鏡像

在windows上將拉取ubuntu的docker鏡像轉到服務器上 1.要求 1.1 要求windows和服務器安裝好docker 2.拉取ubuntu鏡像到windows(dos操作,可能需要連接到外網) 一旦你選擇了一個合適的基礎鏡像,你可以使用docker pull命令從Docke…

T1結構像+RS-fMRI影像處理過程記錄(數據下載+Matlab工具箱+數據處理)

最近需要仿真研究T1結構像RS-fMRI影像融合處理輸出目標坐標的路線可行性。就此機會記錄下來。 為了完成驗證目標處理,首先需要有數據,然后需要準備對應的處理平臺和工具箱,進行一系列。那么開始記錄~ 前言: 為了基于種子點的功能連…

Nginx-前言

nginx是什么? 輕量級,開源免費的web服務器軟件,服務器安裝nginx,服務器則成為web服務器 nginx的穩定版版本號: 偶數版本 nginx的相關目錄: /etc/nginx/nginx.conf nginx的主配置文件 /etc/nginx/ngi…

緩慢前行,靜待花開

最期待的不是成品出爐,而是揉面時感受到溫度、發酵時聞到淡淡香氣 1 “慢就是穩,穩就是快”。 這句來自特種兵的訓練語,被許多自媒體人奉為準則。 在看似風云突變的環境下,速度被隱藏在穩定中,結果被醞釀在過程里。…

洛谷的幾道題(2)

P1008 [NOIP 1998 普及組] 三連擊 # P1008 [NOIP 1998 普及組] 三連擊 ## 題目背景 本題為提交答案題,您可以寫程序或手算在本機上算出答案后,直接提交答案文本,也可提交答案生成程序。 ## 題目描述 將 $1, 2, \ldots , 9$ 共 $9$ 個數分…

Day10【基于encoder- decoder架構實現新聞文本摘要的提取】

實現新聞文本摘要的提取 1. 概述與背景2.參數配置3.數據準備4.數據加載5.主程序6.預測評估7.生成效果8.總結 1. 概述與背景 新聞摘要生成是自然語言處理(NLP)中的一個重要任務,其目標是自動從長篇的新聞文章中提取出簡潔、準確的摘要。近年來…

【大疆dji】ESDK開發環境搭建(軟件準備篇)

接上一篇【大疆dji】ESDK開發環境搭建(硬件準備篇) 1. 編譯環境 ESDK 提供 x86_64/aarch64 基于 Linux 平臺 Ubuntu 發行版操作系統構建的靜態庫,運行 demo 先正確安裝所需的依賴包。arm32位就不支持了。建議使用編譯安裝的方式,…

Java數據結構——ArrayList

Java中ArrayList 一 ArrayList的簡介二 ArrayList的構造方法三 ArrayList常用方法1.add()方法2.remove()方法3.get()和set()方法4.index()方法5.subList截取方法 四 ArrayList的遍歷for循環遍歷增強for循環(for each)迭代器遍歷 ArrayList問題及其思考 前言 ArrayList是一種 順…

【信息獲取能力】

第一層:表象觀察 現象:AI系統(如GPT-4)可以瞬間調用并整合全球互聯網上的公開信息,而人類即使窮盡一生也無法完成同等規模的知識儲備。 底層邏輯: 存儲與檢索效率:人類大腦的記憶容量有限&…

03、GPIO外設(三):標準庫代碼示例

標準庫代碼示例 1、點亮LED2、LED閃爍3、LED流水燈4、按鍵控制LED5、蜂鳴器 本章源代碼鏈接: 鏈接: link 1、點亮LED 實驗要求:點亮LED ①LED.c文件的代碼如下: #include "LED.h"/*** LED引腳初始化*//* 定義數組,想要添加引腳…

卷積神經網絡(CNN)與VGG16在圖像識別中的實驗設計與思路

卷積神經網絡(CNN)與VGG16在圖像識別中的實驗設計與思路 以下從基礎原理、VGG16架構解析、實驗設計步驟三個層面展開說明,結合代碼示例與關鍵參數設置,幫助理解其應用邏輯。 一、CNN與VGG16的核心差異 基礎CNN結構 通常包含33~55個…