ICPR-2025 | 讓機器人在未知環境中 “聽懂” 指令精準導航!VLTNet:基于視覺語言推理的零樣本目標導航

  • 作者:Congcong Wen, Yisiyuan Huang, Hao Huang ,Yanjia Huang, Shuaihang Yuan, YuHao, HuiLin and Yi Fang

  • 單位:紐約大學阿布扎比分校具身人工智能與機器人實驗室,紐約大學阿布扎比分校人工智能與機器人中心,紐約大學坦登工程學院,中國科學技術大學,清華大學軟件學院

  • 論文標題:Zero-Shot Object Navigation with Vision-Language Models Reasoning

  • 論文鏈接:https://link.springer.com/chapter/10.1007/978-3-031-78456-9_25

  • 項目主頁:https://vlt-lzson.github.io/

主要貢獻

  • 提出了 Vision Language 模型與 Tree-of-thought 網絡相結合的 VLTNet,用于語言驅動的零樣本目標導航(L-ZSON)任務,該模型能夠使機器人在沒有特定訓練數據的情況下與未知物體交互。

  • 創新性地將 Tree-of-Thought(ToT)推理框架應用于機器人探索過程中的導航前沿選擇,使模型具備多路徑推理過程和必要時的回溯能力,從而實現更準確的全局決策。

  • 通過在 PASTURE 和 RoboTHOR 兩個基準測試中的實驗,證明了模型在處理復雜的自然語言指令作為目標指示的 L-ZSON 任務中的出色性能,特別是在涉及復雜自然語言指令的場景中。

研究背景

  • 傳統的機器人目標導航方法依賴于大量的視覺訓練數據,包含環境中的標記物體,這限制了它們在未知和非結構化環境中的泛化能力。

  • 零樣本目標導航(ZSON)旨在解決這一問題,讓機器人能夠與未知物體進行導航和交互,但在需要復雜交互和通信的場景中仍存在不足。

  • 語言驅動的零樣本目標導航(L-ZSON)通過自然語言指令引導智能體,但現有方法只能處理明確包含物體類別的指令,難以處理描述未知物體或具有空間、視覺屬性的物體的指令。

研究方法

VLTNet 模型由四個核心模塊組成,包括視覺語言模型理解模塊、語義映射模塊、樹狀思維推理與探索模塊以及目標識別模塊。

  • 視覺語言模型理解模塊 :利用預訓練的視覺語言模型(如 GLIP)對觀測到的 RGB 圖像進行語義解析,識別圖像中的物體和房間等信息,增強模型對環境語義的理解。

  • 語義映射模塊 :結合視覺語言模型理解模塊生成的語義解析圖像、智能體捕獲的深度圖像以及智能體姿態,構建包含物體、房間和前沿的語義導航地圖,為智能體在復雜環境中的導航決策提供支持。

  • 樹狀思維推理與探索模塊 :是 VLTNet 的核心組件,創新性地將 ToT 推理框架應用于導航前沿選擇。與傳統方法不同,ToT 推理框架通過模擬多個專家對問題的討論,逐步達成共識,使模型能夠進行多路徑推理和自我評估,從而選擇最優的前沿進行探索,提高導航決策的準確性和全局性。

  • 目標識別模塊 :用于確定智能體當前接近的物體是否與指令中指定的目標物體匹配,不僅考慮物體類別,還結合空間和外觀描述等復雜信息,通過視覺語言模型將當前場景轉化為語言表達,再利用大型語言模型(如 GPT-3.5)進行分析,實現對場景上下文與目標描述之間一致性的準確評估。

實驗

  • 實驗環境與數據集 :在 PASTURE 和 RoboTHOR 兩個基準測試上評估 VLTNet 的性能。PASTURE 數據集包含多種獨特的導航挑戰,如不常見物體、外觀復雜的物體等;RoboTHOR 則基于真實世界室內環境,提供精確的 3D 環境表示。

  • 評估指標 :采用成功率(SR)和路徑長度加權成功率(SWPL)作為評估指標,SR 衡量智能體在最大步數內成功導航到目標物體的比例,SWPL 則同時考慮導航的成功性和路徑的最優性。

  • 基線模型 :與多個最先進的模型進行對比,包括 CoW 及其變體(如 CLIPRef、CLIP-Patch 等)、ESC 等。

  • 實驗結果 :在 PASTURE 數據集上,VLTNet 模型在所有指標上均優于其他模型,在外觀類別中的成功率達到 35.0%,在空間類別中的成功率為 33.3%;在 RoboTHOR 數據集上,VLTNet 的成功率為 33.2%,SWPL 為 17.1%,優于 CoW 等模型。此外,消融實驗表明,使用 ToT 提示的模型在前沿選擇上優于沒有 ToT 提示的模型,證明了 ToT 推理的有效性;在目標識別模塊中,使用 GPT-3.5 的模型在驗證目標對象與空間提示的一致性方面表現最佳。

討論與未來工作

  • 論文指出,盡管 VLTNet 在 L-ZSON 任務中取得了顯著的性能提升,但仍存在一些局限性,例如在處理某些復雜的自然語言指令時可能還需要進一步優化模型的推理過程和語義理解能力。

  • 未來的工作可以探索如何進一步改進 ToT 推理框架,以更好地處理復雜的導航場景和更豐富的語言指令。

  • 此外,還可以研究如何將 VLTNet 與其他技術(如強化學習、模擬真實世界環境的高保真仿真等)相結合,以進一步提高機器人的導航性能和泛化能力,使其能夠在更接近真實世界的環境中更有效地執行任務。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/76387.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/76387.shtml
英文地址,請注明出處:http://en.pswp.cn/web/76387.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于DeepSeek的考研暑假日志分析

注:我去年考研時寫了日志,大致記錄了我每天的主要活動。由于過于瑣碎,一直沒有翻看。突發奇想,現在利用deepseek總結其中規律。 從你的日志中可以總結出以下規律和活動興衰起落: ??一、學習活動規律與演變?? ??…

【刷題Day20】TCP和UDP

TCP 和 UDP 有什么區別? TCP提供了可靠、面向連接的傳輸,適用于需要數據完整性和順序的場景。 UDP提供了更輕量、面向報文的傳輸,適用于實時性要求高的場景。 特性TCPUDP連接方式面向連接無連接可靠性提供可靠性,保證數據按順序…

REST 架構詳解:從概念到應用的全面剖析

REST(Representational State Transfer)即表述性狀態轉移,是一種用于構建網絡應用程序的架構風格和設計理念,由計算機科學家羅伊?菲爾丁(Roy Fielding)在 2000 年提出。以下是關于它的詳細介紹&#xff1a…

藍橋杯之遞歸二

1.數的劃分 題目描述 將整數 nn 分成 kk 份,且每份不能為空,任意兩份不能相同(不考慮順序)。 例如:n7,k3n7,k3,下面三種分法被認為是相同的。 1,1,5;1,5,…

LeetCode(Hot.2)—— 49.字符異位詞分組題解

Problem: 49. 字母異位詞分組 字母異位詞的定義是:兩個單詞的字母組成一樣,但順序可以不同,比如 eat、tea 和 ate 就是一個組的。 思路 將每個字符串按字母排序,把排序后的字符串作為 key,相同 key 的放在一個 list 中…

為什么信號完整性對于高速連接器設計至關重要?

外部連接器通過在各種電子元件和系統之間可靠地傳輸數據而不損失保真度來保持信號完整性。在本文中,我們將討論信號完整性的重要性,回顧高速部署挑戰,并重點介紹各種連接器設計策略,以防止失真和降級。 了解連接器信號完整性挑戰…

得物官網sign簽名逆向分析

打開得物官網,點擊鞋類,可以看到請求 直接搜sign function p(e) {return f()("".concat(e ? s()(e).sort().reduce(function(t, n) {return "".concat(t).concat(n).concat(e[n])}, "") : "", "048a9…

Ubuntu 安裝WPS Office

文章目錄 Ubuntu 安裝WPS Office下載安裝文件安裝WPS問題1.下載缺失字體文件2.安裝缺失字體 Ubuntu 安裝WPS Office 下載安裝文件 需要到 WPS官網 下載最新軟件,比如wps-office_12.1.0.17900_amd64.deb 安裝WPS 執行命令進行安裝 sudo dpkg -i wps-office_12.1…

javaSE.判空包裝類

判空包裝類Optional,這個類可以很有效的處理空指針問題 空指針異常👇 特判null👇 Optional類可以更加優雅地處理這種問題👇👇 ofNullable👇 isPresent isEmpty 👇 👇 包裝之后&…

使用 vcpkg 構建支持 HTTPS 的 libcurl 并解決常見鏈接錯誤

適用環境:Windows 10/11 Visual Studio 2022 CMake ≥ 3.20 目標讀者:希望在 C 項目中輕松調用 HTTPS(GET/POST/PUT/DELETE),又被 LNK20xx 鏈接錯誤困擾的開發者 目錄 為什么選 vcpkg 與 libcurl用 vcpkg 安裝帶 SS…

ISO26262-淺談用例導出方法和測試方法

目錄 1 摘要2 測試方法3 測試用例導出方法4 測試方法與用例導出方法的差異和聯系5 結論 1 摘要 ISO26262定義了測試方法和用例導出方法,共同保證產品的開發質量。但在剛開始學習ISO26262的時候,又不是非常清晰地理解它倆的區別和聯系。本文主要對它倆的…

RoBoflow數據集的介紹

https://public.roboflow.com/object-detection(該數據集的網址) 可以看到一些基本情況 如果我們想要下載,直接點擊 點擊圖像可以看到一些基本情況 可以點擊紅色箭頭所指,右邊是可供選擇的一些yolo模型的格式 如果你想下載…

基于CFSSL構建高可用ETCD集群全指南(含TLS證書管理)

基于CFSSL構建高可用ETCD集群全指南(含TLS證書管理) 摘要:本文深入講解使用CFSSL工具簽發TLS證書,并部署生產級高可用ETCD集群的完整流程。涵蓋證書全生命周期管理、集群配置優化及安全加固方案,適用于Kubernetes、分…

【設計模式】適配器模式:讓不兼容的接口和諧共處

引言 在軟件開發中,我們經常會遇到這樣的情況:兩個已經存在的接口無法直接協同工作,但我們又希望它們能夠無縫對接。這時,適配器模式就派上用場了。適配器模式(Adapter Pattern)是一種結構型設計模式&…

doris/clickhouse常用sql

一、doris常用SQL 1、doris統計數據庫的總大小(單位:MB) SELECT table_schema AS database_name,ROUND(SUM(data_length) / 1024 / 1024, 2) AS database_size_MB FROM information_schema.tables WHERE table_schema NOT IN (information…

軟件架構分層策略對比及Go項目實踐

一、水平分層 vs 功能劃分 vs 組件劃分 維度水平分層功能劃分組件劃分核心思想按垂直層次劃分職責(如表示層、業務層、數據層)按業務功能模塊劃分(如用戶管理、訂單服務、支付模塊)按技術或業務能力劃分獨立組件(如數…

Linux進程地址空間、寫時拷貝

1.進程地址空間 感知進程地址空間 C/C有內存的概念,內存空間包括棧、堆、代碼段等等,下面是32位下的內存分布圖,自底向上(由0x00000000至0xFFFFFFFF); 下面通過程序來驗證各個數據在該空間的地址,由此感知整個地址空間的分布情…

python成功解決AttributeError: can‘t set attribute ‘lines‘

文章目錄 報錯信息與原因分析解決方法示例代碼代碼解釋總結 報錯信息與原因分析 在使用 matplotlib繪圖時,若嘗試使用 ax.lines []來清除圖表中的線條,會遇到AttributeError: can’t set attribute錯誤。這是因為 ax.lines是一個只讀屬性,不…

從零搭建微服務項目Pro(第6-2章——微服務鑒權模塊SpringSecurity+JWT)

前言: 在上一章已經實現了SpringBoot單服務的鑒權,在導入SpringSecurity的相關依賴,以及使用JWT生成的accessToken和refreshToken能夠實現不同Controller乃至同一Controller中不同接口的權限單獨校驗。上一章鏈接如下: 從零搭建微服務項目Pr…

win安裝軟件

win安裝軟件 jdk安裝 jdk安裝 首先去官網下載適合系統版本的JDK,下載地址: http://www.oracle.com/technetwork/java/javase/downloads/index.html進入下載頁面,如下圖: 首先選擇:Accept License Agreement單選按鈕&…