ICRA-2025 | 視覺預測助力機器人自主導航!NavigateDiff:視覺引導的零樣本導航助理

  • 論文:Yiran Qin 1 , 2 ^{1,2} 1,2, Ao Sun 2 ^{2} 2, Yuze Hong 2 ^{2} 2, Benyou Wang 2 ^{2} 2, Ruimao Zhang 1 ^{1} 1
  • 單位: 1 ^{1} 1中山大學, 2 ^{2} 2香港中文大學深圳校區
  • 論文標題:NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants
  • 論文鏈接:https://arxiv.org/pdf/2502.13894
  • 項目主頁:https://21styouth.github.io/NavigateDiff/

主要貢獻

  • 提出了新的導航框架NavigateDiff,通過將高層次任務推理與低層次機器人控制分離,增強了導航的泛化能力。
  • 引入了視覺預測器,結合多模態語言模型和擴散模型,用于生成未來的場景圖像,以輔助機器人決策。
  • 設計了混合融合策略網絡,通過整合當前觀察、未來預測和目標圖像,優化機器人的導航動作。
  • 通過模擬和現實環境的廣泛實驗,驗證了該方法在零樣本導航中的有效性和魯棒性,展示了其在不同環境中的適應性。

研究背景

研究問題

論文主要解決的問題是家庭機器人在導航不熟悉環境時面臨的挑戰,特別是如何在不進行大量地圖繪制和探索的情況下,實現零樣本導航。

研究難點

該問題的研究難點包括:

  • 現有強化學習方法依賴于大量的地圖繪制和探索,導致時間消耗大且效率低下;
  • 現有數據集無法覆蓋機器人可能遇到的所有環境和場景,缺乏廣泛的邏輯知識。

相關工作

  • 基于視覺的導航
    • 討論了經典的SLAM方法和基于學習的方法在機器人視覺導航中的應用。
    • 這些方法包括端到端學習技術、記憶增強的強化學習、單目相機設置下的導航改進,以及模塊化的導航和語義映射任務。
  • 擴散模型用于圖像生成
    • 介紹了文本到圖像的擴散模型如何改進指令驅動的圖像生成方法。
    • 這些模型在圖像編輯和動態導航任務中的應用被討論,強調了在導航任務中生成符合物理規則的未來圖像的挑戰。
  • 預訓練基礎模型用于具身任務
    • 探討了大模型(LLMs)和擴散模型在導航等具身任務中的應用。
    • 這些模型通過其信息處理和生成能力,用于導航任務中的先驗知識推理、路徑規劃和目標識別等。

研究方法

論文提出了NavigateDiff導航框架,旨在通過視覺預測器將高層次的任務推理與低層次的機器人控制分離,從而實現可泛化的導航。

形式化描述

  • 為了生成未來幀的訓練數據,論文使用模擬器內置的“最短路徑跟隨”算法來獲取每個任務的標準化路線,并生成相應的視頻。
  • 在現實世界中,論文記錄了人類遠程控制導航機器人完成圖像導航任務的視角視頻。
  • 從收集的視頻中,隨機選擇起始幀,并根據預定義的預測間隔生成對應的未來幀。同時記錄相關的導航任務信息,形成訓練元組 ( x t , x t + k , x h , y , x g ) (x_{t}, x_{t+k}, x_{h}, y, x_{g}) (xt?,xt+k?,xh?,y,xg?),其中:
    • x t x_{t} xt? 是當前觀察圖像,
    • x t + k x_{t+k} xt+k? 是需要預測的未來幀圖像,
    • x h x_{h} xh? 是歷史幀,
    • y y y 是任務的文本指令,
    • x g x_{g} xg? 是導航任務的最終目標圖像。

預測器

  • 預測器結合了多模態大模型(MLLM)和未來幀預測模型,能夠處理當前觀察、目標圖像和指令,并生成預測的未來圖像。
  • 多模態大模型:輸入當前觀察 x t x_{t} xt?、目標圖像 x g x_{g} xg? 和文本指令 y y y,生成特殊圖像標記 ,然后傳遞給未來幀預測模型。
  • 未來幀預測模型:將特殊圖像標記轉換為語義相關的表示 f N f^{N} fN,并將其與從2D編碼器提取的特征 f H f^{H} fH 融合。融合特征 f ? f^{*} f? 用于條件化編輯型擴散模型生成未來圖像:
    f ? = H ( Q ( h < image > ) , E v ( x h ) ) f^{*} = H(Q(h_{<\text{image}>}), E_{v}(x_{h})) f?=H(Q(h<image>?),Ev?(xh?))
    其中, Q Q Q 表示Q-Former, E v E_{v} Ev? 是二維編碼器, H H H 是融合塊,包含兩個自注意力塊、一個交叉注意力塊和一個MLP層。
  • 訓練目標是通過最小化噪聲與去噪結果之間的差異來優化預測器:
    L predictor = E E ( x t + k ) , E ( x t ) , ? ~ N ( 0 , 1 ) , s [ ∥ ? ? ? δ ( s , [ z s , E ( x t ) ] + f ? ) ∥ 2 2 ] \mathcal{L}_{\text{predictor}} = E_{\mathcal{E}(x_{t+k}), \mathcal{E}(x_{t}), \epsilon \sim \mathcal{N}(0,1), s} [\|\epsilon - \epsilon_{\delta}(s, [z_{s}, \mathcal{E}(x_{t})] + f^{*})\|_{2}^{2}] Lpredictor?=EE(xt+k?),E(xt?),?N(0,1),s?[???δ?(s,[zs?,E(xt?)]+f?)22?]
    其中, ? \epsilon ? 表示未縮放的噪聲, s s s 表示采樣步長, z s z_{s} zs? 是步驟 s s s 的潛在噪聲, E ( x t ) \mathcal{E}(x_{t}) E(xt?) 對應于當前觀察的條件。

融合導航策略

  • 盡管預測器提供了視覺模態內的未來狀態規劃,但仍需要訓練一個低層次控制器來選擇適當的導航動作。
  • 圖像融合策略:在訓練階段,將當前觀察 x t x_{t} xt? 與未來幀 x t + k x_{t+k} xt+k? 和目標圖像 x g x_{g} xg? 拼接并通過可訓練的二維編碼器進行處理,以獲得融合表示。使用強化學習(如PPO)訓練導航策略:
    s t = π ( [ f p , f o , a t ? 1 ] ∣ h t ? 1 ) s_{t} = \pi([\,f_{p}, f_{o}, a_{t-1}\,] | h_{t-1}) st?=π([fp?,fo?,at?1?]ht?1?)
    其中, s t s_{t} st? 表示智能體當前狀態的嵌入, h t ? 1 h_{t-1} ht?1? 表示策略 π \pi π 中來自前一步的循環層的隱藏狀態。
  • 測試階段:使用訓練好的預測器和融合導航策略在新環境中進行導航。生成未來幀后,執行融合導航策略以生成具體的動作序列。
  • 融合策略設計: 提出了混合融合方法,比較了其與早期融合和晚期融合的性能。混合融合方法在像素級建立語義關聯,并在時間維度上分離局部和全局信息,從而實現更好的性能。

實驗

預測器

  • 數據集:使用GIBSON數據集中的視頻序列進行訓練,設置預測間隔 k = 5 k=5 k=5
  • 訓練過程:首先使用InstructPix2Pix預訓練擴散模型的權重,然后在導航環境中進行端到端的優化。

  • 評估:使用三種圖像級指標(Frechet Inception Distance, Peak Signal-to-Noise Ratio, Learned Perceptual Image Patch Similarity)評估預測器的生成能力。結果顯示,預測器在所有指標上均優于基線模型。

模擬實驗

  • 數據集:在Habitat模擬器中使用GIBSON數據集進行訓練,采用72個訓練場景和14個測試場景。
  • 設置:訓練500M步,遵循FGPrompt的規則。報告了多個數據集上的結果,以便與現有工作直接比較。

  • 結果

    • 在GIBSON數據集上,NavigateDiff在Success Rate (SR) 和 Success weighted by Path Length (SPL) 上表現優異。
    • 在MP3D數據集上進行跨域評估,NavigateDiff在較小的訓練數據集上表現出色,超越了全數據集上的現有方法。
  • 跨任務評估

    • 數據集:在GIBSON環境中訓練的模型直接轉移到MP3D環境中進行評估。
    • 結果:NavigateDiff在MP3D數據集上實現了68.0%的SR和41.1%的SPL,優于其他方法。

真實世界實驗

  • 設置:在辦公室、停車場和走廊三種室內環境中進行測試,每種環境代表不同的布局、照明和障礙物挑戰。
  • 結果:在所有三種真實世界場景中,NavigateDiff在成功率和SPL上均超過基線模型,展示了其在不同環境中的魯棒性。

融合策略設計

  • 評估:在不同的融合策略(早期融合、晚期融合和混合融合)上進行評估。
  • 結果:混合融合策略在GIBSON ImageNav任務中實現了91.0%的SR和64.8%的SPL,顯著優于其他融合策略。

總結

  • 論文提出了NavigateDiff,一種新的導航框架,通過視覺預測器和混合融合策略,實現了在新環境中的零樣本導航。
  • NavigateDiff方法在模擬和真實世界環境中均表現出強大的魯棒性和適應性,顯著提高了導航性能和效率。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/901000.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/901000.shtml
英文地址,請注明出處:http://en.pswp.cn/news/901000.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【ESP32S3】GATT Server service table傳送數據到調試助手

前言 在初步學習esp32藍牙的過程中&#xff0c;借鑒了官方的GATT Server Service Table Example&#xff0c;可以在readme中看到&#xff0c;此demo是采用低功耗藍牙的通用屬性服務器來創建訂閱服務和特性。如果你接觸過MQTT&#xff0c;你會發現GATT Server這一特性和MQTT的訂…

DeepSeek :中國 AI 如何用 “小米加步槍” 逆襲硅谷

2025 年春節前夕&#xff0c;人工智能領域誕生了一項重大成果 ——DeepSeek 發布DeepSeek - R1 大模型。這一模型迅速引發廣泛關注&#xff0c;在蘋果 AppStore 中國區免費榜登頂。 DeepSeek 采用開源策略&#xff0c;依據寬松的 MIT 許可證&#xff0c;公開了模型權重、訓練方…

關稅擾動下市場波動,如何尋找確定性的長期之錨?

近期的關稅紛爭&#xff0c;擾動全球資本市場下行。A股市場一度大幅下跌。但隨著各大主力下場&#xff0c;有關部委發布有關有力措施&#xff0c;A股逐步穩住陣腳。 4月8日至4月10日&#xff0c;大盤指數連續3天上漲&#xff0c;上漲120多點&#xff0c;展現出較強的抵御關稅壁…

NeuroImage:膝關節炎如何影響大腦?靜態與動態功能網絡變化全解析

膝骨關節炎&#xff08;KOA&#xff09;是導致老年人活動受限和殘疾的主要原因之一。這種疾病不僅引起關節疼痛&#xff0c;還會顯著影響患者的生活質量。然而&#xff0c;目前對于KOA患者大腦功能網絡的異常變化及其與臨床癥狀之間的關系尚不清楚。 2024年4月10日&#xff0c;…

【KWDB 創作者計劃】KWDB 數據庫全維度解析手冊

——從原理到實踐&#xff0c;構建下一代數據基礎設施 ?第一章&#xff1a;KWDB 設計哲學與技術全景 1.1 為什么需要 KWDB&#xff1f; 在數據爆炸與業務場景碎片化的今天&#xff0c;傳統數據庫面臨三大挑戰&#xff1a;?擴展性瓶頸?&#xff08;單機性能天花板&#xff…

一個批量文件Dos2Unix程序(Microsoft Store,開源)

這個程序可以把整個目錄的文本文件改成UNIX格式&#xff0c;源碼是用C#寫的。 目錄 一、從Microsoft Store安裝 二、從github獲取源碼 三、功能介紹 3.1 運行 3.2 瀏覽 3.3 轉換 3.4 轉換&#xff08;無列表&#xff09; 3.5 取消 3.6 幫助 四、源碼解讀 五、討論和…

std::string` 類

以下是對 std::string 類中 修改操作 和 字符串操作 的示例代碼&#xff0c;幫助你更好地理解這些函數的使用&#xff1a; 5. 修改操作 (1) operator 用于追加字符串、C 風格字符串或字符。 #include <iostream> #include <string>int main() {std::string str …

《Spring Boot+策略模式:企業級度假訂單Excel導入系統的架構演進與技術實現》

前言 在數字化時代背景下&#xff0c;訂單管理系統的高效性與靈活性成為企業競爭力的核心要素。本文檔詳細剖析了一個基于 策略模式 的度假訂單導入系統&#xff0c;通過分層架構設計實現了多源異構數據的標準化處理。系統以 Spring Boot 為核心框架&#xff0c;結合 MyBatis …

SSRF漏洞公開報告分析

文章目錄 1. SSRF | 獲取元數據 | 賬戶接管2. AppStore | 版本上傳表單 | Blind SSRF3. HOST SSRF一、為什么HOST修改不會影響正常訪問二、案例 4. Turbonomic 的 終端節點 | SSRF 獲取元密鑰一、介紹二、漏洞分析 5. POST | Blind SSRF6. CVE-2024-40898利用 | SSRF 泄露 NTL…

告別 ifconfig:為什么現代 Linux 系統推薦使用 ip 命令

告別 ifconfig&#xff1a;為什么現代 Linux 系統推薦使用 ip 命令 ifconfig 指令已經被視為過時的工具&#xff0c;不再是查看和配置網絡接口的推薦方式。 與 netstat 被 ss 替代類似。 本文簡要介紹 ip addr 命令的使用 簡介ip ifconfig 屬于 net-tools 包&#xff0c;這個…

VLC快速制作rtsp流媒體服務器

1.安裝vlc media player工具 2.打開后點擊菜單 媒體->流 3.添加mp4視頻&#xff0c;選擇串流 4.選擇 下一個 5.新目標選擇 RTSP&#xff0c;點擊添加按鈕 6.端口和路徑隨便填寫&#xff0c;如果推流失敗就換個端口。一路操作下去 7.點擊 流 按鈕后&#xff0c;就可以看到下圖…

基于 JavaWeb 的 SSM 在線視頻教育系統設計和實現(源碼+文檔+部署講解)

技術范圍&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬蟲、數據可視化、小程序、安卓app、大數據、物聯網、機器學習等設計與開發。 主要內容&#xff1a;免費功能設計、開題報告、任務書、中期檢查PPT、系統功能實現、代碼編寫、論文編寫和輔導、論文…

RK3568 基于Gstreamer的多媒體調試記錄

文章目錄 1、環境介紹2、概念理清3、提前準備4、GStreamer編譯5、GStreamer基礎介紹6、視頻播放初體驗7、視頻硬編碼7.1、h2647.2、h265 8、視頻硬解碼8.1、解碼視頻并播放解碼視頻并播放帶音頻 1、環境介紹 硬件&#xff1a;飛凌ok3568-c開發板 軟件&#xff1a;原廠rk356x …

Mac學習使用全借鑒模式

Reference https://zhuanlan.zhihu.com/p/923417581.快捷鍵 macOS 的快捷鍵組合很多&#xff0c;相應的修飾鍵就多達 6 個&#xff08;Windows 系統級就 4 個&#xff09;&#xff1a; Command ? Shift ? Option ? Control ? Caps Lock ? Fn 全屏/退出全屏 command con…

SpringBoot多線程,保證各個子線程和主線程事物一致性

SpringBoot多線程&#xff0c;保證各個子線程和主線程事物一致性 1、第一種寫法1.1、TransactionalUntil工具類1.2、service業務類 2、第二種寫法2.1、service業務類 1、第一種寫法 1.1、TransactionalUntil工具類 import org.springframework.jdbc.datasource.DataSourceTra…

高并發的業務場景下,如何防止數據庫事務死鎖

一、 一致的鎖定順序 定義: 死鎖的常見原因之一是不同的事務以不同的順序獲取鎖。當多個事務獲取了不同資源的鎖,并且這些資源之間發生了互相依賴,就會形成死鎖。 解決方法: 確保所有的事務在獲取多個鎖時,按照相同的順序請求鎖。例如,如果事務A需要鎖定表A和表B,事務…

【從0到1學MybatisPlus】MybatisPlus入門

Mybatis-Plus 使用場景 大家在日常開發中應該能發現&#xff0c;單表的CRUD功能代碼重復度很高&#xff0c;也沒有什么難度。而這部分代碼量往往比較大&#xff0c;開發起來比較費時。 因此&#xff0c;目前企業中都會使用一些組件來簡化或省略單表的CRUD開發工作。目前在國…

力扣HOT100之鏈表: 148. 排序鏈表

這道題直接用蠢辦法來做的&#xff0c;直接先遍歷一遍鏈表&#xff0c;用一個哈希表統計每個值出現的次數&#xff0c;由于std::map<int, int>會根據鍵進行升序排序&#xff0c;因此我們將節點的值作為鍵&#xff0c;其在整個鏈表中的出現次數作為值&#xff0c;當所有元…

Transformer多卡訓練初始化分布式環境:(backend=‘nccl‘)

Transformer多卡訓練初始化分布式環境:(backend=‘nccl’) dist.init_process_group(backend=nccl)在多卡環境下初始化分布式訓練環境,并為每個進程分配對應的 GPU 設備。下面為你逐行解釋代碼的含義: 1. 初始化分布式進程組 try:dist.init_process_group(backend=nccl) e…

使用Mybatis時在XML中SQL高亮顯示的方法

如圖所示&#xff0c;上方的SQL代碼很像是一個字符串&#xff0c;那么如何把上方的SQL改成和下方一樣的SQL,使得IDEA可以識別SQL方言呢&#xff1f; 1.選中SQL中的一部分代碼&#xff0c;此時左側會出現一個黃色的燈泡圖案&#xff0c;點擊2.選擇這個注入語言或者引用