RAL-2025 | “藏寶圖”驅動的具身導航!HAM-Nav:基于手繪地圖引導的機器人導航

在這里插入圖片描述

  • 作者:Aaron Hao Tan, Angus Fung, Haitong Wang, Goldie Nejat
  • 單位:多倫多大學機械與工業工程系
  • 論文標題:Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach
  • 出版信息:IEEE ROBOTICS ANDAUTOMATIONLETTERS,VOL.10,NO.7,JULY2025
  • 論文鏈接:https://ieeexplore.ieee.org/abstract/document/11027320/

主要貢獻

  • 提出了基于手繪地圖的移動機器人導航架構 HAM-Nav,該架構利用預訓練的視覺語言模型(VLMs)進行導航,能夠適應不同的環境、手繪風格和機器人形態,即使在地圖存在不準確的情況下也能有效工作。
  • 引入了自適應視覺提示方法 Selective Visual Association Prompting(SVAP),通過將機器人視角與動態更新的拓撲地圖(疊加在手繪地圖上)放在一起,使預訓練的 VLMs 能夠直接將環境特征與手繪地圖中的對應元素關聯起來,從而以零樣本的方式估計機器人的位置并選擇合適的導航動作。
  • 開發了一個預測導航計劃解析器 Predictive Navigation Plan Parser(PNPP),利用預訓練 VLMs 的常識知識來推斷缺失的地標信息(如類別和位置),以彌補手繪地圖中可能存在的錯誤。

研究背景

  • 移動機器人導航任務通常需要在動態變化的環境中完成,如搜索救援場景中的結構不穩定、建筑施工中的改造或新建以及零售商店的重新配置等。現有的導航方法主要分為基于地圖的方法和無地圖的方法。基于地圖的方法需要在導航前通過人工遙控或自主機器人探索生成精確地圖,但地圖獲取成本高、耗時且需要專業知識;無地圖方法則需要在導航過程中同時進行探索和導航,這會影響導航效率。
  • 手繪地圖作為一種替代方法,可以由人們根據對環境布局的記憶自由繪制,用于機器人導航,無需事先進行資源密集型的地圖獲取或在導航過程中同時探索。然而,現有的基于手繪地圖的機器人導航方法存在局限性,如僅適用于簡單環境、需要精確的手繪地圖等,無法適應復雜的真實世界環境和多樓層設置,且對人類記憶差異導致的手繪地圖不準確問題處理不足。

問題定義

  • 手繪地圖 Mh\mathcal{M}_hMh? 由人基于記憶繪制,包含三個組成部分:空間配置 Sh\mathcal{S}_hSh?(表示機器人環境的外邊界和結構布局)、地標 Lh\mathcal{L}_hLh?(包括地標類別和在地圖中的像素位置)以及路徑 Ph\mathcal{P}_hPh?(包含初始機器人位置和期望機器人位置)。
  • 由于人的記憶不完美,手繪地圖中可能存在地標位置、距離和比例的誤差,也可能遺漏或錯誤地標記地標。
  • 移動機器人配備有 RGB-D 相機,用于捕獲周圍環境的 RGB 和深度圖像。
  • 導航問題的目標是:給定手繪地圖 Mh\mathcal{M}_hMh? 和路徑 Ph\mathcal{P}_hPh?,機器人需要在未知環境中自主導航,從給定的起始位置到達期望位置,基于實時觀測數據生成一系列動作。

HAM-Nav 導航架構

提示工程

提示工程階段的目標是從手繪地圖 Mh\mathcal{M}_hMh? 和機器人當前視角的 RGB 圖像 IRGBtI_{\text{RGB}}^tIRGBt? 中提取導航和環境特征,生成視覺和文本提示,為后續的位置估計和動作選擇提供輸入。

拓撲地圖生成器
  • 功能:根據手繪地圖 Mh\mathcal{M}_hMh? 生成拓撲地圖 Mtp\mathcal{M}_{tp}Mtp?,用于機器人定位和導航規劃。
  • 輸出:拓撲地圖 Mtp=(V,E)\mathcal{M}_{tp} = (V, E)Mtp?=(V,E),其中 VVV 是節點集合(包括機器人位置節點 VrV_rVr? 和地標節點 VlV_lVl?),EEE 是連接這些節點的邊。
  • 作用:拓撲地圖提供了一個簡化的環境表示,便于后續模塊進行地標檢測、視覺提示生成和路徑規劃。預測的地標 LpredobjL_{\text{pred}}^{\text{obj}}Lpredobj? 會反饋到 TMG 中,更新拓撲地圖。
空間解釋器

  • 功能:在每個時間步 ttt,檢測機器人視角中的地標,并生成包含地標邊界框和類別標簽的圖像 IbRGB,tI_b^{\text{RGB}, t}IbRGB,t?,以及環境的文本描述 SDS_DSD?
  • 輸出
    • 圖像 IbRGB,tI_b^{\text{RGB}, t}IbRGB,t?:包含檢測到的地標邊界框和類別標簽。
    • 文本描述 SDS_DSD?:描述機器人視角中的地標位置和類別。
  • 實現
    • 物體地標檢測:使用 Grounding DINO 檢測物體地標 LobjL_{\text{obj}}Lobj?
    • 結構地標檢測:通過三階段方法檢測結構地標 LstrL_{\text{str}}Lstr?:(1)使用 Grounded-Segment Anything Model 生成可行駛區域的像素級掩碼 ItmktI_{\text{tmk}}^tItmkt?。(2)使用霍夫變換從掩碼中提取邊緣 IetI_e^tIet?,并按方向和長度分類。(3)使用基于規則的方法識別左轉和右轉。
    • 文本描述生成:將檢測到的地標按其在圖像中的位置(左、中、右)分類,并生成結構化的文本描述。
經驗管理器
  • 功能:收集和檢索過去的導航經驗,為定位引擎和導航規劃引擎提供歷史上下文導航信息。
  • 輸出:最相關的導航經驗 hth_tht?,包括之前的觀測 SD′tS_{D'}^tSDt?、估計的機器人位置 p′p'p 和執行的動作 a′a'a
  • 實現:通過計算當前觀測與存儲經驗之間的余弦相似度,檢索最相關的經驗作為文本提示。
視覺提示生成器

  • 功能:生成視覺提示 ISVAMI_{\text{SVAM}}ISVAM?,幫助 VLM 理解環境特征與手繪地圖之間的關系。
  • 輸出:視覺提示 ISVAMI_{\text{SVAM}}ISVAM?,包含機器人視角 IbRGB,tI_b^{\text{RGB}, t}IbRGB,t? 和修剪后的拓撲地圖 Mtp′\mathcal{M}_{tp}'Mtp?
  • 實現:使用概率模型修剪拓撲地圖中的節點,保留最有可能代表機器人真實位置的節點。
預測導航計劃解析器

  • 功能:推斷手繪地圖中遺漏的地標,并生成導航計劃的文本描述 NPNPNP
  • 輸出
    • 預測地標 LpredobjL_{\text{pred}}^{\text{obj}}Lpredobj?:推斷出的地標類別和位置。
    • 導航計劃文本描述 NPNPNP:描述導航路徑的文本。
  • 實現
    • 地標預測:利用 VLM 根據地標的空間關系和鄰近性推斷潛在的共現地標。
    • 導航計劃生成:將拓撲地圖分割為局部段,為每個段生成描述性句子,形成全局導航計劃。

位置估計

位置估計階段的目標是根據提示工程階段生成的視覺和文本提示,估計機器人在手繪地圖中的當前位置。

定位引擎
  • 功能:使用 VLM 根據視覺提示 σvis(ISVAM)\sigma_{\text{vis}}(I_{\text{SVAM}})σvis?(ISVAM?) 和文本提示 σtext(SD′,p′,a′,NP)\sigma_{\text{text}}(S_{D'}, p', a', NP)σtext?(SD?,p,a,NP) 估計機器人當前位置 ptp_tpt?
  • 輸出:估計的機器人位置 ptp_tpt?
  • 實現
    • 使用鏈式思考提示(Chain of Thought Prompting, CoT)將位置估計任務分解為多個小步驟。
    • 使用分數提示(Score-based Prompting, SB)生成位置估計的概率分數。

動作選擇

動作選擇階段的目標是根據估計的機器人位置和導航計劃,選擇合適的離散導航動作。

導航規劃引擎
  • 功能:使用 VLM 根據視覺提示 σvis(ISVAM)\sigma_{\text{vis}}(I_{\text{SVAM}})σvis?(ISVAM?) 和文本提示 σtext(SD′,p′,a′,NP,pt)\sigma_{\text{text}}(S_{D'}, p', a', NP, p_t)σtext?(SD?,p,a,NP,pt?) 選擇離散導航動作 aaa
  • 輸出:離散導航動作 aaa(如“向前移動”、“向右轉”等)。
  • 實現
    • 使用鏈式思考提示(CoT)將導航任務分解為多個小步驟。
    • 使用分數提示(SB)為每個可能的動作分配概率分數,選擇概率最高的動作。

動作執行

動作執行階段的目標是將離散導航動作轉換為機器人可以執行的速度,完成導航任務。

導航控制器
  • 功能:將離散動作 aaa 轉換為機器人在環境中執行的速度 (v,ω)(v, \omega)(v,ω)
  • 輸出:機器人速度 (v,ω)(v, \omega)(v,ω)
  • 實現
    • 使用 RGB-D 圖像、地標邊界框和可行駛區域掩碼進行路徑規劃。
    • 使用全局路徑規劃器生成導航點,局部規劃器將導航點轉換為機器人速度。

實驗

消融研究

  • 在 Gazebo 模擬器中生成了兩個 3D 光逼真的環境:一個結構化的室內多樓層工作場所和一個非結構化的室外建筑工地。
  • 使用 Clearpath Jackal 輪式機器人和 ANYmal 四足機器人進行實驗,分別使用 A* 算法和 RRT 全局規劃器以及 TEB 和 NMPC 局部規劃器。
  • 與 HAM-Nav 的不同變體進行比較,包括去除 Ldict、Lpred_obj、?′tp 和 EM,以及使用不同大小的開源 VLM(Qwen 2.5-VL 模型)。

  • 評估指標包括導航時間(NT)、導航距離(D)、成功按路徑長度加權(SPL)和成功率(SR)。結果表明,完整的 HAM-Nav 系統性能最佳,具有最低的 NT(634 秒)和 D(28 米),最高的 SR(80%)和 SPL(0.712)。

真實環境用戶研究

  • 在多倫多大學校園內的兩個室內和一個室外真實環境中進行,使用 Jackal 輪式機器人和 ZED Mini 立體相機。
  • 與 MapGPT(一種視覺語言導航方法)進行比較,MapGPT 接受自然語言導航指令作為輸入。
  • 20 名參與者(年齡 22-42 歲,平均年齡 30.2 歲)被招募,分別使用 HAM-Nav 和 MapGPT 進行導航任務。使用系統可用性量表(SUS)和凈推薦值(NPS)評估用戶體驗。

  • 結果顯示,HAM-Nav 在 SUS(79.5)和 NPS(+10)上得分高于 MapGPT(SUS 為 47.25,NPS 為 -80),表明用戶對 HAM-Nav 的偏好更高。在真實世界試驗中,HAM-Nav 在 NT(1018 秒)、D(45 米)、SR(77%)和 SPL(0.703)方面均優于 MapGPT。

結論與未來工作

  • 結論
    • HAM-Nav 架構利用預訓練的視覺語言模型,能夠在不同的環境和手繪風格中進行魯棒的機器人導航,無需手繪地圖在度量上精確。
    • 通過消融研究和用戶研究驗證了 HAM-Nav 的性能,證明了其在室內和室外、單樓層和多樓層環境中都能有效導航。
  • 未來工作
    • 當前的局限性包括機器人導航時間較長,因為機器人需要等待 VLM 輸出,且在運行過程中需要互聯網訪問以訪問 VLM API。
    • 未來的工作將集中在本地運行 VLM 以加快推理速度,并將 HAM-Nav 擴展到支持多機器人系統。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/91718.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/91718.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/91718.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Vue.js 與后端技術結合開發指南

Vue.js 作為現代化的前端框架,可以與多種后端技術完美結合,構建全棧應用。下面我將詳細介紹 Vue 可以與哪些后端技術結合開發,并提供可視化示例。Vue 可結合的后端技術概覽主流組合方案對比后端技術適合場景優點缺點學習曲線Node.js全棧JavaS…

邏輯回歸在銀行貸款審批中的應用:參數選擇與實踐

目錄 一、數據背景與預處理 1.數據前五行 2.數據預處理步驟 二、邏輯回歸的正則化參數選擇 1.交叉驗證選擇最優C 2.為什么選擇召回率作為評估指標? 三、參數選擇的核心結論 四、后續優化方向 在銀行貸款審批場景中,準確判斷貸款人是否符合貸款條…

數據結構前篇 - 深入解析數據結構之復雜度

目錄一、數據結構前言1.1 數據結構1.2 算法二、算法效率2.1 復雜度的概念三、時間復雜度3.1 大O的漸進表示法3.2 時間復雜度計算示例3.2.1 示例13.2.2 示例23.2.3 示例33.2.4 示例43.2.5 示例53.2.6 示例63.2.7 示例7四、空間復雜度4.1 空間復雜度計算示例4.1.1 示例14.1.2 示例…

Master Prompt:AI時代的萬能協作引擎

1. Master Prompt:為什么它正在重塑AI協作范式大模型落地的最大痛點不是技術本身,而是人機協作的斷裂。當企業采購了昂貴的AI系統,卻發現輸出內容反復偏離預期,團隊成員抱怨“AI總聽不懂我要什么”,這種場景每天在無數…

《Kubernetes部署篇:基于Kylin V10+ARM架構CPU使用containerd部署K8S 1.33.3容器板集群(一主多從)》

總結:整理不易,如果對你有幫助,可否點贊關注一下? 更多詳細內容請參考:企業級K8s集群運維實戰 一、架構圖 如下圖所示: 二、環境信息 基于x86_64+aarch64架構使用containerd部署K8S 1.33.3集群資源合集(一主多從) 2、部署規劃 主機名 K8S版本 系統版本 CPU架構 內核版…

一次性接收大量上傳圖片,后端優化方式

文章目錄1. 分塊接收與流式處理2. 異步處理3. 內存映射與臨時文件4. 數據庫優化5. 緩存策略6. 壓縮與格式優化7. 限流與并發控制8. 分布式存儲9. 響應優化10. 監控與錯誤處理11. 數據庫連接池優化1. 分塊接收與流式處理 使用流式處理避免將所有圖片加載到內存中: …

二分查找(基礎)

競賽中心 - 藍橋云課 #include <iostream> #include<bits/stdc.h> using namespace std; #define int long long int N; struct NO {int A,B; }a[10001]; bool ok(int V) {for (int i 0; i < N; i){if (a[i].A / V ! a[i].B){return false;}}return true; } …

流式編程學習思路

流式編程學習思路 作為Java初級工程師,想要掌握流式編程并向高級工程師進階,需要從基礎到進階逐步掌握,結合實戰場景深化理解。以下是為你量身定制的學習清單和思路: 一、基礎階段:吃透 Java Stream 核心API 1. 掌握 Stream 的基本概念 什么是 Stream:理解它與集合(Co…

13-14linux三劍客grep,sed,awk

目錄 三劍客支持擴展正則寫法 grep命令 sed命令 sed指定行查找&#xff1a; sed模糊過濾文件內容 sed之刪除&#xff1a; sed之替換&#xff1a; sed追加插入替換&#xff1a; sed后向引用&#xff1a; awk命令 awk按照行查找 awk模糊過濾文件內容 awk取列 awk指…

損失函數和調度器相關類代碼回顧理解 |nn.CrossEntropyLoss\CosineAnnealingLR

目錄 nn.CrossEntropyLoss CosineAnnealingLR nn.CrossEntropyLoss loss_func nn.CrossEntropyLoss(reduction"sum") 定義nn.CrossEntropyLoss交叉熵損失函數&#xff0c;reduction參數設置為"sum"&#xff0c;表示將所有樣本的損失相加。reduction 參…

中國不同類型竹林分布數據

中國竹林分布的主要特點簡介&#xff1a;總體分布格局&#xff1a;核心區域&#xff1a; 主要分布在長江流域及以南的廣大亞熱帶和熱帶地區。北界&#xff1a; 大致以黃河流域為北界&#xff0c;但天然成片竹林在秦嶺-淮河一線以南才比較普遍。人工引種或特殊小環境下&#xff…

Sqlserver備份恢復指南-完整備份恢復

博主會用簡單清晰的方式&#xff0c;帶你系統學習使用T-SQL命令行的方式 給SQL Server 做備份與恢復。我們按照從零開始、逐步深入的路線來講解&#xff01; 完整備份恢復-差異增量備份恢復-事務日志備份恢復 &#x1f538; SQL Server 備份類型&#xff1a;類型說明完整備份&a…

AI 調酒師上崗!接管酒吧吧臺

7月29日&#xff0c;馬老師的 HHB 音樂酒吧在阿里巴巴西溪園區正式開業&#xff0c;開業這天迎來了一位神秘嘉賓“AI 調酒師”&#xff01; 這位 AI 調酒師不僅能根據你的MBTI、今日情緒、星座運勢、江湖花名等為你特調一杯雞尾酒&#xff0c;還能為這杯酒配上故事和詩文。 點…

【C++進階】一文吃透靜態綁定、動態綁定與多態底層機制(含虛函數、vptr、thunk、RTTI)

【C進階】一文吃透靜態綁定、動態綁定與多態底層機制&#xff08;含虛函數、vptr、thunk、RTTI&#xff09;作者&#xff1a;你的C教練 日期&#xff1a;2025-08-01目錄 靜態綁定 vs 動態綁定非虛函數的三大坑多態的四要素虛析構函數為什么必須寫&#xff1f;探秘 vptr/vftable…

VUE基礎知識2

1.計算屬性&#xff1a;使用計算屬性來描述依賴響應式狀態的復雜邏輯。關鍵字computed:{}//計算屬性&#xff0c;使用的時候和函數方法不一樣&#xff0c;不需要加括號。簡單來說就是模板方法的復雜邏輯放到了計算屬性中去。2.計算屬性緩存VS方法&#xff1a;計算屬性值會基于其…

在PyCharm中將現有Gitee項目重新上傳為全新項目

如果你想將當前本地的Gitee項目重新上傳為一個全新的Gitee項目&#xff08;保留本地代碼但斷開與原倉庫的關聯&#xff09;&#xff0c;可以按照以下步驟操作&#xff1a; 刪除舊的Git遠程倉庫關聯 打開PyCharm&#xff0c;進入你的項目 點擊頂部菜單 Git > Manage Remotes …

設計模式1:創建型模式

設計模式1&#xff1a;創建型模式 設計模式2&#xff1a;結構型模式&#xff08;編寫中&#xff09; 設計模式3&#xff1a;行為型模式&#xff08;編寫中&#xff09; 前言 設計模式是軟件開發中經過驗證的可復用解決方案&#xff0c;它們源自實踐、提煉于經驗&#xff0c;并…

React--》規劃React組件庫編碼規范與標準 — Button篇

目前前端組件化已經成為前端開發的核心思想之一&#xff0c;在這篇文章中將深入探討如何規劃一個規范的Button組件&#xff0c;讓它不僅能高效支持不同的功能需求還能確保跨項目、跨團隊的一致性&#xff0c;拋磚引玉的方式引出后面組件庫的其他組件的開發&#xff01; 目錄 B…

中科米堆CASAIM金屬件自動3d測量外觀尺寸三維檢測解決方案

金屬零部件的外觀尺寸檢測直接關系到產品的裝配精度和使用性能。CASAIM基于激光掃描技術的自動化三維掃描系統&#xff0c;為金屬加工行業提供了高效的自動3D測量解決方案&#xff0c;有效解決了傳統檢測方式效率低、覆蓋面有限等問題。激光掃描技術在金屬件測量中優勢明顯。與…

開源數據同步中間件,支持MySQL、Oracle

DBSyncer&#xff08;英[dbs??k??(r)]&#xff0c;美[dbs??k??(r) 簡稱dbs&#xff09;是一款開源的數據同步中間件&#xff0c;提供MySQL、Oracle、SqlServer、PostgreSQL、Elasticsearch(ES)、Kafka、File、SQL等同步場景。支持上傳插件自定義同步轉換業務&#xff0…