MIR-2025 | 多模態知識助力機器人導航:從復雜環境到高效路徑規劃

  • 作者:Hui Yuan, Yan Huang, Zetao Du, Naigong Yu, Ziqi Liu, Dongbo Zhang, Kun Zhang

  • 單位:北京工業大學信息科學與技術學院,北京工業大學計算智能與智能系統北京市重點實驗室,中科院自動化研究所模式識別國家重點實驗室與多智能體系統實驗室,湘潭大學自動化與電子信息學院,上海科技大學信息科學與技術學院

  • 論文標題:Multimodal Pretrained Knowledge for Real-world Object Navigation

  • 論文鏈接:https://www.mi-research.net/en/article/pdf/preview/10.1007/s11633-024-1537-x.pdf

  • 出版信息:Machine Intelligence Research (2025)

主要貢獻

  • 提出了基于多模態預訓練知識的現實世界物體導航方法,通過在關鍵點進行視覺-語言跨模態對齊,有效地監督機器人導航。

  • 構建了室內物體數據庫,并開發了多模態對齊概念知識(MACK(indoor)),以支持各種場景下的物體檢索。

  • 提出了目標位置預測策略,能夠準確預測機器人接近目標物體的最佳位置和方向。

  • 在物理機器人上實現了該方法,并通過實驗驗證了其在現實世界環境中的優越性,成功率達到66.7%,優于現有方法。

研究背景

  • 視覺-語言導航(VLN)的挑戰:大多數VLN研究集中在模擬環境,但在現實世界中,由于視覺和語言之間的錯位,導致路徑偏差,方法難以泛化。

  • 現有方法的局限性:現有方法在動態或復雜環境中泛化能力有限,尤其是在關鍵位置的語義概念理解、大規模空間導航和復雜決策過程中。

  • 多模態預訓練知識的潛力:多模態預訓練技術在未配對圖像-文本匹配中表現出色,但尚未應用于現實世界的VLN任務。

研究方法

多模態預訓練知識(MACK(indoor))

  • 通過Open Images V7數據集和實驗室數據,收集了100個常見室內物體的詞-區域對,構建了MACK(indoor)。

  • 每個語義概念的視覺原型表示通過平均相關區域表示獲得,用于支持物體檢索。

關鍵點篩選與優化

  • 在預先構建的2D網格地圖上隨機生成多個航點,去除非可導航區域的航點,并將剩余航點指定為關鍵點。

  • 通過戰略性優化,確保生成的航點在關鍵位置(如交叉口、入口和視覺復雜區域)有效。

視覺-語言跨模態匹配

  • 使用Kinect v2.0相機捕獲的RGB圖像,應用自下而上的注意力機制提取圖像區域特征。

  • 將語音命令轉換為文本,通過MACK(indoor)映射到相應的特征表示,計算目標文本表示與圖像區域特征之間的相似性。

目標可導航位置預測

  • 在成功匹配目標物體后,利用深度信息輔助路徑規劃,使機器人能夠高效地接近目標物體。

  • 提出了一種結合目標物體深度信息和SLAM地圖數據的方法,預測機器人接近目標物體的最佳位置和方向。

實驗平臺與實現

  • 在物理機器人上實現了該方法,機器人平臺包括Kinect v2.0 RGB-D相機、支持桿、升降平臺、聯想9000P電腦、夾持器、專用支架和移動底盤。

實驗

數據集與評估指標

  • 使用Open Images V7數據集和實驗室收集的數據進行評估。

  • 采用“R@1”、“R@3”和“R@5”等指標評估多模態預訓練知識在關聯圖像區域與文本描述方面的有效性,并記錄平均最大相似度分數。

  • 通過平均路徑長度(APL)、成功率(SR)、路徑長度加權成功率(SPL)和平均導航時間等指標評估導航性能。

關鍵點密度的影響

  • 評估了不同關鍵點密度范圍對導航效率的影響,發現優化后的關鍵點密度范圍在3.5~4.5 m/point時,導航成功率最高,為66.7%。

與SOTA方法的比較

  • 與Sim-to-Real方法相比,所提出的方法在成功率和SPL方面分別提高了19.9和16.6個百分點。

不同物體對導航效率的影響

  • 發現較大物體更容易檢索,導航性能更好,而較小或較遠的物體匹配相似度分數較低,影響導航成功率,但通過“先裁剪后匹配”的策略可以提高性能。

動態和視覺復雜環境中的魯棒性分析

  • 在不同光照條件和環境布局下進行導航實驗,結果表明所提出的方法具有較強的泛化能力,在語義遮擋、相似干擾和復雜背景環境下,平均跨模態對齊相似度始終超過0.6。

討論與未來工作

討論

  • 所提出的方法在現實世界環境中表現出色,尤其是在關鍵點的視覺-語言對齊和目標位置預測方面。

  • 實驗結果表明,該方法在動態和視覺復雜環境中具有較強的魯棒性,但仍需進一步優化以應對極端條件(如黑暗環境)。

未來工作

  • 計劃為機器人配備全景相機和高精度3D雷達系統,以提高感知能力。

  • 將現有的VLN模型(如Discrete-Continuous-VLN、VLN-CE、Habitat和ETPNav)擴展到現實世界環境,以擴大其適用性。

  • 持續改進視覺-語言導航的魯棒性、可靠性和適應性,縮小理論與實踐之間的差距,最大化其現實世界的影響。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/77169.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/77169.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/77169.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

javaSE.泛型界限

現在有一個新的需求,沒有String類型成績了,但是成績依然可能是整數,也可能是小數,這是我們不希望用戶將泛型指定為除數字類型外的其他類型,我們就需要使用到泛型的上界定義: 上界👇只能使用其本…

壓縮包網頁預覽(zip-html-preview)

zip-html-preview 項目介紹 這是一個基于 Spring Boot 開發的在線 ZIP 文件預覽工具,主要用于預覽 ZIP 壓縮包中的 HTML 文件及其相關資源。 主要功能 支持拖拽上傳或點擊選擇多個 ZIP 文件自動解壓并提取 ZIP 文件中的 HTML 文件在線預覽 HTML 文件及其相關的 CSS、JavaSc…

QML之Overlay

Overlay(覆蓋層)是QML中用于在當前界面之上顯示臨時內容的重要組件。 一、Overlay基礎概念 1.1 什么是Overlay? Overlay是一種浮動在現有界面之上的視覺元素,具有以下特點: 臨時顯示,不影響底層布局 通…

iso17025證書申請方法?iso17025認證意義

ISO/IEC 17025證書申請方法 ISO/IEC 17025是檢測和校準實驗室能力的國際標準,申請CNAS認可的流程如下: 1. 前期準備 標準學習:深入理解ISO/IEC 17025:2017標準要求。 差距分析:評估現有實驗室管理與技術能力與標準的差距。 制…

reverse3 1(Base加密)

題目 做法 下載安裝包,解壓,把解壓后的文件拖進Exeinfo PE進行分析 32位,無殼 扔進IDA(32位),找到main,F5反編譯 只是因為在人群中多看了你一眼——第31行的right flag,關鍵詞找到…

電控---CMSIS概覽

1. CMSIS庫簡介 CMSIS(Cortex Microcontroller Software Interface Standard,Cortex微控制器軟件接口標準)是由ARM公司開發的一套標準化軟件接口,旨在為基于ARM Cortex-M系列處理器(如Cortex-M0/M0/M3/M4/M7/M33等&am…

list.

列表類型是用來存儲多個有序的字符串,列表中的每個字符串稱為元素(element),?個列表最多可以存儲個元素 在 Redis 中,可以對列表兩端插入(push)和彈出(pop),…

關于Diamond機械手的運動學與動力學的推導

1.關于Diamond機械手 (1)位置模型推導 逆解:機械末端平臺的位置與驅動關節之間的關系。 設p點在xy平面的坐標是(x,y)T,此時根據向量求解 OP等于向量r等于e向xy軸的向量主動臂長度向xy軸的向量…

如何新建一個空分支(不繼承 master 或任何提交)

一、需求分析: 在 Git 中,我們通常通過 git branch 來新建分支,這些分支默認都會繼承當前所在分支的提交記錄。但有時候我們希望新建一個“完全干凈”的分支 —— 沒有任何提交,不繼承 master 或任何已有內容,這該怎么…

Flask(補充內容)配置SSL 證書 實現 HTTPS 服務

沒有加密的http服務,就像在裸泳,鉆到水里便將你看個精光。數據在互聯網上傳輸時,如果未經加密,隨時可能被抓包軟件抓住,里面的cookie、用戶名、密碼什么的,它會看得一清二楚,所以,只…

云服務器CVM標準型S5實例性能測評——2025騰訊云

騰訊云服務器CVM標準型S5實例具有穩定的計算性能,CPU采用采用 Intel Xeon Cascade Lake 或者 Intel Xeon Cooper Lake 處理器,主頻2.5GHz,睿頻3.1GHz,CPU內存配置2核2G、2核4G、4核8G、8核16G等配置,公網帶寬可選1M、3…

什么是智算中心

智算中心是一種專門為智能計算提供強大算力支持的基礎設施,以下是關于它的詳細介紹: 定義與功能 智算中心是基于強大的計算能力,特別是針對人工智能算法進行優化的計算中心。它集成了大量的高性能計算設備,如 GPU 集群、FPGA 陣…

注意力機制是如何實現的

注意力機制的實現可以分解為幾個核心步驟,其本質是通過動態計算權重,決定不同位置信息的重要性,再對信息進行加權融合。以下從數學原理、代碼實現到直觀解釋逐步展開: 一、核心實現步驟 以最常見的**點積注意力(Dot-P…

【裁員感想】

裁員感想 今天忽然感覺很emo 因為知道公司要裁員 年中百分之10 年末百分十10 我知道這個百分20會打到自己 所以還挺不開心的 我就想起 我的一個親戚當了大學老師 我覺得真的挺好的 又有寒暑假 又不是很累 薪資也不低 又是編制 同時也覺得自己很失敗 因為對自己互聯網的工作又…

從信號處理角度理解圖像處理的濾波函數

目錄 1、預備知識 1.1 什么是LTI系統? 1.1.1 首先來看什么是線性系統,前提我們要了解什么是齊次性和疊加性。

目標檢測概述

為什么基于卷積網絡的目標檢測模型在預測后要使用非極大值抑制 基于卷積網絡的目標檢測模型可能會在目標的相鄰區域生成多個相互重疊框,每個框的預測結果都是同一個目標,引起同一目標的重復檢測。造成這一現象的原因主要有兩個, 基于卷積網絡…

【JAVA】在idea新加artifact時,點擊Build-Build Artifacts時,新加的artifact不能選中

首先保證添加artifact無問題,比如依賴都正確、無重復命令的情況等 辦法 一 File > Invalidate Caches / Restart。 重啟IDEA后,重新檢查Artifact是否可選 辦法 二 打開 Project Structure(CtrlShiftAltS)。 進入 Artifacts 選…

Paramiko 使用教程

目錄 簡介安裝 Paramiko連接到遠程服務器執行遠程命令文件傳輸示例 簡介 Paramiko 是一個基于 Python 的 SSH 客戶端庫,它提供了在網絡上安全傳輸文件和執行遠程命令的功能。本教程將介紹 Paramiko 的基本用法,包括連接到遠程服務器、執行命令、文件傳輸…

《TCP/IP網絡編程》學習筆記 | Chapter 24:制作 HTTP 服務器端

《TCP/IP網絡編程》學習筆記 | Chapter 24:制作 HTTP 服務器端 《TCP/IP網絡編程》學習筆記 | Chapter 24:制作 HTTP 服務器端HTTP 概要理解 Web 服務器端無狀態的 Stateless 協議請求消息(Request Message)的結構響應消息&#x…

【Quest開發】在虛擬世界設置具有遮擋關系的透視窗口

軟件:Unity 2022.3.51f1c1、vscode、Meta XR All in One SDK V72 硬件:Meta Quest3 僅針對urp管線 參考了YY老師這篇,可以先看他的再看這個可能更好理解一些:Unity Meta Quest MR 開發(七):使…