數字孿生映射探索驅動的具身導航!MorphoNavi:面向對象映射的空地機器人導航

  • 作者: Sausar Karaf, Mikhail Martynov, Oleg Sautenkov, Zhanibek Darush, Dzmitry Tsetserukou

  • 單位:俄羅斯斯科爾科沃科學技術研究院智能空間機器人實驗室

  • 論文標題:MorphoNavi: Aerial-Ground Robot Navigation with Object Oriented Mapping in Digital Twin

  • 論文鏈接:https://arxiv.org/pdf/2504.16914

主要貢獻

  • 提出了面向通用空地機器人的單目相機映射方法,能夠在無需針對特定環境微調的情況下檢測多種物體并估計其位置。

  • 通過模擬搜索救援場景驗證了該方法的有效性,MorphoGear機器人成功定位到機器狗,為開發能夠在非結構化環境中運行的智能多模態機器人系統做出了貢獻。

  • 該方法在保留物體語義信息的同時,減少了對高帶寬通信的需求,且與現有的機器人感知系統兼容,可作為低成本替代方案,適用于僅配備相機和有限計算資源的機器人。

研究背景

  • 近年來,機器人領域發展迅速,尤其是基于RGB圖像的視覺語言模型(VLMs)成為執行任務的強大工具,其僅需圖像和文本提示輸入,無需昂貴的激光雷達和深度相機等傳感器。

  • 傳統的映射技術(如點云、八叉樹和網格恢復技術)主要關注物體形狀的保留,而本研究提出的方法還保留了物體的語義信息,有助于實現更高層次的理解,例如推斷房間功能、規劃多階段任務等。

  • 單目深度估計是機器人感知的關鍵部分,相關技術如ZoeDepth、Depth-Anything等在相對深度估計和度量深度估計方面取得了進展。同時,YOLO系列、Detectron2等模型在目標檢測方面表現出色,但存在類別限制,需要額外訓練。而零樣本和開放詞匯檢測器(如Grounding DINO 1.5 Pro、DINO X)以及基于變換器架構的模型(如OWL-ViT、OWLV2)為識別預訓練類別之外的物體提供了可能。

  • 視覺語言模型(VLMs)如Molmo、ChatGPT等在整合視覺和文本數據方面取得了突破,但其訓練主要基于二維圖像-文本對應關系,缺乏三維空間推理或深度感知能力,限制了其在機器人導航等需要三維環境理解的應用中的使用。為解決這一問題,出現了視覺語言行動(VLA)模型,如RT-1、PaLM-E等,但它們依賴于大規模、特定任務的數據集,且數據收集成本高、適用范圍有限。

研究方法

系統由MorphoGear空地機器人、帶有控制界面的筆記本電腦以及配備定位系統的環境組成。所有計算在機器人(控制)或個人電腦(映射)上進行,使用Unity游戲引擎進行模擬和控制。

MorphoGear機器人

是一種具有地面移動、物體抓取和空中運動能力的無人空地車輛(AGV),其硬件包括OrangePi 5b伴生計算機、OrangeCube飛行控制器、基于STM32的自定義肢體控制器和ELP-USBFHD05H 2MP 2.8-12mm 1:1.4 1/2.7” MJPEG相機。軟件基于ROS2 Iron,包含用于高級命令的Python節點和mavros,ROS#用于生成肢體運動。

地面站

操作員使用配備Unity和Python的筆記本電腦作為地面站,開發了機器人的數字孿生模型,用于虛擬實驗和作為控制面板。機器人將狀態發送到Unity,Unity僅作為可視化工具。通過ROS-TCP-Connector將Unity中的命令發送到機器人。

環境

實驗在一個6x10x4米的房間內進行,工作空間由網限制,路徑規劃網格為5x8x3米,配備了VICON定位系統。

映射算法

  • 系統以單目RGB圖像作為輸入,通過檢測物體并根據其已知幾何尺寸估計其位置來導航。在開發過程中,評估了包括OWLv2、OWL-ViT和DINO-X在內的多種目標檢測模型,最終選擇了OWLv2和Grounding DINO 1.5 Pro模型。

  • 基于已知的物體尺寸、相機內參和目標檢測器獲得的邊界框,利用公式估算物體距離,并結合Depth Anything v2和Segment Anything v2的深度估計結果,計算最終物體距離。處理后的物體數據被封裝成JSON文件并傳輸到基于Unity的模擬環境中。

實驗

通過模擬搜索救援場景評估所提出的系統,設置了一個機器狗遇到問題需要外部干預的案例,MorphoGear機器人的任務是定位機器狗。

實驗設置

在測試環境中放置了桌子、箱子和椅子等障礙物,限制了機器人的初始視野,使全圖觀察變得困難。機器狗被放置在由堆疊箱子組成的障礙物后面,以驗證MorphoGear機器人在地面和空中運動模式之間的轉換能力。

實驗過程

任務開始時,空地車輛捕獲環境的初始圖像,該圖像被映射管道處理,計算物體位置并發送到Unity基礎的GUI進行可視化和規劃。使用生成的地圖和機器人的位置構建障礙物網格,并由A*算法為MorphoGear機器人規劃軌跡。

實驗結果

  • 系統成功檢測并定位了場景中97.4%的目標物體,平均位置估計誤差為13.6厘米,平均每張圖像的處理時間為7.34秒。

  • 盡管系統在受控實驗室條件下表現良好,但仍存在一些局限性,如遮擋問題導致物體位置精度下降,對于未知形狀和不同方向的物體,基于單目的距離估計算法不夠準確,且系統尚未實現實時處理。

結論與未來工作

  • 結論
    • 論文提出了一種利用單目相機的通用空地機器人映射方法,能夠在復雜環境中檢測多種物體并估計其位置,無需針對特定環境進行微調。

    • 通過模擬搜索救援場景驗證了該方法的有效性,MorphoGear機器人成功定位到機器狗,系統在目標檢測率、位置估計準確性和處理時間方面表現出色。

  • 未來工作
    • 盡管如此,仍有一些需要改進的地方,如遮擋問題、未知形狀和不同方向物體的距離估計準確性以及實時處理能力。

    • 未來的工作將探索層次化和基于深度學習的方法來解決這些問題,還將研究將該映射系統與視覺語言模型(VLMs)集成,以增強其空間理解和認知推理能力,并探索實時優化策略以減少處理延遲,使系統更適合動態搜索救援場景。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/90522.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/90522.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/90522.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

統計與大數據分析與數學金融課程解析

CDA數據分析師證書含金量高,適應了未來數字化經濟和AI發展趨勢,難度不高,行業認可度高,對于找工作很有幫助。一、課程體系對比矩陣維度統計與大數據分析數學金融交叉領域數學基礎概率論(90%)隨機過程(85%)線性代數(100%)核心工具P…

整蠱小程序:關機程序(C語言)

整蠱小程序:關機程序(C語言) 跟著潼心走,輕松拿捏C語言,困惑通通走,一去不回頭~歡迎開始今天的學習內容,你的支持就是博主最大的動力。 目錄 整蠱小程序:關機程序(C語言) 程序內容…

PHP框架之Laravel框架教程:1. laravel搭建

1. laravel搭建 本教程適合有php基礎的同學學習 安裝方式一: 使用 Laravel 安裝器: 需要本地先安裝PHP 和 Composer,這個自行安裝下。 安裝完成后驗證方式: // 終端輸入,就可以看到結果 php --version composer --vers…

HMC7044芯片配置(圖文+解析+代碼仿真)

詳細代碼及仿真源文件已同步上傳至個人主頁資源(原創不易,轉載請注明出處) 目錄 模塊圖 代碼實現 時序圖 仿真圖 HMC7044介紹 一、概述 HMC7044是帶有 JESD204B 接口的高性能、3.2 GHz、14 路輸出抖動衰減器,提供 14 路低噪…

Dify開發教程筆記(一): 文件及系統參數變量說明及使用

開始 Copy page 定義“開始” 節點是每個工作流應用(Chatflow / Workflow)必備的預設節點,為后續工作流節點以及應用的正常流轉提供必要的初始信息,例如應用使用者所輸入的內容、以及上傳的文件等。 配置節點在開始節點的設置頁…

iOS 26,雙版本更新來了

7 月 25 日,蘋果終于給用戶推送了 iOS 26 的首個公測版本。參與了公測版計劃的小伙伴在軟件更新頁面選擇 iOS 26 Public Beta 就能升級 iOS 26 的公測版。同時蘋果還推送了 iOS 26 Beta 4 的第二個版本 。也就是說之前已經升級了 iOS 26 Beta 4 的小伙伴&#xff0c…

什么是JSON,如何與Java對象轉化

JSON概念 JSON (JavaScript Object Notation) 是一種輕量級的數據交換格式。它易于人閱讀和編寫,同時也易于機器解析和生成。JSON 基于 JavaScript(ECMAScript(歐洲計算機協會制定的js規范)) 編程語言的一個子集&…

從零開始的云計算生活——第三十六天,山雨欲來,Ansible入門

目錄 一.故事背景 二.Ansible簡介 什么是Ansible? Ansible的特點 Ansible的架構 三.Ansible任務執行解析 ansible任務執行模式 ansible執行流程 ansible命令執行過程(重要) 四.Ansible配置解析 ansible的安裝方式 ansible的程序結…

【6G新技術探索】AG-UI(Agent User Interaction Protocol) 協議介紹

博主未授權任何人或組織機構轉載博主任何原創文章,感謝各位對原創的支持! 博主鏈接 本人就職于國際知名終端廠商,負責modem芯片研發。 在5G早期負責終端數據業務層、核心網相關的開發工作,目前牽頭6G技術研究。 博客內容主要圍繞…

線性代數 下

文章目錄十一、方程組解的結構和性質1、齊次線性方程組2、非齊次線性方程組十二、Ax0的基礎解系十三、兩個方程組的公共解十四、同解方程十五、求特征值、特征向量十六、判斷A能否相似對角化十七、若A可以相似對角化,求P(Q)十八、二次型化標準型1、拉格朗日配方法2、…

Go語言實戰案例-自定義隊列結構

以下是《Go語言100個實戰案例》中的 數據結構與算法篇 - 案例24:自定義隊列結構 的完整內容,幫助初學者通過自定義結構體來實現隊列的數據結構。🎯 案例目標實現一個自定義的隊列結構,并提供常見的隊列操作:入隊&#…

Windows-WSL-Docker端口開放

本文介紹如何在局域網內訪問Windows服務器端口,特別是針對已安裝WSL環境并在其中運行Docker服務的情況。主要解決Docker服務向局域網開放端口的配置問題步驟一:配置轉發當你的應用程運行在WSL中時,需要執行此步驟。在宿主機(windo…

面試知識梳理-vue3和vue2區別

vue3相對于vue2的優勢 性能更好體積更小更好的ts支持(vue3 ts開發)更好的代碼組織更好的邏輯抽離更多新功能(vue2其實也都能自己做出來) 更好的代碼組織 Composition API 的革新 Vue 2 采用 ??Options API??,通過 …

棧的核心原理

1 棧的概念及結構棧是一種特殊的線性表,其特點是只允許在固定的一端進行插入和刪除操作。進行操作的一端稱為棧頂,另一端稱為棧底。棧中的元素遵循后進先出(LIFO,Last In First Out) 原則。壓\入\進棧(Push…

【無標題】暗物質暗能量——以下是用11維拓撲量子色動力學模型解釋暗物質和暗能量的完整理論框架。

暗物質暗能量——以下是用11維拓撲量子色動力學模型解釋暗物質和暗能量的完整理論框架。暗物質的拓撲本質 1. 跨橋零模振動理論 暗物質對應跨橋結構的基態振動模: math \phi_{\text{DM}} \frac{1}{\sqrt{6}} \sum_{f1}^6 \mathcal{B}_f^{(0)} $$ 其中 $\mathcal{B}…

【接口自動化】-1- 初識接口

一、什么是接口 接口涉及到四個實體:(我去飯店點餐) 我是客人 :客戶端 廚師:服務器 服務員:接口 菜單:接口文檔 接口定義了一套信息規則讓兩個系統之間互相不必知道對方的內部&#xff0c…

華為FTTR光貓V173 F30改公開版界面 附帶真正的s161補全一體固件

【本文介紹】 ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ 這款FTTR的V173 F30看著顏值很高 也很實用 畢竟是XGPON萬兆的光貓…

【學習】數字化車間與智能工廠如何推進制造業轉型

在制造業轉型升級的浪潮中,數字化車間與智能工廠已成為推動產業變革的核心引擎。前者通過物聯網、大數據與自動化技術的深度融合,實現生產流程的精細化管控與資源優化;后者則依托人工智能、5G通信與數字孿生技術,構建起具備自感知…

HTML元素與高級功能完全教程:從基礎到精通

目錄 章節1:HTML的靈魂——元素的本質與結構化思維 1.1 元素的核心:標簽、屬性與內容 1.2 語義化的革命 1.3 常見的“坑”與避坑指南 章節2:表單元素:打造交互的基石 2.1 表單基礎:與核心控件 2.2 高級輸入類型與驗證 2.3 表單的可訪問性與用戶體驗 章節3:HTML5多媒…

IP證書:構建數字世界知識產權安全防線的基石

引言 在數字化浪潮席卷全球的今天,知識產權(IP)的保護已成為企業、機構乃至個人面臨的重要挑戰。無論是商業秘密、專利技術,還是數字版權,其安全性和可信度都直接影響著創新生態的健康發展。而作為數字安全的核心工具…