清華大學聯合項目 論文解讀 | MoTo賦能雙臂機器人:實現零樣本移動操作

研究背景

移動操作是機器人領域的核心挑戰,它使機器人能夠在各種任務和動態日常環境中為人類提供幫助。傳統的移動操作方法由于缺乏大規模訓練,往往難以在不同任務和環境中實現泛化。而現有操作基礎模型雖在固定基座任務中表現出強泛化性,卻無法支持移動基座運動,難以直接應用于移動操作場景。

針對以上難題,清華大學等研究團隊提出MoTo的零樣本插件模塊。該模塊可與任何現成的固定基座操作模型結合,通過交互感知導航策略生成合適的基座停靠點,并利用視覺 - 語言模型(VLM)生成交互關鍵點,引導機器人移動至能成功執行固定基座操作的位置,最終實現零樣本移動操作,且無需依賴移動操作專家數據。

這一方案解決了傳統方法中導航與操作目標脫節導致的復合誤差問題,同時突破了固定基座操作模型在移動場景中的應用限制。

松靈PiPER機械臂,以靈活組合賦能科研創新。單臂可精準操作,雙臂能協同作業,輕松搭建專屬雙臂機器人實驗平臺。只需簡單組合,即可獲得滿足實驗需求的定制化機器人,讓硬件適配不再成為科研阻礙,專注于核心技術的突破與論證。

論文核心方法論

交互感知導航策略:將移動操作任務分解為子任務,針對每個子任務確定目標對象,通過識別目標對象上的交互關鍵點(TK)和機械臂上的手臂關鍵點(AK),控制機器人移動至兩關鍵點對齊的位置,確保機械臂能有效操作目標對象。

VLM-based 關鍵點生成:采用兩階段流程生成關鍵點。先利用DINOv2和SAM提取圖像中的可操作點作為關鍵點提議,再通過VLM根據任務描述從提議中選擇最合適的TK和AK;對于TK,還通過多視圖投票機制聚合多視角預測,提升3D空間中的定位準確性。

關鍵點引導的優化:以最小化TK與AK距離為目標,結合碰撞成本(避免機器人與場景物體碰撞)、平滑性成本(保證運動軌跡連續平滑)和余量成本(確保機械臂有足夠操作空間),通過雙退火算法求解最優的移動基座和機械臂軌跡。

2MoTo的流程。基于機器人掃描RGB-D觀測獲取3D場景點云和圖,我們利用視覺語言模型(VLM)和多視圖一致性投票獲取交互關鍵點,并通過提出的成本約束優化生成移動操作軌跡

硬件設施

機器人平臺:

  • 仿真實驗中采用Hello Robot作為代理;

  • 真實世界實驗中,以HEXMOVE為基座,配備兩個松靈PiPER組成的雙臂移動操作機器人

傳感器配置:

  • 配備Femto Bolt RGB-D傳感器作為頭部相機,用于獲取高質量場景點云;

  • 兩個Gemini 336L RGB-D傳感器作為腕部相機,輔助操作任務執行;

  • 英特爾追蹤相機T265用于獲取機器人相機姿態,輔助場景重建。

  • 計算資源:仿真實驗在8塊RTX 3090 GPU上進行;真實世界實驗在單塊RTX 4060 GPU上完成

實驗設計與突破

仿真實驗:基于OVMM基準測試,該基準包含60個室內場景和18k + 日常物體3D模型,任務為 “將目標對象從容器A移至容器B”。對比MoTo與現有先進方法(如 Home-Robot、UniTeam等)在目標查找、抓取、容器查找和放置等階段的成功率,驗證其在仿真環境中的有效性。

?1:(OVMM)基準測試的對比結果。部分成功率表示每個階段的執行情況,其前提是前一階段成功完成。“RL”?和?“Heuristic”?分別指基于強化學習和啟發式的物體放置方法。默認使用強化學習方法。

ablation研究 :針對優化成本項(碰撞、平滑性、余量)和關鍵點生成方式(不同視覺模型、是否融合多視圖等)進行消融實驗,分析各組件對性能的影響。

2:優化成本項和關鍵點生成變體的消融實驗

真實世界實驗:部署多種固定基座操作模型(AnyGrasp、iDP3、RDT-1B),測試機器人在 “取食物”“遞水”“準備餐食” 等任務中的表現,通過任務成功率和子任務完成率評估 MoTo 的插件擴展性和實際應用效果。

移動操作新突破

?3:真實世界實驗結果。所有方法在三類移動操作任務上均運行10次,圖中的點代表每次測試的性能(彩色視圖效果最佳)。

關鍵成果與突破

  • 技術突破:首次實現了零樣本插件式移動操作框架,無需額外訓練數據即可將任意固定基座操作模型擴展至移動場景,解決了傳統方法泛化能力差、依賴大規模訓練數據的問題。

  • 性能提升:在OVMM 仿真和真實世界實驗中,成功率分別比最先進的移動操作方法高出2.68% 和16.67%,驗證了其在不同場景下的有效性。

  • 應用價值:為機器人在家庭服務、制造業等領域的實際部署提供了通用解決方案,推動了移動操作技術從實驗室向現實應用的轉化。

  • 研究啟示:強調了3D egocentric操作策略在提升移動操作性能中的潛力,為后續研究指明了方向。

結語

MoTo模塊的提出,不僅為移動操作領域提供了一種全新的零樣本解決方案,更打破了固定基座操作模型與移動場景之間的壁壘,推動了通用移動操作技術向實際應用邁出關鍵一步。這一研究的核心意義在于,它證明了通過插件式模塊賦能現有機器人系統的可行性 —— 無需重構底層架構,即可讓機器人在復雜環境中自主完成多樣化任務,為家庭服務、智能制造等場景的自動化升級提供了高效路徑。

由松靈PiPER機械臂組成的雙臂移動機器人,進一步提升了復雜任務的執行效率。凸顯了優質硬件平臺與先進算法結合時產生的協同效應

論文詳情:https://arxiv.org/pdf/2509.01658v1

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/98756.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/98756.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/98756.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

go webrtc - 2 webrtc重要概念

webrtc是一套音視頻傳輸技術生態,不是一個協議或一個什么東西。3種模式本文基于 SFU 形式闡述!重要概念:sfu 服務負責:信令 服務負責:peerConnection:track:房間:虛擬分組概念用戶&a…

“下游任務”概念詳解:從定義到應用場景

“下游任務”概念詳解:從定義到應用場景 一、什么是“下游任務”? 在機器學習(尤其是深度學習)中,“下游任務”(Downstream Task)是相對“上游過程”而言的目標任務——可以理解為:我…

視頻怎么做成 GIF?用 oCam 一鍵錄制 GIF 動畫超簡單

GIF 動圖因其生動直觀、無需點擊播放的特點,越來越受歡迎。你是否也曾看到一段有趣的視頻,想把它做成 GIF 發給朋友或用在PPT里?其實,將視頻片段轉換為 GIF 并不需要復雜的視頻剪輯技術,使用一款支持直接錄制為 GIF 的…

Vue.config.js中的Webpack配置、優化及多頁面應用開發

Vue.config.js中的Webpack配置、優化及多頁面應用開發 在Vue CLI 3項目中,vue.config.js文件是工程化配置的核心入口,它通過集成Webpack配置、優化策略和多頁面開發支持,為項目構建提供高度可定制化的解決方案。本文將從基礎配置、性能優化、…

行業學習【電商】:直播電商的去頭部化、矩陣號?

聲明:以下部分內容含AI生成這兩個詞是當前直播電商和MCN領域的核心戰略,理解了它們就理解了行業正在發生的深刻變化。一、如何理解“去頭部化”?“去頭部化” 指的是平臺或MCN機構有意識地減少對超頭部主播(如曾經的李佳琦、薇婭&…

【MFC視圖和窗口基礎:文檔/視圖的“雙胞胎”魔法 + 單文檔程序】

大家好,我是你的MFC編程小伙伴!學MFC就像探險古墓:到處是神秘的“房間”(窗口)和“寶藏”(數據)。今天咱們聊聊核心概念 – 視圖、窗口和文檔。這些是MFC的“骨架”,懂了它們&#x…

深度學習(六):代價函數的意義

在深度學習的浩瀚世界中,代價函數(Cost Function),又稱損失函數(Loss Function)或目標函數(Objective Function),扮演著至關重要的角色,它就像一個導航員&…

Kable使用指南:Android BLE開發的現代化解決方案

概述 Kable(com.juul.kable:core)是一個專為Android藍牙低功耗(BLE)開發設計的Kotlin協程友好庫。它通過提供簡潔的API和響應式編程模式,極大地簡化了BLE設備交互的復雜性。本文將詳細介紹Kable的使用方法,…

Android圖案解鎖繪制

使用到的庫是Pattern Locker,根據示例進行了修改,把默認樣式和自定義樣式進行了合并調整。 設置密碼 布局 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"xm…

Kotlin 協程之 Flow 的理解使用及源碼解析

前言 在前面的文章中&#xff0c;我們已經討論了 Channel 的概念和基本使用以及 Channel 的高階應用。這篇我們來看日常開發中更常用的Flow。 “冷流” 和 “熱流” 的本質 先來梳理一下所謂的 “冷流” 和 “熱流”。 核心概念 我們已經知道 Channel 是 “熱流”&#xff…

簡述ajax、node.js、webpack、git

本系列可作為前端學習系列的筆記&#xff0c;HTML、CSS和JavaScript系列文章 已經收錄在前端專欄&#xff0c;有需要的寶寶們可以點擊前端專欄查看&#xff01; 點贊關注不迷路&#xff01;您的點贊、關注和收藏是對小編最大的支持和鼓勵&#xff01; 系列文章目錄 簡述ajax、…

經營幫會員經營:全方位助力企業高效發展,解鎖商業新可能

在商業競爭愈發激烈的當下&#xff0c;企業若想脫穎而出&#xff0c;高效的經營管理體系至關重要。經營幫的會員經營板塊&#xff0c;憑借豐富且實用的功能&#xff0c;為企業打造了一站式的經營助力平臺&#xff0c;從多維度賦能企業&#xff0c;讓發展之路更順暢。會員經營與…

Vue 封裝Input組件 雙向通信

子組件<template><div class"box"><div class"box-left"><input blur"handleBlur" v-model"localInput" class"box-left-input"> </div><div class"box-right"><p style…

伽馬(gamma)變換記錄

此只記錄伽馬變換原理及其應用結果&#xff08;文章所有內容基于數字圖像處理-岡薩雷斯&#xff09;&#xff0c;和直接用MATLAB代碼生成伽馬變換代碼。一、原理伽馬變換的公式很簡答 就是一個有規律的冪運算 公式如下&#xff1a;一般在圖像中進行應用是 C1 y為不同值時r的輸…

電路學習(六)三極管

三極管是一種電流驅動元器件&#xff08;MOS管為電壓驅動&#xff09;&#xff0c;在電路中可以充當開關&#xff0c;放大電流等作用。本文章參考了尚硅谷的視頻資料。1. 什么是三極管&#xff1f;三極管又被稱為晶體三極管&#xff08;Bipolar Junction Transistor&#xff0c…

配置docker常見問題

輸入sudo yum install -y yum-utils device-mapper-persistent-data lvm2出現Cannot find a valid baseurl for repo: base/7/x86_64一、檢查網絡輸入ping www.baidu.com出現PING www.a.shifen.com (220.181.111.1) 56(84) bytes of data. 64 bytes from 220.181.111.1 (220.18…

Python 實戰:票據圖像自動矯正技術拆解與落地教程

在日常辦公自動化&#xff08;OA&#xff09;或財務數字化場景中&#xff0c;拍攝的票據常因角度問題出現傾斜、變形&#xff0c;不僅影響視覺呈現&#xff0c;更會導致 OCR 文字識別準確率大幅下降。本文將從技術原理到代碼實現&#xff0c;手把手教你用 Python 打造票據圖像自…

vue3+TS項目配置unocss

配置unocss &#xff08;1&#xff09;安裝依賴 npm i unocss unocss/preset-uno unocss/preset-attributify -D npm install unocss/transformer-directives&#xff08;2&#xff09;根目錄新建uno.config.ts文件 import { defineConfig } from "unocss"; impor…

嵌入式硬件工程師的每日提問

一、LDO與DC-DC的對比1&#xff09;同&#xff1a;兩者都是將不穩定的直流輸入電壓轉換為穩定的直流輸出電壓。2&#xff09;異&#xff1a;LDO&#xff1a;線性調節&#xff0c;通過內部功率晶體管&#xff0c;工作在線性區&#xff0c;穩定輸出電壓。類比&#xff1a;將湍急的…

從零到一使用Linux+Nginx+MySQL+PHP搭建的Web網站服務器架構環境——LNMP(下)

從零到一使用LinuxNginxMySQLPHP搭建的Web網站服務器架構環境——LNMP&#xff08;上&#xff09;https://coffeemilk.blog.csdn.net/article/details/151350565 一、Nginx與PHP-FPM整合原理 1.1、PHP-FPM配置文件 Nginx與PHP-FPM整合原理序號說明1 PHP-FPM是一個第三方的Fast…