研究背景
移動操作是機器人領域的核心挑戰,它使機器人能夠在各種任務和動態日常環境中為人類提供幫助。傳統的移動操作方法由于缺乏大規模訓練,往往難以在不同任務和環境中實現泛化。而現有操作基礎模型雖在固定基座任務中表現出強泛化性,卻無法支持移動基座運動,難以直接應用于移動操作場景。
針對以上難題,清華大學等研究團隊提出MoTo的零樣本插件模塊。該模塊可與任何現成的固定基座操作模型結合,通過交互感知導航策略生成合適的基座停靠點,并利用視覺 - 語言模型(VLM)生成交互關鍵點,引導機器人移動至能成功執行固定基座操作的位置,最終實現零樣本移動操作,且無需依賴移動操作專家數據。
這一方案解決了傳統方法中導航與操作目標脫節導致的復合誤差問題,同時突破了固定基座操作模型在移動場景中的應用限制。

松靈PiPER機械臂,以靈活組合賦能科研創新。單臂可精準操作,雙臂能協同作業,輕松搭建專屬雙臂機器人實驗平臺。只需簡單組合,即可獲得滿足實驗需求的定制化機器人,讓硬件適配不再成為科研阻礙,專注于核心技術的突破與論證。
論文核心方法論
交互感知導航策略:將移動操作任務分解為子任務,針對每個子任務確定目標對象,通過識別目標對象上的交互關鍵點(TK)和機械臂上的手臂關鍵點(AK),控制機器人移動至兩關鍵點對齊的位置,確保機械臂能有效操作目標對象。
VLM-based 關鍵點生成:采用兩階段流程生成關鍵點。先利用DINOv2和SAM提取圖像中的可操作點作為關鍵點提議,再通過VLM根據任務描述從提議中選擇最合適的TK和AK;對于TK,還通過多視圖投票機制聚合多視角預測,提升3D空間中的定位準確性。
關鍵點引導的優化:以最小化TK與AK距離為目標,結合碰撞成本(避免機器人與場景物體碰撞)、平滑性成本(保證運動軌跡連續平滑)和余量成本(確保機械臂有足夠操作空間),通過雙退火算法求解最優的移動基座和機械臂軌跡。

圖2:MoTo的流程。基于機器人掃描RGB-D觀測獲取3D場景點云和圖,我們利用視覺語言模型(VLM)和多視圖一致性投票獲取交互關鍵點,并通過提出的成本約束優化生成移動操作軌跡。
硬件設施
機器人平臺:
-
仿真實驗中采用Hello Robot作為代理;
-
真實世界實驗中,以HEXMOVE為基座,配備兩個由松靈PiPER組成的雙臂移動操作機器人。
傳感器配置:
-
配備Femto Bolt RGB-D傳感器作為頭部相機,用于獲取高質量場景點云;
-
兩個Gemini 336L RGB-D傳感器作為腕部相機,輔助操作任務執行;
-
英特爾追蹤相機T265用于獲取機器人相機姿態,輔助場景重建。
-
計算資源:仿真實驗在8塊RTX 3090 GPU上進行;真實世界實驗在單塊RTX 4060 GPU上完成
實驗設計與突破
仿真實驗:基于OVMM基準測試,該基準包含60個室內場景和18k + 日常物體3D模型,任務為 “將目標對象從容器A移至容器B”。對比MoTo與現有先進方法(如 Home-Robot、UniTeam等)在目標查找、抓取、容器查找和放置等階段的成功率,驗證其在仿真環境中的有效性。

表?1:(OVMM)基準測試的對比結果。部分成功率表示每個階段的執行情況,其前提是前一階段成功完成。“RL”?和?“Heuristic”?分別指基于強化學習和啟發式的物體放置方法。默認使用強化學習方法。
ablation研究 :針對優化成本項(碰撞、平滑性、余量)和關鍵點生成方式(不同視覺模型、是否融合多視圖等)進行消融實驗,分析各組件對性能的影響。

表2:優化成本項和關鍵點生成變體的消融實驗
真實世界實驗:部署多種固定基座操作模型(AnyGrasp、iDP3、RDT-1B),測試機器人在 “取食物”“遞水”“準備餐食” 等任務中的表現,通過任務成功率和子任務完成率評估 MoTo 的插件擴展性和實際應用效果。
移動操作新突破

圖?3:真實世界實驗結果。所有方法在三類移動操作任務上均運行10次,圖中的點代表每次測試的性能(彩色視圖效果最佳)。
關鍵成果與突破
-
技術突破:首次實現了零樣本插件式移動操作框架,無需額外訓練數據即可將任意固定基座操作模型擴展至移動場景,解決了傳統方法泛化能力差、依賴大規模訓練數據的問題。
-
性能提升:在OVMM 仿真和真實世界實驗中,成功率分別比最先進的移動操作方法高出2.68% 和16.67%,驗證了其在不同場景下的有效性。
-
應用價值:為機器人在家庭服務、制造業等領域的實際部署提供了通用解決方案,推動了移動操作技術從實驗室向現實應用的轉化。
-
研究啟示:強調了3D egocentric操作策略在提升移動操作性能中的潛力,為后續研究指明了方向。
結語
MoTo模塊的提出,不僅為移動操作領域提供了一種全新的零樣本解決方案,更打破了固定基座操作模型與移動場景之間的壁壘,推動了通用移動操作技術向實際應用邁出關鍵一步。這一研究的核心意義在于,它證明了通過插件式模塊賦能現有機器人系統的可行性 —— 無需重構底層架構,即可讓機器人在復雜環境中自主完成多樣化任務,為家庭服務、智能制造等場景的自動化升級提供了高效路徑。
由松靈PiPER機械臂組成的雙臂移動機器人,進一步提升了復雜任務的執行效率。凸顯了優質硬件平臺與先進算法結合時產生的協同效應。
論文詳情:https://arxiv.org/pdf/2509.01658v1