CVPR 2025 | 機器人操控 | RoboGround:用“掩碼”中介表示,讓機器人跨場景泛化更聰明

點擊關注gongzhonghao【計算機sci論文精選

1.導讀

1.1

論文基本信息

  • 論文標題ROBOGROUND: Robotic Manipulation with Grounded Vision-Language Priors

  • 作者Haifeng Huang, Xinyi Chen, Hao Li, Xiaoshen Han, Yilun Chen, Tai Wang, Zehan Wang, Jiangmiao Pang,Zhou Zhao

  • 作者單位浙江大學、上海人工智能實驗室

  • 發表會議CVPR(計算機視覺與模式識別會議)

  • 論文鏈接https://arxiv.org/abs/2504.21530

圖靈學術論文輔導

2.論文概述

2.1

核心問題與背景

現有的模仿學習方法通常局限于特定場景,而大型視覺-語言-動作模型雖有進步,但在沒有大量特定數據和微調的情況下,仍難以泛化。

研究背景表明,通過引入中間表示可以為策略網絡提供指導。然而,現有的中間表示存在局限性:語言指令過于粗糙,缺乏空間精度;而目標圖像等細粒度表示則需要大量數據和計算資源。基于此,該論文通過引入一種兼具精細空間指導和強大泛化潛力的“接地掩碼”作為中間表示,來彌補現有方法的不足,從而構建一種更具魯棒性和泛化能力的機器人操縱策略

圖片

2.2

主要貢獻

文章首先提出ROBOGROUND策略:一種新穎的、基于接地掩碼的機器人操縱策略,顯著提升了機器人的泛化能力 ;其次,團隊創建了大規模多樣化數據集:提出了一種自動化數據生成流水線,生成包含24K個演示和112K個多樣化指令的復雜數據集,涵蓋物體外觀、空間關系和常識知識。此外,團隊還通過廣泛的實驗證明了接地掩碼作為中間指導的有效性,驗證了該方法在泛化到新穎設置時的優越性能 。

2.3

關鍵技術與創新點

ROBOGROUND創造性地引入了“接地掩碼”作為中間表示,它兼具兩者優勢。掩碼能夠提供精確的像素級空間信息,同時通過與預訓練視覺-語言模型的結合,具備強大的泛化潛力。

  • 接地視覺-語言模型:該模型基于GLaMM架構,能夠根據圖像和語言指令,為后續的策略網絡提供了高精度的空間指導。

  • 接地感知器:為了高效利用掩碼信息,論文設計了接地感知器。它通過在注意力機制中引入掩碼引導,確保模型將注意力集中在關鍵的物體和區域上,顯著提升了策略網絡的性能。

  • 指令多樣性:利用GPT-4等大型語言模型,生成了需要進行外觀、空間關系和常識推理的多種復雜指令,有效提高模型的學習能力。

3.研究背景及相關工作

3.1

現有機器人策略的泛化局限性

早期的機器人操縱策略主要依賴于從收集的演示中進行模仿學習,專注于在預定義場景中學習特定技能,因此泛化能力有限。近期VLA模型雖然通過大規模訓練數據和預訓練VLM來提升泛化能力,但它們仍然難以在沒有大量數據集和額外微調的情況下泛化到新穎環境中,而這些都成本高昂 。

圖片

3.2

中間表示的研究現狀

為了解決泛化問題,研究者們提出了使用中間表示來為策略網絡提供結構化指導。這些方法通常分為兩類:

  • 易于獲取但粒度粗糙的表示:例如語言指令,雖然易于生成,但往往缺乏精細物體操縱所需的空間精度 。

  • 粒度精細但資源密集型表示:例如目標圖像或點流,雖然提供了詳細的空間指導,但需要大量的訓練數據和計算資源,限制了其可擴展性。

3.3

相關工作對比

與本文方法密切相關的現有工作主要集中在兩個方面:中間表示和大型視覺-語言模型。

  • 中間表示方法:許多方法探索了不同的中間表示,如語言指令、2D軌跡、點流、目標圖像等。與本文方法最接近的是MOO,它使用預訓練的VLM生成粗糙的邊界框。本文方法與之不同之處在于,它專注于獲取精細的物體掩碼,并引入了高效的Grounded Perceiver來更好地利用基于掩碼的中間指導,從而提高操縱性能 。

  • 大型視覺-語言模型:本文,利用GLaMM模型生成目標物體和放置區域的接地掩碼,為低級策略網絡提供結構化指導。

圖片

4.實驗設計和方法

4.1

總體架構設計

論文提出的ROBOGROUND框架旨在通過將接地掩碼作為中間表示來增強機器人操縱策略的泛化能力。

  • 接地視覺-語言模型:

  • 基礎模型:模型以圖像和文本指令作為輸入,使用CLIP視覺編碼器獲取視覺特征,并通過MLP投影到LLM的嵌入空間。LLM結合視覺特征和文本指令生成文本輸出 。

  • 像素級接地:團隊使用一個微調過的SAM編碼器和一個類似SAM的解碼器。一個特殊的標記被引入LLM的詞匯表中,用于提取與接地相關的特征。

圖片

接地策略網絡:

  • 基礎模型:網絡遵循GR-1模型架構,處理歷史圖像觀察、機器人狀態和語言指令序列來預測未來的機器人動作 。

  • 掩碼整合機制:對于每個輸入圖像,其對應的掩碼Mo和Mp通過通道拼接的方式整合進來。拼接后的圖像輸入通過一個線性層投影回3個通道,然后輸入到預訓練的ViTMAE編碼器中。

  • 接地感知器:感知器接收來自視覺編碼器的補丁特征,并引入兩組額外的查詢token,分別對應目標物體和放置區域,它們在注意力層與補丁特征交互時,通過掩碼進行引導 。

5. 實驗結果分析

5.1

仿真環境與基線模型

實驗在RoboCasa仿真環境中進行,該環境提供了自動化的場景生成流水線。研究團隊將原始RoboCasa數據集歸類為“簡單”任務,并生成了包含“外觀”、“空間”和“常識”三類指令的復雜拾取-放置任務,以及開/關門、按按鈕等基本操縱技能任務。

5.2

主要結果與分析

在所有任務中,ROBOGROUND方法均顯著優于所有基線模型 。

  • 在復雜任務上的表現:ROBOGROUND在“外觀”、“空間”和“常識”任務上的成功率均有大幅提升,這表明接地掩碼的引入對于處理語義豐富的指令至關重要 。

  • 接觸率與成功率的差距:實驗觀察到,接觸率顯著高于成功率,這表明模型的抓取能力仍有待提升。

5.3

零樣本泛化評估

團隊為了評估模型的泛化能力,實驗設計了兩種零樣本設置:

  • 未見實例:在訓練數據中已存在的類別中的新物體上進行評估。

  • 未見類別:在訓練數據中未出現過的全新類別中的物體上進行評估 。

圖片

6.論文總結展望

6.1

論文總結

這篇論文成功地提出了ROBOGROUND這一新穎的機器人操縱策略,通過將“接地掩碼”作為中間表示,顯著增強了機器人策略的泛化能力。作者認為,接地掩碼能夠有效地平衡空間指導的精度和泛化潛力,為機器人策略網絡提供了關鍵的結構化信息。為了驗證這一方法的有效性,研究團隊設計了一套自動化數據生成流水線,構建了一個包含大規模、高復雜度和多樣化指令的仿真數據集。通過在這一挑戰性數據集上與多個基線模型進行廣泛對比實驗,以及在零樣本設置和消融研究中的深入分析,論文有力地證明了該方法在處理復雜、新穎場景和指令時的優越性。

6.2

論文展望

團隊認為,盡管ROBOGROUND取得了顯著成果,但論文也指出了未來的研究方向:

  • 提升抓取精度:實驗結果顯示接觸率與成功率之間存在差距,這表明模型的抓取能力仍有提升空間。

  • 探索更復雜的任務:當前的研究主要集中在拾取和放置任務以及一些基本技能上。未來的工作可以擴展到更復雜的、需要多步驟規劃和更精細操縱的機器人任務。

  • 真實世界部署:當前工作主要在仿真環境中進行。將該方法泛化并部署到真實世界機器人上,將是未來的一個重要研究方向,需要解決仿真與現實之間的差距問題。

  • 更高效的接地模型:未來可以探索更輕量級或更高效的接地模型,以加快推理速度并降低計算資源需求。

  • 本文選自gongzhonghao【計算機sci論文精選

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/93049.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/93049.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/93049.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

構建Node.js單可執行應用(SEA)的方法

如果為了降低部署復雜度,可以考慮使用vercel/ncc。除非有特別理由,不建議使用SEA。1. 環境準備1.1. 基礎要求Node.js: > 19.0.0 (推薦最新LTS版本)1.2. 安裝依賴npm install postject typescript1.3. 驗證環境node -v # 確認版本 > 19 ts…

Java19 Integer 位操作精解:compress與expand《Hacker‘s Delight》(第二版,7.4節)

compress(int i, int mask) 這個方法是Java 19中新增的一個強大的位操作函數。compress 方法的核心功能可以理解為 “按位過濾和壓縮” 。過濾 (Filter): 它使用 mask(掩碼)作為過濾器。對于輸入整數 i,只有那些在 mask 中對應位為 1 的比特才…

minio部署和雙機熱備

安裝單機版MinIO(準備2臺機器A、B,A、B服務器操作一致)切換目錄并下載MinIO二進制文件cd /usr/local/bin wget https://dl.minio.org.cn/server/minio/release/linux-amd64/minio chmod x minio編輯配置文件vi /etc/default/minio.confMINIO_VOLUMES&quo…

【Java】 Java 21 革命性升級:虛擬線程與結構化并發的深度實踐指南

還在為高昂的AI開發成本發愁?這本書教你如何在個人電腦上引爆DeepSeek的澎湃算力! Java 21 作為 Oracle JDK 的長期支持版本,引入了多項革命性特性,其中虛擬線程(Virtual Threads)和結構化并發(Structured Concurrency)尤為突出。這些特性旨在解決傳統線程模型在高并發…

Apache IoTDB 全場景部署:基于 Apache IoTDB 的跨「端-邊-云」的時序數據庫 DB+AI

Apache IoTDB 全場景部署:基于 Apache IoTDB 的跨「端-邊-云」的時序數據庫 DBAI 文章目錄Apache IoTDB 全場景部署:基于 Apache IoTDB 的跨「端-邊-云」的時序數據庫 DBAIApache IoTDB 介紹Docker部署指導企業版數據庫配套工具 WorkbenchTimechoDB&…

計算機網絡---傳輸控制協議Transmission Control Protocol(TCP)

一、TCP的定位與核心特性 TCP(Transmission Control Protocol,傳輸控制協議)是TCP/IP協議棧中傳輸層的核心協議,與UDP(用戶數據報協議)共同承擔端到端數據傳輸功能。其設計目標是在不可靠的IP網絡上提供可靠…

week1-[分支嵌套]公因數

week1-[分支嵌套]公因數 題目描述 給定 444 個正整數 a,b,c,ka,b,c,ka,b,c,k。如果 a,b,ca,b,ca,b,c 都是 kkk 的倍數,那么稱 kkk 是 a,b,ca,b,ca,b,c 的公因數。否則如果某兩個數都是 kkk 的倍數,那么稱 kkk 是這兩個數的公因數。問 kkk 是哪些數的公因…

C#枚舉/結構體講一講

先展示一段簡單代碼// 定義枚舉 public enum thisday {吃飯,不吃 }// 定義結構體 public struct person {public string name;public int age;public thisday zhuangtai; // 使用枚舉類型作為字段 }static void Main(string[] args) {// 創建結構體實例person thisperson;thisp…

C++-setmap詳解

Cset&map 1. 序列式容器和關聯式容器 1.1 序列式容器 序列式容器按照線性順序存儲元素,元素的位置取決于插入的時間和位置,與元素的值無關。 主要特點:元素按插入順序存儲可以通過位置(索引)直接訪問元素不自動排序…

解決程序連不上RabbitMQ:Attempting to connect to/access to vhost虛擬主機掛了的排錯與恢復

前言:在分布式系統里,RabbitMQ作為消息中間件,是服務間通信的關鍵紐帶。但實際使用中,程序連接RabbitMQ失敗的情況時有發生。本文結合真實報錯,細致呈現從問題發現到解決的完整排錯思路,還會深入講解Rabbit…

K8S中如何配置PDB(Pod Disruption Budget)

1. PDB 核心概念作用:控制自愿中斷(如節點升級、縮容)期間,應用的最小可用副本數或最大不可用比例。關鍵參數:minAvailable:必須保持運行的 Pod 數量(如 2 或 50%)。maxUnavailable&…

從 0 到 1:用 MyCat 打造可水平擴展的 MySQL 分庫分表架構

一、為什么要分庫分表? 單機 MySQL 的極限大致在:維度經驗值單表行數≤ 1 000 萬行(B 樹三層)單庫磁盤≤ 2 TB(SSD)單機 QPS≤ 1 萬(InnoDB)當業務繼續增長,數據量和并發…

電池模組奇異值分解降階模型

了解如何將奇異值分解 (SVD) 降階模型 (ROM) 應用于電池模塊熱模擬。挑戰隨著電池模塊在電動汽車和儲能系統中的重要性日益提升,其熱性能管理也成為一項重大的工程挑戰。高功率密度會產生大量熱量,如果散熱不當,可能導致電池性能下降、性能下…

《Python函數:從入門到精通,一文掌握函數編程精髓》

堅持用 清晰易懂的圖解 代碼語言,讓每個知識點變得簡單! 🚀呆頭個人主頁詳情 🌱 呆頭個人Gitee代碼倉庫 📌 呆頭詳細專欄系列 座右銘: “不患無位,患所以立。” Python函數:從入門到…

【記錄貼】STM32 I2C 控制 OLED 卡死?根源在 SR1 與 SR2 的讀取操作

問題描述最近在復用以前STM32F407控制OLED的代碼,移植到STM32F103 上,使用硬件 I2C 通信方式。按照常規流程,先發送 OLED 的從機地址,OLED 有正常應答,但當發送第一個控制命令(0xAE)前的控制字節…

【AI驅動的語義通信:突破比特傳輸的下一代通信范式】

文章目錄1 語義通信簡介1.1 基本概念:什么是語義通信?語義通信的核心目標1.2 基本結構:語義通信系統結構語義通信系統的通用結構組成語義通信系統的結構關鍵模塊1.3 基于大模型的語義通信關鍵技術🧠語義通信系統中AI大模型的設計建…

網絡原理-HTTP

應用層自定義協議自定義協議是指根據特定需求設計的通信規則,用于設備或系統間的數據交換。其核心在于定義數據結構、傳輸方式及處理邏輯。協議結構示例典型的自定義協議包含以下部分:頭部(Header):標識協議版本、數據…

ROS配置debug指南

一. 安裝插件 下面的這一個插件過期了需要用下面的這一個插件來替換:二. 設置CMakeLists.txt的編譯模式 set(CMAKE_BUILD_TYPE "Debug") set(CMAKE_CXX_FLAGS_DEBUG "$ENV{CXXFLAGS} -O0 -Wall -g -ggdb") set(CMAKE_CXX_FLAGS_RELEASE "$ENV{CXXFLAG…

微軟正式將GPT-5接入Microsoft Copilot Studio(國際版)

微軟宣布正式在Microsoft Copilot Studio(國際版)中集成GPT-5,推動智能體構建能力實現突破性升級。此次更新不僅為企業用戶帶來更高效的響應速度、更精準的語境理解能力,還通過增強的邏輯推理功能,顯著提升了AI交互的深…

微算法科技(NASDAQ:MLGO)通過蟻群算法求解資源分配的全局最優解,實現低能耗的區塊鏈資源分配

隨著區塊鏈網絡規模的不斷擴大和業務需求的日益復雜,資源分配問題逐漸成為制約其發展的關鍵因素之一。傳統的區塊鏈資源分配方法往往存在效率低下、能耗過高、難以達到全局最優解等問題。高能耗不僅增加了運營成本,還對環境造成了較大的壓力。因此&#…