ROBOVERSE 包含一個可擴展的仿真平臺、大規模的合成數據集,以及統一的基準測試。
- 該仿真平臺通過統一協議,支持新任務和演示的無縫接入,保證了靈活性和可擴展性。
- 該數據集包含 1,000 多個多樣化任務及超過 1,000 萬個狀態轉換,構建手段包括大規模數據遷移、跨機型遷移,以及強健的數據增強和隨機化。
0. 前言
代碼頁
論文頁
項目頁
最近在復現了幾個VLA之后,重點轉移到如何將現有的VLA部署到自己的任務上,但是每種VLA的仿真環境、所需求的數據集類型、格式等等各不相同,令我十分苦惱,十分想要有一個環境、基準、數據集都能夠方便的應用各種現有的,甚至未來的 VLA。
目前 HuggingFace 的 lerobot 是在做類似的工作,LeRobot 確實在朝「一套通用接口+數據+仿真環境」的方向努力,不過它跟我心目中那種專門針對 VLA 的「開箱即用」平臺還有些差別,目前 LeRobot 的核心方法主要還是模仿學習(imitation learning)和強化學習(RL),它把人類示范+經典 RL 算法打包好了,方便訓練和評估。
RoboVerse 也是類似的工作,不過集成的仿真環境更多一點,提供了更完善的資源格式轉換,但是實際效果還需要和lerobot對比之后才知道,最近還加入了SmolVLA,2025.6.2,huggingface自己發的一篇VLA,主要特點就是速度快,推理資源消耗小。
1. 背景與相關技術
1.1 提出問題
老生常談,數據規模化和標準化評估基準推動了 NLP 和 CV 的重大進展,具體而言,大規模數據提供了充足的訓練樣本以增強學習效果,而統一基準則實現了用標準化的評估衡量不同方法的公平比較。
然而,機器人領域在數據擴展與建立可靠評估協議方面面臨獨特挑戰,收集真實環境下的機器人數據既耗費資源又低效,而在真實場景中進行基準測試也非常復雜。
- 首先,采集示范耗時且資源密集,所得數據通常依賴特定硬件或感知模態,限制了其向新場景的適應性。
- 建立標準化且廣泛適用的基準本質上很難,因為幾乎不可能重現完全相同的條件來保證公平比較。例如,同一物體的位置在多次運行中會變化,戶外自然光照會波動,背景環境也可能改變。
因此,在真實場景中擴展數據集、評估策略和迭代開發仍然成本高昂且難以標準化。
模擬器為構建大規模數據集和基準測試提供了有前景的替代方案。近期諸多工作已在不同的機器人任務中展示了基于仿真的方法潛力,但現有嘗試常在數據質量、多樣性和基準標準化方面不盡如人意。
- 首先,使用模擬器往往需要豐厚專業背景,因模擬器設計復雜且多平臺尚不成熟,進而使數據構建過程復雜化。
- 其次,各模擬器在內部架構和外部接口上差異巨大,導致數據和模型的遷移或工作流的適配都非常費力。
因此,復用現有合成數據集和基準變得困難,形成了分散的生態系統,進一步阻礙了在仿真環境中便捷構建和有效利用大規模數據。
模擬器是?切的基礎物理引擎
仿真環境則是在此基礎上,構建起完整的「任務+數據+評測」體系。
1.2 解決問題
為解決這些難題,作者提出了 ROBOVERSE,一個可擴展的仿真平臺,將現有模擬器在統一格式與基礎設施下整合,并提供大規模合成數據集與統一基準。為達成此目標,作者首先提出 METASIM,作為 ROBOVERSE 的核心基礎設施。
通過精心設計,METASIM 為智能體、物體、傳感器、任務和物理參數建立了通用配置系統,并提供了與模擬器無關的接口來進行仿真設置與控制。
這種架構可實現來自不同仿真環境的任務、資源和機器人軌跡的無縫整合,僅需極少適配工作。
METASIM 提供了三大關鍵能力:
- 跨模擬器集成:支持在不同模擬器之間一鍵切換,讓基準測試更統一、更方便遷移。
例如,可將 Meta-World [134] 的任務用于 Isaac Gym [75] 的快速并行訓練,然后將生成的軌跡部署到 Isaac Sim [88] 進行渲染。 - 混合仿真:把一個仿真器的高級物理和另一個的超強渲染“拼”在一起,既高效又好看,讓用戶兼享不同模擬器的優勢。
具體來說,僅需一條命令,即可將具備強大渲染能力的模擬器(如 Isaac Sim)與擁有精準物理引擎的模擬器(如 MuJoCo)聯合啟動,形成更強大的仿真,從而生成高質量數據。 - 跨機型遷移:通過重新定向末端執行器的姿態,在不同平行夾爪機械臂形態間復用軌跡,使來自多種機器人的數據能夠整合為統一格式。
比如把 UR5 的抓取動作映射到 Panda 機械臂上,不用重新采集數據,也能讓 Panda “學會”同樣的操作。
METASIM 使 ROBOVERSE 能夠系統地優化構建和擴展仿真環境與數據集的那個工作流。他們的方法具有以下特性:
- 可擴展且多樣的數據生成:對齊多個基準和任務軌跡,通過多源整合與數據過濾,生成海量高質數據;再配合隨機化和增強,數據多到讓模型“吃不完”
- 真實感仿真與渲染:用混合仿真能力,把高精度物理和逼真場景拼到一起,讓機器人“在虛擬世界里也能以假亂真”。
- 統一的基準與評估:將常用基準整合成一套系統,簡化算法開發和性能比對,并引入標準化協議評估泛化與仿真到真實的遷移能力。
- 高擴展性與可擴展性:統一 API 與基礎設施讓算法集成、測試、部署更高效;并提供真到虛、遙操作、多種 AI 生成方法,助力大規模任務和數據創建。
借助這些工作流,ROBOVERSE 構建了迄今最大、最具多樣性且高質量的合成數據集與基準,且均以統一格式呈現。該數據集包含約50萬條高保真軌跡,涵蓋276個任務類別和約5500個資源(資產)。此外,還生成了超過5000萬條高質量狀態轉換以支持策略學習。
除了數據集和基準構建外,他們通過在模仿學習(第?VI?B 節)、強化學習(第?VI?C 節)和世界模型學習(第?VI?E 節)上的大規模實驗,探索了 ROBOVERSE 的潛力。此外,還為模仿學習和強化學習提出了統一基準,實現了不同泛化水平下的一致評估。
結果表明,ROBOVERSE 可實現可靠的策略學習與評估,通過高保真物理和渲染支持強大的sim2sim(第?VI?G 節)及sim2real(第?VI?F 節)遷移,并通過遙操作(第?IV?C 節)、軌跡增強(第?IV?D?1 節)、域隨機化(第?IV?D?2 節)和生成模型(第?IV?C 節)等方法高效擴展數據。
1.3 相關工作
1.3.1 機器人模擬器Simulator
計算機圖形學的進步促進了高保真模擬器的發展,這些模擬器在機器人研發中被廣泛使用。
CoppeliaSim、Bullet 和 MuJoCo 提供精確的物理仿真,并在強化學習和機器人基準測試等應用中得到廣泛使用。
Isaac?Gym、Isaac?Sim、SAPIEN、MuJoCo?MJX 和 Genesis 利用 GPU 算力以提升性能,支持大規模強化學習和高效數據收集,大幅提高訓練速度和可擴展性。
有些模擬器專注于縮小 sim2real 的差距,引入光線追蹤和定制渲染器以實現照片級真實感渲染。此外,Isaac?Sim 和 Genesis 提供高保真的軟體和液體仿真,拓展了機器人與柔性物體和流體互動的場景。
ROBOVERSE 提出一個支持多種模擬器的統一平臺,便于在它們之間無縫切換,并啟用混合集成以發揮各模擬器的優勢。
1.3.2 大規模的機器人數據集
機器人社區長期以來一直認識到大規模、高質量和多樣化數據集的匱乏。
RoboNet 是一個大規模操控數據集,包含來自多種機器人平臺的大約 16.2 萬條軌跡。DROID 已收集了超過 7.6 萬條富含接觸信息的機器人操作示范,涵蓋 86 個任務。RH20T 提出了一個包含 10 萬多條示范和 147 個任務的數據集。
與此同時,RT?1 將示范數量提升至 13 萬條,覆蓋 700 多個任務。Open X?Embodiment 展示了一種有前景的方法,匯集社區力量,收集了 100 多萬條軌跡,涵蓋 160,266 個任務和 22 種不同的機器人形態。
這個純純縫合怪,收集了大量學校、研究所、各種機構的數據,質量參差不齊,用的時候一般就是摘出來自己想要的去用
在此階段,隨著示范軌跡數量增加,采集成本和投入的工作量成正比增長,令真實世界數據集難以進一步擴大規模。基于仿真的數據收集為真實世界數據集的高成本和低效率提供了有前景的解決方案。
Hussing等人提出的、RoboCasa、DexGraspNet?2.0。盡管有這些工作,合成數據集常散落于不同的模擬器中,導致生態系統分散,數據多樣性和質量受限。此外,仿真數據常無法涵蓋真實世界中復雜的物理現象和多樣化任務變體,可能導致對特定模擬器的過擬合,妨礙在現實場景中的泛化能力。
合成數據集很多了,但是很分散,而且不夠“真”
ROBOVERSE 提供了一個針對大規模、高質量和多樣化合成數據的統一解決方案。它讓智能體可在大量不同環境和模擬器上訓練,以減少過擬合,從而提升所學策略的魯棒性。
1.3.3 機器人種的基準測試
基準測試在機器人領域依然是一個關鍵但極具挑戰性的問題。與監督學習任務相比,評估機器人模型的性能相對更困難。
Meta?World 是早期多任務基準測試的嘗試。隨后出現了 RLBench、BEHAVIOR?1K、Habitat 和 ManiSkill 等,涵蓋了大量不同的機器人任務。
Grutopia 和 InfiniteWorld 向通用型機器人基準測試邁出了關鍵一步。盡管為這些基準付出了大量努力,但并不保證在不同基準間的結果具有可復現性。這種不確定性來源于仿真精度、渲染風格和資源屬性等多方面差異。
為應對這些挑戰,ROBOVERSE 使研究者能夠在多個基準和模擬器上無縫評估策略,而無需單獨熟悉每一個平臺。
2. 基礎架構:METASIM
METASIM,一種位于各具體仿真環境實現之上的高層接口。它也是 ROBOVERSE 的核心基礎設施。
如圖?2 所示,METASIM 為 ROBOVERSE 仿真平臺賦能,使其能夠生成大規模高質量數據集,并構建統一的基準測試。
如圖?3 所示,METASIM 采用三層架構:通用配置系統、與模擬器無關的接口,以及友好的環境封裝層。
- 通用配置系統統一仿真場景的規范,并保證各模擬器間格式一致。
- 與模擬器無關的接口負責解析這些規范,將其轉換為各模擬器所需的命令,從而對齊不同模擬器的后端實現。
- 環境封裝層將上述無關接口包裝成標準化的學習環境,比如 Gym 環境。
Gym 環境:強化學習中通用的接口規范,所有算法都能通過 step()、reset() 等方法對接。
將在下面的章節中更詳細地介紹每一層。
2.1 METASIM 實現細節
2.2.1 通用配置系統
一個典型的仿真環境由智能體(agents)、物體(objects)、任務(tasks)、傳感器(sensors)和物理參數(physics parameters)組成。
它們共同定義了:誰來執行動作(agents)、環境看起來的樣子(objects)、智能體該做什么(tasks,包括指令、成功標準和獎勵)、環境如何被感知和測量(sensors),以及支配物理運動的規則(physics parameters)。
理想情況下,這些組件應與模擬器無關,需要統一的仿真場景標準。無論跑哪個模擬器,都按照同一個模版來填,方便共享與復用。
這種標準將使研究者能夠在不同模擬器間無縫工作,并通過跨模擬無縫整合社區已有成果。
基于這一原則,作者設計了 MetaConfig 配置系統,以與模擬器無關的方式抽象仿真場景。如圖?4 所示,MetaConfig 是一個嵌套類,包含了上述核心組件。
它可以被不同的模擬器后端解釋,用于構建相應的仿真環境。此外,MetaConfig 支持可選的模擬器特有超參數(如求解器類型),通過定制化充分利用不同模擬器的獨特功能。
2.2.2 對齊的模擬器后端
不同模擬器在實現和功能側重點上各有差異。然而,初始化場景、加載物體、推進物理引擎、獲取觀測、時間管理和判定成功狀態等常規操作通常模式相似。
為標準化這些通用操作,作者通過 Handler 類創建了一個統一接口。每個模擬器都有一個對應的 Handler 實例來實現該接口。Handler 類實現了包括 launch()、get_states()、set_states() 等常用方法,覆蓋了仿真任務的整個生命周期。API 的使用示例見代碼?1。更多內容請參見補充材料。
2.2.3 用戶友好的環境封裝器
Gym 是強化學習和機器人領域廣泛采用的范式,其中 gym.Env 類是構建學習環境的基礎。他們定義了一個封裝器,用于將 Handler 輕松轉換為具備 Gym API(step()、reset()、render()、close())的環境。
如代碼?1 所示,這些方法均通過調用底層的 Handler 方法來實現。
3. RoboVerse 數據集
3.1 數據集概覽
在 METASIM 之上,通過整合多種數據采集方法,生成大規模高質量數據集。總體而言,需要采集三類關鍵數據:任務(tasks)、資源(assets)和機器人軌跡(robot trajectories)。
任務:機器人要完成的操作指令;資源:場景中的物體模型、材質、燈光等;軌跡:機器人執行任務的連續狀態與動作。
這些數據的主要來源是從現有模擬環境進行遷移。除了遷移,他們還探索了多種數據采集方法,例如利用大語言模型生成新任務,借助real2sim 工具集從現實中重建場景資源,通過遙操作收集新軌跡等。此外,還對軌跡和視覺觀察數據采用增強方法。最后,報告了 ROBOVERSE 中數據遷移的最新進展統計。
3.2 任務、資源、軌跡收集:遷移
利用 ROBOVERSE 的格式和基礎設施,作者以統一的格式和整潔的代碼庫,實現了對多種基準和數據集的無縫整合。
采用了以下方法來采集任務定義和示范數據:
- 直接從其他模擬環境遷移
部分基準自帶重要組件,可直接集成到 ROBOVERSE 中。作者為任務初始化和評估定義環境配置,然后轉換軌跡數據和資源格式,以實現無縫兼容。值得注意的是,ROBOVERSE 首先在原模擬器中對齊格式,然后自動確保所有模擬器間的兼容性,從而簡化了遷移流程。 - 運動規劃與強化學習部署
當部分基準只提供關鍵點軌跡或抓取姿態等片段數據時,使用運動規劃生成完整的軌跡。若無現成的示范數據,但已有可用的策略或強化學習框架,我們將利用這些策略或新訓練策略,通過部署(rollout)收集示范數據。為保證數據高質量并符合我們的系統標準,他們會對成功判定器進行適配,并嚴格過濾規劃與收集到的所有軌跡。
通過上述技術,已將多種現有的操作數據集遷移至 ROBOVERSE:目前,它支持的包括?ManiSkill、RLBench、CALVIN、Meta-World、robosuite、MimicGen、GAPartNet、Open6DOR、ARNOLD、LIBERO、SIMPLER、GraspNet、GarmentLab 以及 UniDoorManip 等數據集。
他們還集成了更廣泛機型的數據集,包括靈巧機械手、四足機器人和人形機器人,涵蓋靈巧操作、運動、導航與全身控制等任務。目前,已遷移了用于導航的?VLN?CE R2R 和?RxR,以及用于行走和全身控制的?HumanoidBench 和?Humanoid?X。
3.3 任務、資源、軌跡收集:遙操和生成
3.3.1 用于軌跡采集的遙操作系統
正如圖?5 所示,ROBOVERSE 在 METASIM 架構中集成了遙操作系統,提供了靈活高效的高質量數據采集方案。
它支持多種機器人系統,包括機械臂、靈巧機械手以及雙臂配置,實現了跨模擬器的無縫遙操作。
為降低專業設備的高成本和復雜性,他們引入了一種交互式運動控制系統,采用鍵盤、手柄、移動應用(我們針對 Android 和 iOS 開發了新應用用于控制機械臂;詳見補充材料)、動作捕捉(Mocap)和 VR 系統等易得設備。
這些設備集成的傳感器能夠捕捉運動數據,實現自然的手勢式控制,并通過實時高頻通信保證精確且低成本的遠程操作。更多細節請參見補充材料。
3.3.2 AI 輔助任務生成
利用大型生成模型的泛化能力,AI 輔助任務生成為任務類型和場景分布多樣化提供了機制。通過學習示例擺放,它能夠理解空間和語義約束(例如,通過展示特定約束,它可以學習將物體合理分散以避免重疊等)。
它能將源自不同基準的數據按物理合理的方式在 METASIM 中組合場景,如圖?6 所示。
通過在機器人和物體的選取及其初始姿態中引入隨機化,大型生成模型能夠生成多樣化的初始狀態。系統可自動輸出所有所需配置文件,統一格式,便于即時可視化和用戶友好編輯。
任務生成后,作者會進行兩步過濾以避免錯誤與“幻覺”: (1) 格式驗證:不符合 ROBOVERSE 標準格式的任務將被剔除; (2) 可行性檢查:由于軌跡數據來自人工遙操作,遙操作員認為不合理的任務也會被移除。
通過發揮大型生成模型的外推能力和少樣本學習能力,他們在統一模式下自動整合資源,推動跨模擬器和基準的任務生成。
3.3.3 用于資源構建的 real2sim
基于視頻的重建通過利用 real2sim 技術,已被證明是數據與資源創建的寶貴來源。他們的方法整合多條重建流水線,從視頻數據中提取高保真資源。
首先,使用 COLMAP 初始化場景結構,并采用 Gaussian Splatting 實現高質量渲染。接著,將語義圖像和原始圖像一并輸入視覺-語言模型(VLM),推斷物理屬性。
在幾何重建方面,從視頻中估計表面法線,應用 surfel splatting,并結合動態濾波的 TSDF 方法重建細致網格。通過利用語義掩碼,從 Gaussian 和網格表示中有選擇地提取組件。
為進一步增強真實感,他們直接從視頻中推斷并學習物體運動學,確保運動表示精準。最后,通過精煉坐標系、姿態、軸對齊、比例、相對六自由度位姿及 PD 控制參數等關鍵屬性,生成 URDF 模型。
該流程有效彌合了真實視頻數據與仿真資源之間的鴻溝,提升了機器人學習和仿真的真實度。還在補充材料中展示了對比實驗,證明這種方法能顯著提升真實環境策略性能。
3.4 數據增強
3.4.1 軌跡增強
借助統一的仿真接口和數據格式,ROBOVERSE 實現了大幅高效的數據增強,并支持高級增強技術。
除了《基準協議》中詳述的視覺隨機化,還提供了強大的軌跡空間增強。提供了 API,可從有限的示范數據生成大規模機器人軌跡數據集。
遵循 MimicGen 框架,對于大多數任務,將其分解為面向物體的子任務序列,假設每個任務的子任務順序是預先定義好的,借助對子任務順序的最少人工標注,我們可利用仿真器將每條示范高效切分為連續的面向物體的操控片段,然后使用 MimicGen 為不同任務變體(如物體(D)和機器人(R)的初始與目標狀態分布)生成大規模軌跡數據集。
該方法已被證明可顯著提升模仿學習的泛化能力,尤其在示范數據有限的情況下效果尤為明顯。
3.4.2 域隨機化
在 METASIM 的 Isaac Sim Handler 中實現了域隨機化。這包括四種隨機化類型:
- 桌面、地面、墻面:對于缺少預定義場景的任務,可添加墻壁(和天花板);對于桌面操作的任務,可包含可定制的桌子。這些元素的視覺材質從精選的 ARNOLD 和 vMaterials 子集中隨機選擇。桌子約有 300 種材質選項,而墻面和地面各約有 150 種材質選項。
- 燈光條件:可指定兩種燈光場景:遠光源和圓柱燈陣列。對于遠光源,隨機化其極角;對于圓柱燈陣列,則在智能體上方固定高度處添加隨機尺寸的 n?×?m 圓柱燈矩陣。兩種場景中,燈光強度和色溫都在合理范圍內隨機化。
- 攝像機姿態:精心挑選了 59 個候選攝像機位置,其中大部分正對機器人,少部分位于側向角度。
- 反射屬性:各表面的粗糙度、高光和金屬度屬性在合理范圍內隨機化。
這些隨機化選項可自由組合。例如,可在場景中同時包含自定義桌子、有天花板的墻壁和一組圓柱燈,以模擬室內環境。詳情請參見補充材料。
3.5 RoboVerse 數據集
3.5.1 數據集統計
- 操作數據集
將來自現有基準的多樣化操作數據集遷移至 ROBOVERSE,各源基準貢獻的任務類別數、軌跡數和資源數匯總見表?I。
總計該遷移產生了 276 個任務類別、51.05 萬條軌跡以及 5.5k 個資源。具有豐富域隨機化的代表性任務示例見圖?8。
左側為其他具有代表性的合成機器人數據集,右側為 ROBOVERSE 數據集。 - 導航數據集
將視覺-語言導航(VLN)任務遷移至 ROBOVERSE。請注意,VLN 任務有多種不同設定;作者特別關注連續環境中的 VLN(VLN-CE),因為它更貼近真實場景。
具體而言,通過整合 MatterPort 3D 場景 (90 個場景)以及 R2R (1 萬條集)和 RxR(2 萬條集)的現成指令,在 ROBOVERSE 中構建導航數據集。
提供兩種移動機型:Unitree Dog(四足機器人)和 JetBot(輪式機器人),它們支持不同的控制策略。導航數據集的詳細說明請參見補充材料。 - 人形數據集
將 HumanoidBench 的任務用于強化學習基準,并整合來自 Humanoid-X 和 SkillBlender 的任務、策略和數據樣本。此外,在框架內重新實現了 UH-1 推理流水線。
預訓練策略成功使人形機器人在多個基于 ROBOVERSE 的模擬器中,既能跟隨示范姿態,又能保持穩定的運動。
4. RoboVerse基準測試
利用所收集的任務、資源和軌跡,ROBOVERSE 建立了機器人學習的標準化基準測試,包括模仿學習和強化學習兩大類別。在 ROBOVERSE 平臺內定義了統一的訓練與評估協議,并實現了標準化的基線模型和學習框架用于基準測試。
具體地,對模仿學習,設計了不同層次的泛化基準,以評估模型的泛化能力。
4.1 模仿學習基準測試
針對每個模仿學習基準,建立了包含固定示范數據集和可控評估環境的標準化評測框架。策略必須僅在提供的訓練數據上進行訓練,并在該環境中進行評測,以確保公平比較。
為了嚴格測試泛化能力,從特定領域篩選訓練數據,并在未見樣本上評估策略,考驗其對新場景的適應性。將視覺泛化因素系統地劃分為多個層次:任務空間泛化、環境布置泛化、相機設置泛化,以及光照和反射泛化。
每個層次通過受控的變化引入新的挑戰,以評估策略在愈發多樣且困難條件下的適應性和魯棒性。
- level 0 :任務空間泛化
我們通過統一相機、材質、光照及其他參數來標準化環境,以實現受控評測。任務空間(包括物體初始化和指令)按 90% 訓練、10% 驗證劃分,以評估在固定設置下的泛化能力,如圖?9?(a) 所示。 - Level?1: 環境隨機化
在標準化設置基礎上,引入場景隨機化,但保持相機、材質和光照固定。通過改變房屋、桌子和地面布局,我們生成多樣化的視覺輸入,以測試對環境變化的魯棒性。預定義一組固定的隨機場景,以確保結構化評測,如圖?9?(b) 所示。 - Level?2: 相機隨機化
為評估對相機變化的泛化能力,使用精心標注的真實攝像機位姿,加入不同的高度和角度。遵循 90/10 的訓練/測試劃分,以確保評測的一致性和嚴謹性,如圖?9?? 所示。 - Level?3: 材質和光照隨機化
真實環境中存在多樣化的材質和光照條件,為模擬這些挑戰,我們對光照和反射進行隨機化,并精心選取真實的物體材質和照明配置。如圖?9?(d) 所示,這提升了在多變條件下的魯棒性測試效果。
4.2 強化學習基準測試
除模仿學習外,ROBOVERSE 還提供了全面的強化學習基準,支持多樣化任務、機器人形態和仿真后端。具體而言,將 Stable-Baselines3 和 rsl_rl 中的 PPO 算法集成到 METASIM 接口,實現了簡便的任務定義、無縫的環境切換及標準化的性能記錄。
基于此基礎設施,已成功將 HumanoidBench 中的多個人形控制任務移植到 ROBOVERSE 中。通過文中針對 rsl_rl 的適配接口,我們高效擴展了框架兼容性,支持原基準中的 TD-MPC2 算法,并保持了實現的一致性。
5. 實驗結果
首先,他們在來自多個基準的代表性任務上評估基線方法,以確保所收集數據集和建立基準的可靠性。包括對模仿學習基線(第5.1節)和強化學習基線(第5.2節)的評估。接著,進一步展示了高質量合成數據集的優勢,發現合成數據能顯著提升世界模型學習效果。
5.1 模仿學習基準測試的結果
為真實反映 ROBOVERSE 數據集的數據質量并為各種模仿學習策略模型提供標準基準,我們選取了當前流行的專用型(specialist)和通用型(generalist)模型作為基線。
專用型模型:針對某一類任務優化;通用型模型:適配多種任務。
具體而言,專用型選用 ACT 和 Diffusion Policy;通用型則在 OpenVLA 和 Octo 上進行基準測試,并使用他們的合成數據集對它們進行了微調。
借助 ROBOVERSE 的格式與基礎設施設計,能夠在統一平臺上評估不同任務上的模型表現。為全面測試策略模型在多樣化設置下的表現,作者從 ROBOVERSE 整合的每個源基準中各選取一個代表性任務,如表?II 所示。
這些任務不僅要求精確的抓放技能,還需與可動部件進行富接觸的物理交互。通過這些任務,基準結果可全面反映各模型在不同場景下的表現。
由于時間和資源限制,對專用型與通用型模型采取了不同的實現策略,且所有結果均在單任務設置下獲得。訓練和評估設置遵循第?4.b 節中規定的 90/10 ROBOVERSE 基準協議(90% 訓練、10% 驗證)。
評估時,從訓練集中隨機選取 10 種任務設置,從驗證集中再選取 10 種;報告的成功率為三個隨機種子下的平均值。每步輸入為 256×256×3 的 RGB 圖像和一段根據任務設定生成的簡短語言描述。
對專用型模型,從頭訓練,動作空間為 9 維機器人關節狀態。對通用型模型,動作由絕對末端執行器位置預處理為位置增量,夾爪動作離散化為二值 {0,?+1}。由于時間和資源有限,僅在單任務設置下對通用型模型進行微調。
評估時,使用 cuRobo 作為逆運動學求解器,將動作轉換為機器人關節空間命令。具體實現細節和超參數請參見補充材料。表?II 中展示模仿學習基準測試結果,在表?III 中展示泛化評估結果(這些任務被分成了不同的泛化等級去評估)。
還對大型視覺-語言-動作模型在簡單和復雜的語言條件任務上進行微調,結果見表?VIII。
5.2 強化學習基準測試的結果
使用 Stable-Baselines3 和 rsl_rl 的 PPO 實現,在一致的超參數設置下,對 IsaacLab 提供的任務進行策略訓練。對額外任務(人形機器人、靈巧機械手),同樣采用基于 PPO 的工作流程。
成功將 HumanoidBench 從 MuJoCo 遷移到 ROBOVERSE,使得可在 Isaac Sim 和 MuJoCo 等多個模擬器上通過一致接口進行訓練。實驗結果表明策略在各模擬器上均能穩定收斂,并達到與原生 MuJoCo 基線相當的性能。
利用 rsl_rl 的通用性,進一步將基準擴展至支持 TD-MPC2 算法,該算法在所有環境中表現出穩健的訓練動態。有關實現細節、獎勵曲線和擴展實驗結果,請參見補充材料。
5.3 擴展實驗
為驗證軌跡增強 API 的有效性,在四個代表性任務上比較了 Diffusion Policy 在 50 條源示范和 200、1000、3000 條生成增強示范下的成功率(模仿學習設置)。圖?10 的結果表明,隨著生成數據量的增加,模型性能持續提升,突出了軌跡增強 API 的有效性和可擴展性。
5.4 世界模型學習
最近在通用視頻生成和交互式世界模型方面取得了令人鼓舞的進展。然而,超大規模的機器人數據集依然稀缺,這阻礙了穩健世界模型在各類機器人應用中的開發。
本節中,演示了如何利用 ROBOVERSE 合成數據增強真實數據集,以訓練更強大的機器人世界模型。當模型僅以 DROID 數據集的 5 萬個回合訓練時,雖然通常能遵循動作指令,卻難以準確模擬夾爪與目標物體間的物理交互。
如圖?11 所示,接觸時物體常出現“扭曲”現象。
當再加入 ROBOVERSE 的 5 萬條合成回合,組成共 10 萬條混合數據集后,模型在保持物體幾何形狀方面的預測明顯改進。
但僅僅“觀看視頻”依然不足以學習 DROID 中復雜的物理交互。相比之下,若僅在 ROBOVERSE-50K 或 DROID?RoboVerse?100K 混合集上訓練并在 ROBOVERSE 樣本上驗證,生成幀在大多數場景中物理真實性更高,具體細節見補充材料。這種改進歸功于 ROBOVERSE 中豐富的隨機化與增強手段。
5.5 通過模仿 ROBOVERSE 數據集,可以實現仿真環境到現實世界的無縫遷移
ROBOVERSE 系統將強大的物理引擎與高質量渲染器無縫結合,保證生成逼真且高保真的數據。為展示其潛力,進行了直接仿真到現實轉移(sim-to-real)的驗證實驗。
如圖?12 所示,在 ROBOVERSE 數據集上微調 OpenVLA,并將所學策略直接應用于真實場景,無需額外微調。模型成功操作了此前未見過的物體和環境,展示了系統的魯棒性和泛化能力。
在更具挑戰性的語言引導任務上,表?V 中的定量結果進一步證明了在 ROBOVERSE 數據集上訓練的模型具有較高的成功率。更多細節請參見補充材料。
5.6 通過強化學習實現Sim-to-Sim-to-Real
大規模并行環境在大范圍探索中具有顯著潛力,并對強化學習任務高度有效。然而,盡管效率極佳,它們在某些場景下的精度可能受限 ,為解決此問題,仿真對仿真(sim-to-sim)評估與微調提供了有前景的解決方案。
先在粗糙快仿真中探索,再切換到高精度慢仿真中精調。
如圖?13 所示,ROBOVERSE 平臺無縫支持上述功能,實現了穩健的 Sim-to-Sim-to-Real 轉換。