CoRL 2025|隱空間擴散世界模型LaDi-WM大幅提升機器人操作策略的成功率和跨場景泛化能力

內容源自計算機科研圈

在機器人操作任務中,預測性策略近年來在具身人工智能領域引起了廣泛關注,因為它能夠利用預測狀態來提升機器人的操作性能。然而,讓世界模型預測機器人與物體交互的精確未來狀態仍然是一個公認的挑戰,尤其是生成高質量的像素級表示。

為解決上述問題,國防科大、北京大學、深圳大學團隊提出?LaDi-WM(Latent Diffusion-based World?Models),一種基于隱空間擴散的世界模型,用于預測隱空間的未來狀態。

具體而言,LaDi-WM 利用預訓練的視覺基礎模型 (Vision Fundation Models) 來構建隱空間表示,該表示同時包含幾何特征(基于 DINOv2 構造)和語義特征(基于 Siglip 構造),并具有廣泛的通用性,有利于機器人操作的策略學習以及跨任務的泛化能力。

基于 LaDi-WM,團隊設計了一種擴散策略,該策略通過整合世界模型生成的預測狀態來迭代地優化輸出動作,從而生成更一致、更準確的動作結果。通過在虛擬和真實數據集上的大量實驗,LaDi-WM 能夠顯著提高機器人操作任務的成功率,尤其是在 LIBERO-LONG 數據集上提升?27.9%,超過之前的所有方法。

圖片

圖片

  • 論文地址:https://arxiv.org/abs/2505.11528

  • 項目主頁:https://guhuangai.github.io/LaDiWM.github.io/?

論文創新點:

1.?一種基于隱空間擴散的世界模型:使用視覺基礎模型構建隱空間的通用表示,并在隱空間學習可泛化的動態建模能力。

2.?一種基于世界模型預測迭代優化的擴散策略:利用世界模型生成未來預測的狀態,將預測的狀態反饋給策略模型,迭代式地優化策略輸出。

圖片

圖 1 :(左)通過任務無關的片段學習隱擴散世界模型;(右)通過世界模型的未來狀態預測來優化策略模型

技術路線

該團隊提出一種利用世界模型優化策略學習的框架,以學習機器人抓取操作相關的技能策略。該框架可分為兩大階段:世界模型學習和策略學習。

A. 世界模型學習:

(a)?隱空間表示:通過預訓練的視覺基礎模型對觀測圖像提取幾何表征與語義表征,其中幾何表征利用 DINOv2 提取,而語義表征則使用 Siglip 提取。

(b)?交互擴散:同時對兩種隱空間表示實施擴散過程,并在擴散過程中讓二者充分交互,學習幾何與語義表征之間的依賴關系,從而促進兩種表示的準確動態預測。

圖片

圖 2 : 基于交互擴散的世界模型架構

B. 策略模型訓練與迭代優化推理

(a)?結合世界模型的未來預測引導策略學習:將世界模型給出的未來預測作為額外的輸入,引導策略模型的準確動作預測;模型架構基于擴散策略模型,有利于學習多模態動作分布。

(b)?迭代優化策略輸出:策略模型可以在一個時間步多次利用世界模型的未來預測作為引導,從而不斷優化自身的動作輸出。實驗顯示,該方案可以逐漸降低策略模型的輸出分布熵,達到更準確的動作預測。

圖片

圖 3 : 基于未來預測引導的策略模型架構

實驗結果

虛擬實驗:

在公開的虛擬數據集(LIBERO-LONG,CALVIN D-D)中,團隊驗證了所提出框架在機器人抓取相關的操作任務上的性能。在實驗中,世界模型的訓練數據會與策略模型的訓練數據區分開,從而驗證世界模型的泛化能力。對于 LIBERO-LONG,給定語言指令,多次執行并統計機器人完成各項任務的成功率。對于 CALVIN D-D,連續給定五個語言指令,多次執行并統計平均完成任務的數量。

在 LIBERO-LONG 數據集,為了驗證世界模型對策略模型的引導作用,團隊僅使用 10 條軌跡去訓練各任務,對比結果如表 1 所示。相比于其他方法,LaDi-WM 能夠提供精確的未來預測,并將預測反饋給策略模型,不斷優化動作輸出,僅需少量訓練數據即可達到 68.7% 的成功率,顯著優于其他方法。

圖片

表 1: LIBERO-LONG 性能對比

在 CALVIN D-D 數據集上,LaDi-WM 同樣展示了在長時任務中的強大性能(表 2)。

圖片

表 2: CALVIN D-D 性能對比

團隊進一步驗證了所提出框架的可擴展性,如圖 4 所示。

(a)逐漸增大世界模型的訓練數據,模型的預測誤差逐漸降低且策略性能逐漸提升;

(b)逐漸增大策略模型的訓練數據,抓取操作的成功率逐漸提升;

(c)逐漸增大策略模型的參數量,抓取操作的成功率逐漸提升。

圖片

圖 4 : 可擴展性實驗

為了驗證 LaDi-WM 的跨場景泛化能力,團隊在 LIBERO-LONG 上訓練世界模型,并直接應用于 CALVIN D-D 的策略學習中,實驗結果如表 3 所示。若是使用在 LIBERO-LONG 訓練的原始策略模型,直接應用到 CALVIN D-D 是不工作的(表第一行);而使用在 LIBERO-LONG 訓練的世界模型來引導 CALVIN 環境下的策略學習,則可以比在 CALVIN 環境訓練的原始策略的性能高 0.61(表第三行)。這表明,世界模型的泛化能力要優于策略模型的泛化能力。

圖片

表 3: 跨場景實驗結果。L 代表 LIBERO-LONG,C 代表 CALVIN D-D

團隊進一步探索了利用世界模型迭代優化的工作原理。團隊收集不同迭代輪次下策略模型的輸出動作并繪制其分布,如圖 5 所示。迭代優化的過程中,輸出動作分布的熵在逐漸降低,這表明策略模型每一步的輸出動作更加穩定,從而提升整體的抓取成功率。

圖片

圖 5 : 迭代優化的動作分布對比

真機實驗:

團隊也在真實場景中驗證了所提出框架的性能,具體操作任務包括「疊碗」、「開抽屜」、「關抽屜」以及「抓取物體放入籃子」等,如圖 6 所示。

圖片

圖 6 : (左)真實場景環境;(右)機器人實際操作樣例

在真實場景中,LaDi-WM 將原始模仿學習策略的成功率顯著提升 20%(表 4)。

圖片

表 4: 真實場景性能對比

圖 7 展示了最終所得策略模型在不同任務上的執行軌跡,從圖中可以發現,提出的策略能夠在不同光照條件以及不同初始位置的情況下有魯棒的泛化性。

圖片

圖 7 : 真實場景機器人執行軌跡

總結

國防科大、北京大學、深圳大學團隊提出了一種隱空間擴散的世界模型 LaDi-WM(Latent Diffusion-based World Models),利用視覺基礎模型提取通用的隱空間表示,并在隱空間學習可泛化的動態建模。同時,團隊提出基于世界模型的未來預測來引導策略學習,在推理階段通過迭代式地優化策略輸出,從而進一步提高策略輸出動作的準確度。團隊通過虛擬與真機上廣泛的實驗證明了 LaDi-WM 的有效性,所提出的方法顯著提升了機器人抓取操作技能的性能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/93756.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/93756.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/93756.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Rust 入門 生命周期-next2 (十九)

生命周期消除實際上,對于編譯器來說,每一個引用類型都有一個生命周期,那么為什么我們在使用過程中,很多時候無需標注生命周期?例如:fn first_word(s: &str) -> &str {let bytes s.as_bytes();f…

Three.js 動畫循環學習記錄

在上一篇文章中,我們學習了Three.js 坐標系系統與單位理解教程: Three.js 坐標系系統與單位理解教程 接下來我們要學習的是Three.js 的動畫循環 一、動畫循環基礎原理 1. 什么是動畫循環? 動畫循環是連續更新場景狀態并重新渲染的過程&am…

ktg-mes 改造成 Saas 系統

ktg-mes 改造成 Saas 系統 快速檢驗市場,采用最簡單的方案,即添加表字段 截止2025年8月16日上傳的ktg-mes搭建存在一些問題,搭建可看文章: 搭建ktg-mes 改造 1. 添加租戶表 create table sys_tenant (tenant_id bigint au…

【新手易混】find 命令中 -perm 選項的知識點

find 命令是 Linux/Unix 系統中強大的文件查找工具,廣泛用于根據文件名、類型、時間、權限等條件搜索文件。其中,-perm 選項用于按文件權限查找文件,而在 -perm /mode 中出現的斜杠 / 是一種特殊的語法,表示“按位或(O…

gdb的load命令和傳給opeocd的monitor flash write_image erase命令的區別

問: "monitor flash write_image erase ${workspaceFolder}/obj/ylad_led_blink.elf", 和 "load", "executable" : "${workspaceFolder}/obj/ylad_led_blink.elf", 的區別?答: 你提到的 "monit…

1. Docker的介紹和安裝

文章目錄1. Docker介紹核心概念核心優勢與虛擬機的區別一句話總結2. Docker的安裝Windows 10/11 安裝 Docker Desktop(推薦 WSL2 方式)Linux(以 Ubuntu / Debian 系為例)Docker 是一個開源的容器化平臺,它允許開發者將…

fastdds.ignore_local_endpoints 屬性

Fast DDS 的 fastdds.ignore_local_endpoints 屬性用于控制同一 DomainParticipant 下的本地端點(即 DataWriter 和 DataReader)是否自動匹配。以下是對該功能的詳細解釋,并翻譯為中文,結合其上下文、實現原理和使用場景&#xff…

華清遠見25072班C語言學習day11

重點內容:函數:定義:返回值類型 函數名(參數列表) { //函數體 }函數的參數列表中可以有多個數據返回值:如果函數沒有返回值可以寫成void 返回值的作用,函數的結果用來返回給主調函數的,如果主調函數處不需要函數的結果…

視覺語言導航(7)——VLN的數據集和評估方法 3.2

這是課上做的筆記,因此很多記得比較急,之后會逐步完善,每節課的邏輯流程寫在大綱部分。成功率(SR)導航誤差(NE)成功加權路徑長度(SucceedPLength)軌跡長度(TL)先知成功率(OS&#xf…

ElasticSearch不同環境同步索引數據

目的:在生產環境把一個索引的數據同步到測試環境中1、在生產環境導出json數據curl -u "adims_user:xkR%cHwR5I9g" -X GET "http://172.18.251.132:9200/unify_info_mb_sp_aggregatetb_0004/_search?scroll1m" -H Content-Type: applicatio…

咨詢進階——解讀咨詢顧問技能模型

適應人群為咨詢行業從業者、咨詢團隊管理者、想提升咨詢技能的職場人士及咨詢公司培訓人員。主要內容圍繞咨詢顧問技能模型展開,核心包括五大核心能力(解決問題能力,涵蓋洞察力、分析技巧、問題構建等,從識別問題實質到構建新分析方法分層次闡述;管理能力,涉及管理他人與…

2025年- H98-Lc206--51.N皇后(回溯)--Java版

1.題目描述2.思路 二維數組集合 (1)N皇后規則 1)不能同行(同一行不能出現2個皇后) 2)不能同列(同一列不能出現2個皇后) 3)不能說45度或135度(斜對角線不能出現2個皇后&am…

5G + AI + 云:電信技術重塑游戲生態與未來體驗

在數字娛樂蓬勃發展的今天,游戲產業已然成為科技創新的前沿陣地。電信網絡也經歷了一場深刻的蛻變,從最初僅僅是 “內容傳輸管道”,搖身一變成為與游戲深度綁定的技術共生體。5G 不斷刷新著體驗的邊界,AI 徹底顛覆傳統的創作模式&…

【React Hooks】封裝的藝術:如何編寫高質量的 React 自-定義 Hooks

【React Hooks】封裝的藝術:如何編寫高質量的 React 自-定義 Hooks 所屬專欄: 《前端小技巧集合:讓你的代碼更優雅高效》 上一篇: 【React State】告別 useState 濫用:何時應該選擇 useReducer 作者: 碼力…

華為GaussDB的前世今生:國產數據庫崛起之路

在數據庫領域,華為GaussDB已成為一顆耀眼的明星,為企業核心業務數字化轉型提供堅實的數據底座。但這并非一蹴而就,其背后是長達二十余年的技術沉淀、戰略投入與持續創新。本文將深入探尋華為GaussDB的歷史沿革與核心技術細節,展現…

數據結構初階(16)排序算法——歸并排序

2.4 歸并排序 歸并排序(Merge Sort)是基于分治思想的經典排序算法。核心邏輯: 分而治之——把復雜排序問題拆分成簡單子問題解決,再合并子問題的結果。聯系鏈表的合并:兩個有序鏈表l1、l2創建新鏈表l3(帶頭…

MATLAB實現匈牙利算法求解二分圖最大匹配

MATLAB實現匈牙利算法求解二分圖最大匹配 匈牙利算法(也稱為Kuhn-Munkres算法)是解決二分圖最大匹配問題的經典算法。 代碼 function [matching, max_match] hungarian_algorithm(adjMatrix)% HUNGARIAN_ALGORITHM 實現匈牙利算法求解二分圖最大匹配% 輸…

自定義table

更好<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"utf-8"><title>數據表格</title><style>* {margin: 0;padding: 0;box-sizing: border-box;font-size: 14px;}html,body {width: 100%;height: 100%…

面向R語言用戶的Highcharts

如果您喜歡使用 R 進行數據科學創建交互式數據可視化&#xff0c;那么請你收藏。今天&#xff0c;我們將使用折線圖、柱狀圖和散點圖來可視化資產回報。對于我們的數據&#xff0c;我們將使用以下 5 只 ETF 的 5 年月回報率。 SPY (S&P500 fund)EFA (a non-US equities fun…

【測試工具】OnDo SIP Server--輕松搭建一個語音通話服務器

前言 Ondo SIP Server 是一款基于 SIP(Session Initiation Protocol)協議的服務器軟件&#xff0c;主要用于實現 VoIP(Voice over IP)通信&#xff0c;支持語音通話、視頻會議等多媒體會話管理&#xff0c;非常適合學習和測試VoIP的基本功能。本文介紹Ondo SIP Server的安裝、…