DemoGen:用于數據高效視覺運動策略學習的合成演示生成

25年2月來自清華、上海姚期智研究院和上海AI實驗室的論文“DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning”。

視覺運動策略在機器人操控中展現出巨大潛力,但通常需要大量人工采集的數據才能有效執行。驅動高數據需求的一個關鍵因素,是其有限的空間泛化能力,這需要跨不同物體配置收集大量數據。本研究提出 DemoGen,一種低成本、完全合成的自動演示生成方法。DemoGen 每個任務僅使用一個人工采集的演示,通過將演示的動作軌跡調整到新的物體配置來生成空間增強的演示。通過利用 3D 點云作為模態并通過 3D 編輯重新排列場景中的主體來合成視覺觀測。經驗表明,DemoGen 顯著提升各種現實世界操控任務的策略性能,即使在涉及可變形體、靈巧手末端執行器和雙手平臺的挑戰性場景中也表現出其適用性。此外,DemoGen 可以擴展以實現額外的分布外(OOD)能力,包括抗干擾和避障。

視覺運動策略學習已在機器人操控任務中展現出卓越的能力 [7, 61, 16, 59],但它通常需要大量人工收集的數據。最先進的方法通常需要數十到數百次演示才能在復雜任務上取得一定程度的成功,

例如在披薩上涂抹醬汁 [7] 或用靈巧的手制作卷餅 [59]。更復雜、更長遠的任務可能需要數千次演示 [62]。

導致這些方法數據密集型特性的一個關鍵因素,是其有限的空間泛化能力 [41, 43]。實證研究表明,即使與預訓練或 3D 視覺編碼器 [33, 39, 34, 59] 結合使用,視覺運動策略 [7] 也表現出有限的空間容量,通常局限于與演示的物體配置相鄰的區域。這種限制需要反復收集重定位物體的數據,直到演示的配置充分覆蓋整個桌面工作空間。這就產生了一個悖論:雖然實現靈巧操作的關鍵動作集中在一小部分接觸豐富的片段中,但人類的大量精力卻花在了教機器人接近自由空間中的物體上。

減少重復人工勞動的一個潛在解決方案,是用自動演示生成來取代繁瑣的重定位和重新收集過程。MimicGen [32] 及其后續擴展 [20, 18, 22] 等最新進展提出,通過基于物體交互對演示軌跡進行分段來生成演示。然后,這些以物體為中心的片段被轉換并插值到適合所需空間增強物體配置的執行規劃中。之后,生成的規劃通過機器人上的開環部署(稱為機器人上部署)來執行,以驗證其正確性并同時捕獲策略訓練所需的視覺觀察結果。

盡管 MimicGen 式策略在模擬環境中取得成功,但將其應用于現實環境卻受到高昂的機器人部署成本的阻礙,其成本幾乎與收集原始演示的成本相當。另一種方法是通過模擬-到-現實的遷移進行部署 [36, 44, 56],盡管彌合模擬到現實的差距仍然是機器人技術領域的一項重大挑戰。

本研究介紹 DemoGen,這是一個數據生成系統,可以無縫地接入模擬和物理世界中的策略學習工作流程中。如圖所示:

請添加圖片描述

空間有效范圍可視化

空間泛化,是指策略執行涉及訓練期間未見過物體任務的能力。為了直觀地理解空間泛化,將視覺運動策略的空間有效范圍與演示數據的空間分布之間的關系可視化。

任務。評估改編自 MetaWorld [54] 基準的“Button-Large”任務,其中機器人接近一個按鈕并按下。物體隨機化范圍修改為桌面工作空間上 30cm × 40cm = 1200cm2 的區域,覆蓋末端執行器的大部分可觸及空間。注意到即使按下動作沒有精確擊中按鈕中心,按鈕的尺寸也較大,因此還研究一個對精度要求更高的變型“Button-Small”,其中按鈕尺寸縮小 4 倍。

策略。采用 3D 擴散策略 (DP3) [59] 作為研究策略,因為基準測試結果表明,3D 觀測比 2D 方法具有更出色的空間泛化能力。

評估。為了可視化空間有效范圍,在工作空間內沿每個軸均勻采樣 21 個點,共得到 441 個不同的按鈕位置。演示是使用腳本策略生成的,具有 4 種不同的空間分布,從 single 到 full。在 441 個位置上評估每種配置的性能,從而可以全面評估空間泛化能力。可視化結果如圖所示。

請添加圖片描述

主要發現。總體而言,視覺運動策略的空間有效范圍與演示中看到的物體配置分布密切相關。具體而言,有效范圍可以通過演示物體位置周圍區域的并集來近似。因此,為了訓練一個能夠在整個目標隨機化范圍內良好泛化的策略,演示必須覆蓋整個工作空間,這將導致巨大的數據收集成本。此外,隨著任務精度要求的提高,有效范圍會縮小到更局部的區域,因此需要進行更多次演示才能充分覆蓋整個工作空間。

空間泛化能力基準測試

空間泛化能力的實際表現,體現在有效策略學習所需的演示次數上。在接下來的基準測試中,將探討演示次數與策略性能之間的關系,以確定多少次演示足以進行有效的訓練。

任務。為了抑制策略部署不準確但成功的情況,設計一個精確插釘任務,該任務在拾取和插入階段均強制執行 1 厘米的嚴格容錯,要求達到毫米級精度。插釘和插座在40厘米×20厘米的區域內隨機分布,從而產生40厘米×40厘米=1600平方厘米的有效工作空間。為了檢驗目標隨機化的影響,還考慮半工作空間(其中兩個目標的隨機化范圍減半)和固定設置(其中目標位置保持不變)。

策略。除了從頭訓練的擴散策略 (DP) [7] 和 3D 擴散策略 (DP3) [59] 之外,還探索預訓練視覺表征在增強空間泛化方面的潛力。具體而言,將 DP 中從頭訓練的 ResNet [19] 編碼器替換為預訓練的編碼器,包括 R3M [33]、DINOv2 [34] 和 CLIP [39]。

演示。將演示的數量從 25 到 400 不等。目標配置是從比評估工作區略大的范圍隨機采樣的,以避免在工作區邊界附近性能下降。
評估。在完整工作區中,將釘子和插座放置在 45 個均勻采樣的坐標上,從而產生 2025 種不同的配置用于評估。對于半值設置和固定設置,評估的配置數量分別為 225 和 1。結果如圖所示。

請添加圖片描述

主要發現。物體隨機化的程度顯著影響所需的演示。因此,有效的視覺運動策略評估協議必須包含足夠大的工作空間,以提供足夠的物體隨機化。另一方面,3D 表征和預訓練的 2D 視覺編碼器都有助于提升空間泛化能力。然而,這些方法均未從根本上解決空間泛化問題。這表明,智體的空間能力并非源于策略本身,而是通過對給定演示中工作空間的廣泛遍歷而發展起來的。

DemoGen 旨在解決視覺運動策略的海量數據需求與人工采集演示的高昂成本之間的矛盾,它通過少量源演示生成空間增強的觀察-動作對。對于動作,DemoGen 將源軌跡解析為以目標為中心的運動和技能片段,并應用基于 TAMP (任務和運動規劃)的自適應算法。對于觀察,DemoGen 使用分割-和-變換策略高效地合成機器人和目標的點云。

視覺運動策略 π 直接將視覺觀察 o 映射到預測動作 a。為了訓練這樣的策略,必須準備一個包含演示的數據集 D。DemoGen 旨在通過生成基于不同初始目標配置的新演示來增強人工收集的源演示。

源演示的預處理

分割點云觀測值。為了提高在實際場景中的實用性,使用單視角 RGBD 相機采集點云。首先對原始點云觀測值進行預處理,從背景和桌面裁剪掉多余的點。假設保留的點與被操作物體或機器人的末端執行器相關。然后應用聚類操作 [14] 濾除嘈雜實際觀測值中的異常點。隨后,使用最遠點采樣將點云下采樣到固定數量的點(例如 512 或 1024),以促進策略學習 [38]。

對于軌跡的第一幀,使用 Grounded SAM [40] 從 RGB 圖像中獲取被操作物體的分割掩碼。然后將這些掩碼應用于像素對齊的深度圖像,并投影到 3D 點云上,如圖所示。

請添加圖片描述

解析源軌跡。根據先前的研究 [32, 18],假設執行軌跡可以解析為一系列以物體為中心的片段。注意到機器人必須首先在自由空間中接近物體,然后才能通過接觸進行物體操作,因此每個以物體為中心的片段可以進一步細分為兩個階段:運動階段和技能階段。例如,在如圖所示的任務中,軌跡分為四個階段:1) 移向花朵,2) 拿起花朵,3) 將花朵移入花瓶,4) 將花朵插入花瓶。

通過檢查物體點云的幾何中心和機器人末端執行器之間的距離是否在預定義的閾值內,可以輕松識別與給定物體相關的技能段,如圖中的球體所示。兩個技能段之間的中間軌跡被歸類為運動段。

基于 TAMP 的動作生成

使動作適應新的配置。生成過程首先選擇一個目標初始配置 s′_0 = {T’_0O1, T’_0O2, …, T’_0^OK}。在 4 × 4 齊次矩陣表示下,計算目標配置和源配置之間的空間變換。

回想一下,這些動作由機械臂和機械手命令組成。機械手命令定義與物體的交互動作,例如,用夾持器夾住花朵,或者用靈巧的手卷起面團。由于它們不隨空間變換而變化,因此無論物體配置如何,a_t^hand 都應保持不變。

相反,機械臂命令,應與物體運動在空間上等變,以便根據改變的配置調整軌跡。具體來說,對于涉及第 k 個目標的運動和技能片段,按照基于 TAMP 的程序調整機械臂命令 AEE [τ_km ]、AEE [τ_k^s ],如圖所示。

請添加圖片描述

對于具有靈巧的物體行為技能段,末端執行器與物體之間的空間關系必須保持相對靜態。因此,整個技能段會跟隨相應的物體進行變換。
對于在自由空間中移動的運動段,目標是將相鄰的技能段串聯起來。因此,通過運動規劃來規劃運動階段的機械臂指令。

對于簡單整潔的工作空間,線性插值即可。對于需要避障的復雜環境,采用現成的運動規劃方法 [26]。

無故障動作執行。為了確保無需機器人上展開(以過濾失敗的軌跡)的合成演示有效性,要求動作執行無故障。與以往[32, 18]依賴操作空間控制器和增量末端執行器位姿控制的研究不同,我們采用逆運動學 (IK) 控制器 [57],并以絕對末端執行器位姿為目標。經驗表明,這些調整有助于最大限度地減少復合控制誤差,從而有助于成功執行生成的動作。

完全合成觀測生成

自適應本體感受狀態。觀測數據由點云數據和本體感受狀態組成。由于本體感受狀態與動作具有相同的語義,因此它們應該經歷相同的轉換。

注:直接用下一個目標姿態動作(即 o?_tarm ← a?_t+1^arm)替換當前手臂狀態可能會影響性能,因為反向運動控制器可能無法始終達到精確的目標姿態。

合成點云觀測值。為了合成機器人和物體的空間增強點云,采用一種簡單的分割-和-變換策略。除了目標變換之外,合成唯一需要的信息是源演示第一幀中 K 個物體的分割掩碼。

對于每個物體,定義 3 個階段。在待完成(to-do)階段,物體處于靜止狀態且不受機器人影響,其點云根據初始物體配置進行變換 (T_oO_k)?1 · T_0^O_k′。在執行(doing)階段,物體與機器人接觸,其點云與末端執行器的點云合并。在完成(done)階段,物體保持其最終狀態。通過參考軌跡級運動和技能段,可以輕松識別這些階段。

對于機器人的末端執行器,其點云經歷與本體感受狀態相同的變換,即 (A_tEE)?1·A?_t^EE。假設工作空間被裁剪,可以通過從場景點云中減去待執行和完成階段的物體點云,來分離執行階段的機器人點云和物體點云。

此過程的具體示例如圖所示。

請添加圖片描述

策略訓練與實施細節

選擇三維擴散策略 (DP3) [59] 作為用于真實世界和模擬實驗的視覺運動策略。在第三部分中,我們將它的性能與二維擴散策略 (DP) [7] 進行實證研究比較。訓練與實施細節如下。

  1. 策略訓練細節:為了公平比較,將所有評估設置中按“觀察-動作”對計數的總訓練步數固定為 2M,這樣無論數據集大小如何,訓練成本都相同。為了穩定訓練過程,使用 AdamW [30] 優化器,并將學習率設置為 1e?4,并進行 500 步預熱。

在實際實驗中,使用 DBSCAN [14] 聚類算法丟棄異常點,并將點云觀測中的點數下采樣至 1024。在模擬器中,跳過聚類階段,將點云下采樣至 512 個點。

遵循擴散策略 [7] 論文中的符號,其中 To 表示觀測范圍,Tp 表示動作預測范圍,Ta 表示動作執行范圍。在實際實驗中,設置 To = 2、Tp = 8、Ta = 5。以 10Hz 的頻率運行視覺運動策略。由于 Ta 表示無需重規劃即可在機器人上執行的動作步驟,因此范圍設置可使閉環重規劃延遲為 0.5 秒,足以響應靈巧的重試行為并具有抗干擾能力。在模擬器中,由于任務比較簡單,設定To = 2,Tp = 4,Ta = 3。

2)用于擴散策略的預訓練編碼器:為了替換原始擴散策略架構中從頭開始訓練的ResNet18 [19]視覺編碼器,考慮3個具有代表性的預訓練編碼器:R3M [33]、DINOv2 [34]和CLIP [39]。R3M采用ResNet [19]架構,并針對機器人特定任務進行預訓練。DINOv2和CLIP采用ViT [13]架構,并針對開放世界視覺任務進行預訓練。這些編碼器在先前的研究[8, 29]中被廣泛用于提升策略性能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/76350.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/76350.shtml
英文地址,請注明出處:http://en.pswp.cn/web/76350.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

界面控件DevExpress WPF v25.1新功能預覽 - 文檔處理類功能升級

DevExpress WPF擁有120個控件和庫,將幫助您交付滿足甚至超出企業需求的高性能業務應用程序。通過DevExpress WPF能創建有著強大互動功能的XAML基礎應用程序,這些應用程序專注于當代客戶的需求和構建未來新一代支持觸摸的解決方案。 無論是Office辦公軟件…

Muduo網絡庫實現 [十六] - HttpServer模塊

目錄 設計思路 類的設計 模塊的實現 公有接口 私有接口 疑問點 設計思路 本模塊就是設計一個HttpServer模塊,提供便攜的搭建http協議的服務器的方法。那么這個模塊需要如何設計呢? 這還需要從Http請求說起。 首先從http請求的請求行開始分析&…

多模態記憶融合:基于LSTM的連續場景生成——突破AI視頻生成長度限制

一、技術背景與核心挑戰 2025年視頻生成領域面臨的關鍵難題是長時程連貫性——傳統方法在生成超過5分鐘視頻時會出現場景跳變、物理規則不一致等問題。本研究提出時空記憶融合架構(ST-MFA),通過LSTM記憶門控與多模態對齊技術,在R…

LabVIEW油氣井井下集成監測系統

LabVIEW平臺開發的油氣井井下集成監測系統通過實時監控油氣井的井下環境參數,如溫度、壓力和有害氣體含量,有效提高了油氣采收率并確保了作業安全。系統利用高精度傳感器和強大的數據處理能力,通過綜合監測和分析,實現了對油氣井環…

【python畫圖】:從入門到精通繪制完美柱狀圖

目錄 Python數據可視化:從入門到精通繪制完美柱狀圖一、基礎篇:快速繪制柱狀圖1.1 使用Matplotlib基礎繪制1.2 使用Pandas快速繪圖 二、進階篇:專業級柱狀圖定制2.1 多系列柱狀圖2.2 堆疊柱狀圖2.3 水平柱狀圖 三、專業參數速查表Matplotlib …

【 解決Cline插件無法激活及DeepSeek模型請求卡頓或者無法加載問題】

解決Cline插件無法激活及DeepSeek模型請求卡頓問題 問題描述 在VSCode中使用Cline插件時遇到以下問題: 插件長時間卡在"activating"激活狀態成功激活后發起DeepSeek對話時,API請求階段持續卡頓夜間時段問題出現頻率較低 環境信息 Cline版…

聊透多線程編程-線程互斥與同步-9.C# 線程互斥實現方式

目錄 1. 鎖機制 (Locking Mechanisms) (1) lock 關鍵字 (2) Monitor 類 2. 跨進程互斥機制 3. 信號量機制 (1) Semaphore 和 SemaphoreSlim 4. 讀寫鎖機制 (1) ReaderWriterLockSlim 5. 原子操作機制 (1) Interlocked 類 6. 自旋鎖機制 (1) SpinLock 線程互斥是一種…

eNSP無法啟動AR報錯碼40,而且按照eNSP幫助手冊排查都沒用,我的處理方法【自己存檔版】

問題: 已經嘗試過eNSP的幫助手冊,發現都沒用! eNSP啟動AR設備報錯碼40且常規排查無效時,可嘗試以下解決方案(按優先級排序): 1. 關閉Hyper-V和Windows沙盒(我是這個問題&#xff0…

秒殺系統解決兩個核心問題的思路方法總結:1.庫存超賣問題;2.用戶重復搶購問題。

秒殺系統解決兩個核心問題 秒殺系統解決兩個核心問題:一、解決庫存超賣的核心邏輯:解釋:原子性保證: 二、如何避免重復搶購:使用 Redis 做唯一標識判斷優點: 三、流程完整梳理:四、通過數據庫建…

【集成電路版圖設計學習筆記】3.基本電路元件(MOS,電容,電阻)

一、MOSFET 在版圖設計中,要定義一個mosfet,最關鍵的層次是polysilicon(多晶硅)和active(有源區)。用有源區定義了一個矩形的區域,在這個區域內才可以形成一個有源器件,然后再用多晶…

藍橋杯之差分題型

一維差分 問題描述 給定一個長度為 nn 的序列 aa。 再給定 mm 組操作,每次操作給定 33 個正整數 l,r,dl,r,d,表示對 al~ral~r? 中的所有數增加 dd。 最終輸出操作結束后的序列 aa。 Update:由于評測機過快,n,mn,m 于 2024…

深入剖析 C/S 與 B/S 架構及網絡通信基礎

目錄 C/S 架構詳解? 概念與示例? 優點? B/S 架構詳解? 概念與示例? 優勢? 缺點? C/S 與 B/S 的區別? 架構組成? 使用場景? 開發和維護? 安全性? 網絡通信基礎? IP 地址? MAC(物理地址)? 端口? 路由器? 網關? 子網掩…

常見免殺框架的使用(3款)---【AniYaGUI1.2.0、AV_Evasion_Tool掩日、FoxBypass_V1.0】

一、AniYaGUI1.2.0免殺框架 環境:虛擬機Win10 、云服務器 工具:Xshell、CobaltStrike 項目下載地址: https://github.com/piiperxyz/AniYa 1. 安裝Go語言環境 確保Win10虛擬機安裝 Golang 且環境變量中包含 go 否則?法編譯(注…

Apache HTTPD 換行解析漏洞

漏洞介紹 CVE-2017-15715 Apache HTTPD 是一個廣泛使用的 HTTP 服務器,可以通過 mod_php 模塊來運行 PHP 網頁。在其 2.4.0 到 2.4.29 版本中存在一個解析漏洞,當文件名以 1.php\x0A 結尾時,該文件會被按照 PHP 文件進行解析,這…

常用開發環境/工具版本選擇(持續更新中)

操作系統:Ubuntu Server Version(LTS)Latest Sub VerRelease Time24.04(Noble Numbat)24.04.22025-02-1622.04(Jammy Jellyfish)22.04.52024-09-1120.04(Focal Fossa)20.04.62023-03-1418.04(Bionic Beaver)18.04.62021-09-1516.04.7(Xenial…

STM32 認識STM32

目錄 什么是嵌入式? 認識STM32單片機 開發環境安裝 安裝開發環境 開發板資源介紹 單片機開發模式 創建工程的方式 燒錄STM32程序 什么是嵌入式? 1.智能手環項目 主要功能有: 彩色觸摸屏 顯示時間 健康信息:心率&#…

C#核心筆記——(六)框架基礎

我們在編程時所需的許多核心功能并不是由C#語言提供的,而是由.NET Framework中的類型提供的。本節我們將介紹Framework在基礎編程任務(例如虛的等值比較、順序比較以及類型轉換)中的作用。我們還會介紹Framework中的基本類型,例如String、DateTime和Enum. 本章中的絕大部分…

AI——K近鄰算法

文章目錄 一、什么是K近鄰算法二、KNN算法流程總結三、Scikit-learn工具1、安裝2、導入3、簡單使用 三、距離度量1、歐式距離2、曼哈頓距離3、切比雪夫距離4、閔可夫斯基距離5、K值的選擇6、KD樹 一、什么是K近鄰算法 如果一個樣本在特征空間中的k個最相似(即特征空…

transient關鍵字深度解析

Java transient 關鍵字深度解析 transient(意思:瞬時的,瞬間的) 1. 核心概念 (1) 基本定義 作用:標記字段不參與序列化 適用場景: 敏感數據(如密碼、密鑰) 臨時計算字段 依賴運行時環境的字段(如Thread對象) (2) 語法示例 java public class User implements Se…

信刻電子檔案藍光光盤刻錄安全檢測長期歸檔

信刻一直致力于為檔案館、各行業檔案部門,提供跨網數據交換、電子檔案數據磁光異質備份歸檔解決方案。所研制的電子檔案光盤智能長期歸檔系統,滿足國產環境下”刻、管、存、檢、用”全生命周期管理應用需求,能夠提供一份離線歸檔、一份近線存…