PH2D數據集: 用人類演示數據提升人形機器人操作能力,助力跨實體學習

2025-03-18, 由加州大學圣地亞哥分校, 卡內基梅隆大學, 華盛頓大學, 麻省理工學院等機構聯合收集了PH2D數據集。該數據集包含26824個任務導向的人類演示,采用消費者級VR設備收集,提供了準確的3D手部關鍵點姿態和語言注釋。數據集覆蓋了多種操作任務、不同的物體和容器,旨在通過模仿人類行為來學習人形機器人的操作策略,促進跨模態學習并提高機器人政策的泛化能力和魯棒性。

一、研究背景

人形機器人在多樣任務和平臺上展現操作能力,需強大且泛化的策略。以往從機器人演示中學習雖有進展,但數據收集成本高、效率低,難以大規模擴展,限制了模型泛化能力提升。而人類演示數據豐富、易獲取,若能有效利用,有望突破人形機器人學習瓶頸,實現更高效、泛化的策略訓練。

目前遇到困難和挑戰:

1、數據收集成本高:通過機器人遙操作收集數據需昂貴設備和大量時間,難以大規模擴展。

2、泛化能力不足:現有方法多依賴單一機器人實體數據,難以泛化到新任務、環境和平臺上,缺乏互聯網規模數據支持。

3、人機實體差異大:人類與人形機器人在身體結構、動作執行等方面存在顯著差異,直接從人類演示到機器人操作的轉換面臨諸多挑戰,如動作速度、精度和控制方式等。

數據集地址:Physical Human-Humanoid Data (PH2D)|人形機器人數據集|機器人學習數據集

二、讓我們一起來看一下PH2D

Physical Humanoid-Human Data(PH2D):是一個大規模、任務導向的以人為中心演示數據集,為跨實體學習提供豐富數據,助力人形機器人操作策略訓練。

PH2D數據集包含多種日常操作任務,如抓取、傳遞、傾倒等,涵蓋豐富物體和場景。數據通過消費級VR設備收集,包含準確的3D手部和手腕姿態,以及視覺信息,為模仿學習提供高質量監督信號。

數據集構建:

研究人員利用消費級VR設備(如Apple Vision Pro、Meta Quest 3等)收集數據,開發相應應用程序獲取3D頭手姿態和視覺觀察。通過讓人類操作者在特定任務指令下執行操作,同步收集視覺和本體感知數據,構建了這一大規模數據集。

數據集特點:

1、大規模:包含大量演示數據,涵蓋多種任務和物體,為學習提供豐富樣本。

2、任務導向:數據直接與人形機器人執行任務相關,便于協同訓練。

3、準確姿態估計:借助VR設備SDK,提供準確3D手部和手腕姿態,提升學習精度。

4、視覺多樣性:使用不同相機配置,引入視覺多樣性,增強策略對不同環境的適應性。

基準測試:

研究人員在不同人形機器人平臺上進行實驗,驗證了PH2D數據集的有效性。實驗表明,協同訓練顯著提升了策略在背景變化、物體位置變化和未見物體上的泛化能力,成功率達到甚至超過僅用機器人數據訓練的兩倍。

我們建議使用以任務為導向的以自我為中心的人類數據來學習類人機器人作策略。在不依賴模塊化感知的情況下,我們通過以端到端的方式直接將人類建模為不同的類人體現來訓練 Human Action Transformer (HAT)作策略。

以任務為導向的以自我為中心的人類數據集的比較。除了擁有最多的演示外,PH2D 還收集了各種作任務、各種對象和容器,并附有準確的 3D 手指姿勢和語言注釋。幀數是假設 30 Hz 估計的。?:根據報告的數據收集時間估計;而 DexCap 和 PH2D 在初始處理后報告幀。

調整消費級設備進行數據收集。為了避免依賴專門的硬件進行數據收集并使我們的方法更易于訪問,我們使用消費級 VR 設備設計了數據收集流程。

HAT 概述

HAT系統通過模擬人類行為來訓練機器人,使其能夠在真實環境中執行任務。系統利用Dinov2編碼器處理圖像數據,并通過Transformer模型進行狀態-動作對的學習,最終實現機器人的動作預測和執行。

1、數據來源:

人類遠程操作員:通過逆運動學(Inverse Kinematics)從人類操作中獲取機器人觀察數據。

人形機器人:通過正運動學(Forward Kinematics)獲取機器人觀察數據。

人類演示:通過觀察人類演示獲取數據。

2、機器人觀察:

包括6自由度(DoF)的手腕姿態和3D手部關鍵點。

3、Dinov2編碼器:

圖像數據通過凍結的Dinov2編碼器進行編碼,Dinov2是一種視覺模型,用于從圖像中提取特征。

4、HAT模型:

包含一個通用的Transformer模型,用于處理來自人類和機器人的數據。

該模型在訓練過程中從人類數據或機器人數據中采樣狀態-動作對。

5、機器人數據/部署:

頭部姿態:通過逆運動學從人類數據中獲取。

6自由度手腕姿態:通過逆運動學從人類數據中獲取。

3D手部關鍵點:通過重定向(Retargeting)從人類數據中獲取。

6、動作預測:

機器人根據預測的頭部姿態、手腕姿態和手部關鍵點進行動作預測。

機器人在四個不同的背景上執行傳杯任務。左側顯示四種背景變化,而右側表示兩個傳遞方向:(#1 - 右手將杯子傳給左手,#2 - 左手將杯子傳給右手)。

機器人使用四個不同的物品執行水平抓取任務:瓶子、box_1、box_2和罐子,如左圖所示。右側說明了該過程:(#1-#3 - 機器人抓住瓶子,#4-#5 - 機器人將其放入塑料箱)。

機器人執行垂直抓取任務。如左圖所示,Dynamixel 盒子被放置在九個不同的位置以供抓取。右側說明了該過程:(#1-#3 - 機器人抓住盒子,#4-#5 - 機器人將盒子放入塑料箱)。

機器人執行倒入任務。左側顯示了通過改變機器人的旋轉和工作臺位置實現的不同設置。右側說明了倒酒過程:(#1 - 右手抓住瓶子,#2 - 左手抓住杯子,#3 - 倒酒,#4 - 左手放下杯子,#5 - 右手放下瓶子)。

三、展望PH2D應用場景

以前,人形機器人的學習主要依賴于機器人本體操作的數據采集,這種方式成本高昂,且數據采集效率低。例如,機器人學習一個簡單的抓取動作,需要通過復雜的傳感器和精確的控制來收集數據,這個過程不僅耗時,還需要專業的技術人員操作。而且,由于數據量有限,機器人很難泛化到新的任務和環境中。

現在有了PH2D數據集,一切都發生了改變。

PH2D數據集通過收集人類的演示數據,為機器人提供了一個豐富的學習資源。這些數據不僅包含了人類的動作,還包含了相應的視覺信息,使得機器人可以通過模仿人類的動作來學習。這樣一來,機器人學習新任務的速度大大加快,而且成本也降低了。

具體來說,PH2D數據集帶來了以下幾個改變:

1、數據采集成本降低:以前需要昂貴的機器人本體和專業設備來采集數據,現在只需要消費級的VR設備就可以采集人類的演示數據。

2、學習效率提高:人類演示數據豐富多樣,機器人可以通過這些數據快速學習到各種任務。

3、泛化能力增強:由于PH2D數據集包含了多種任務和環境,機器人在學習過程中能夠更好地泛化到新的場景。

4、應用場景拓展:機器人可以學習到更多復雜的任務,比如在家庭環境中幫助做家務,在工業環境中進行復雜的裝配任務。

想象一下這樣一個美好場景:家里來了客人,機器人幫忙準備茶點

你剛從超市買回來一堆零食和飲料,正準備招待客人。你一邊忙著鋪桌布,一邊對機器人“小K”說:“小K,幫我把那些杯子從柜子里拿出來,再把飲料瓶從冰箱里拿出來,放到茶幾上。”

“小K”聽到指令后,立刻行動起來。它先是走到櫥柜前,柜子有點高,但“小K”毫不費勁。它伸出機械手臂,手臂上的攝像頭快速掃描了一下櫥柜內部,找到了那些杯子。杯子有大有小,形狀也不一樣,但“小K”一點都不慌。它模仿人類抓杯子的動作,手指靈活地夾住杯子的把手,輕輕一提,就把杯子拿了出來。它還特別小心,動作很輕柔,生怕杯子滑落。

接著,“小K”走到冰箱前。冰箱門有點重,但“小K”用機械手臂輕輕一推,門就開了。它伸進冰箱,找到那瓶飲料。飲料瓶有點滑,但“小K”通過模仿人類抓握的動作,手指緊緊地握住瓶子,然后小心翼翼地把它拿了出來。它還特別注意,把瓶子上的水珠擦干凈,免得弄濕茶幾。

最后,“小K”把杯子和飲料瓶穩穩地放在茶幾上。茶幾有點小,空間有限,但“小K”把東西擺放得整整齊齊。它還模仿人類的動作,把杯子稍微傾斜一下,讓客人拿的時候更方便。等一切都擺放好了,“小K”還禮貌地退后一步,好像在說:“好了,主人,你可以招待客人啦!”

這時候,客人們都驚呆了,紛紛夸贊“小K”真聰明,動作又快又準。你也很開心,因為“小K”不僅幫你分擔了家務,還讓客人感受到了科技的魅力。

更多免費的數據集,請打開:遇見數據集

遇見數據集-讓每個數據集都被發現,讓每一次遇見都有價值。遇見數據集,領先的千萬級數據集搜索引擎,實時追蹤全球數據集,助力把握數據要素市場。https://www.selectdataset.com/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/72852.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/72852.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/72852.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python 數據可視化matplotib庫安裝與使用

要使用 matplotlib 庫進行數據可視化,首先你需要確保已經安裝了該庫。如果你還沒有安裝,可以通過 Python 的包管理器 pip 來安裝它。在你的命令行工具中運行以下命令來安裝 matplotlib: pip install matplotlib安裝完成后,你就可以…

【MySQL基礎-10】MySQL中的LENGTH()函數:用法詳解與實例分析

在MySQL數據庫中,LENGTH()函數是一個非常常用的字符串函數,用于計算字符串的字節長度。理解并掌握LENGTH()函數的用法,對于處理字符串數據、優化查詢以及進行數據驗證都非常有幫助。本文將詳細介紹LENGTH()函數的用法,并通過實例演…

Matlab 基于專家pid控制的時滯系統

1、內容簡介 Matlab 185-基于專家pid控制的時滯系統 可以交流、咨詢、答疑 2、內容說明 略 在處理時滯系統(Time Delay Systems)時,使用傳統的PID控制可能會面臨挑戰,因為時滯會導致系統的不穩定或性能下降。專家PID控制通過結…

E902基于bash與VCS的仿真環境建立

網上看見很多E902仿真的文章,但用到的編譯器是類似于這種Xuantie-900-gcc-elf-newlib-x86_64-V3.0.1-20241120,而我按照相應的步驟與對應的編譯器,仿真總會報錯。后面將編譯器換成riscv64-elf-x86_64-20210512,反而成功了。現在開…

SpringSecurity配置(自定義認證過濾器)

文末有本篇文章的項目源碼文件可供下載學習 在這個案例中,我們已經實現了自定義登錄URI的操作,登錄成功之后,我們再次訪問后端中的API的時候要在請求頭中攜帶token,此時的token是jwt字符串,我們需要將該jwt字符串進行解析,查看解析后的User對象是否處于登錄狀態.登錄狀態下,將…

《UNIX網絡編程卷1:套接字聯網API》第1章 簡介

《UNIX網絡編程卷1:套接字聯網API》第1章 簡介 1.1 網絡編程的核心價值與挑戰 網絡編程是實現跨設備通信的技術基礎,其核心目標是通過協議棧實現數據的可靠傳輸與高效交換。在嵌入式系統、云計算、物聯網等領域,網絡編程能力直接決定了系統的…

D-Wave專用量子計算機登頂Science 率先展示在真實場景中的量子優勢(內附下載)

內容來源:量子前哨(ID:Qforepost) 文丨浪味仙 排版丨浪味仙 行業動向:4200字丨16分鐘閱讀 摘要:加拿大專用量子計算機公司 D-Wave 在 Science 期刊發表了論文,題為《Beyond-Classical Compu…

在Ubuntu上安裝MEAN Stack的4個步驟

在Ubuntu上安裝MEAN Stack的4個步驟為:1.安裝MEAN;2.安裝MongoDB;3.安裝NodeJS,Git和NPM;4.安裝剩余的依賴項。 什么是MEAN Stack? 平均堆棧一直在很大程度上升高為基于穩健的基于JavaScript的開發堆棧。…

jmeter將返回的數據寫入csv文件

舉例說明,我需要接口返回體中的exampleid與todoid的數據信息(使用邊界提取器先將其提取),并將其寫入csv文件進行保存 使用后置處理器BeanShell 腳本實例如下 import java.io.*;// 設置要寫入的文件路徑 String filePath "…

Linux下Redis哨兵集群模式搭建(1主2從+3哨兵)

Linux下Redis哨兵集群模式搭建(1主2從3哨兵) 一、Redis哨兵模式搭建 1.安裝包下載 鏈接: https://pan.baidu.com/s/1_n2rCMi5MHX-mVkkyMo4LA 提取碼: gbra 2.新建redis目錄 mkdir -p /app/redis3.解壓到/app/redis目錄下 tar -zxvf redis-6.2.16.ta…

Debian 系統命令集合 |Debian 和 CentOS常見命令的異同

Debian 系統命令集合 Debian 是一個非常流行且穩定的 Linux 發行版,廣泛用于服務器、桌面和工作站環境。 Debian 和 CentOS常見命令 使用方式的對比 注: 部分人(比如我)先學的centos,其實centos和debian 就記住幾十個有區別命…

20250319在榮品的PRO-RK3566開發板的buildroot系統下使用集成的QT應用調試串口UART3

stty -F /dev/ttyS3 115200 -echo cat /dev/ttyS3 & echo serialdata > /dev/ttyS3 20250319在榮品的PRO-RK3566開發板的buildroot系統下使用集成的QT應用調試串口UART3 2025/3/19 14:17 緣起:在榮品的PRO-RK3566開發板的buildroot系統下,在命令…

深入理解 C# 反射 的使用

總目錄 前言 反射是.NET框架中一個強大的特性,允許程序在運行時檢查和操作類型信息。通過反射,開發者可以動態地創建對象、調用方法、訪問屬性等,為程序提供了極大的靈活性。本文將詳細講解C#反射的使用方法及其應用場景。 一、什么是反射&a…

YOLO+OpenCV強強聯手:高精度跌倒檢測技術實戰解析

目錄 關于摔倒檢測 摔倒檢測核心邏輯 摔倒檢測:聯合多種邏輯判斷 原理詳細解釋 1. 導入必要的庫 2. 定義函數和關鍵點連接關系 3. 篩選有效關鍵點并計算邊界框 4. 計算人體上下半身中心點和角度 5. 繪制關鍵點和連接線 6. 繪制角度標注和檢測跌倒 7. 返回處理后的圖…

AI入門7:python三種API方式調用本地Ollama+DeepSeek

回顧 書接上篇:各種方式搭建了本地知識庫: AI入門:AI模型管家婆ollama的安裝和使用-CSDN博客 AI入門2:本地AI部署,用ollama部署deepseek(私有化部署)-CSDN博客 AI入門3:給本地d…

內網安全-橫向移動Kerberos 攻擊SPN 掃描WinRMWinRSRDP

1.WinRM&WinRS 條件: 雙方開啟winrm winrs服務 2008版本以上默認開啟,win 7默認關閉 檢測使用cs內置端口掃描5985開放情況 進行連接 winrs -r:http://192.168.93.30:5985 -u:administrator -p:Whoami2021 whoami 2.內網-spn shell setspn -T …

LoRA中黑塞矩陣、Fisher信息矩陣是什么

LoRA中黑塞矩陣、Fisher信息矩陣是什么 1. 三者的核心概念 黑塞矩陣(Hessian) 二階導數矩陣,用于優化問題中判斷函數的凸性(如牛頓法),或計算參數更新方向(如擬牛頓法)。 Fisher信息矩陣(Fisher Information Matrix, FIM) 統計學中衡量參數估計的不確定性,反映數據…

高級java每日一道面試題-2025年3月04日-微服務篇[Eureka篇]-Eureka是什么?

如果有遺漏,評論區告訴我進行補充 面試官: Eureka是什么? 我回答: 在Java高級面試中,關于Eureka的討論通常會涵蓋其基本概念、組件與架構、工作原理、高級特性以及與其他服務發現工具的比較等多個方面。以下是結合提供的內容對Eureka進行的詳細解析和…

YZi Labs 談對 Plume 的投資:利用區塊鏈創造現實價值的典范項目

3 月 17 日,YZi Labs 宣布投資 RWAfi 賽道項目 Plume,引發市場廣泛關注。本輪融資是 Plume 在 去年 5 月和 12 月 連續兩輪融資后的第三輪融資,代表著市場資本市場對于 Plume RWAfi 敘事以及其發展潛力的高度認可。 本次融資不僅提升了市場對…

互功率譜 cpsd

互功率譜(Cross-Power Spectral Density, CPSD)是信號處理中用于描述兩個信號在頻域中相關性的工具。它表示兩個信號在不同頻率下的功率分布及其相位關系,廣泛應用于模態分析、系統辨識和信號匹配等領域。 matlab 實現 MATLAB 提供了 cpsd 函數來計算互功率譜。以下是使用 …