2025-03-18, 由加州大學圣地亞哥分校, 卡內基梅隆大學, 華盛頓大學, 麻省理工學院等機構聯合收集了PH2D數據集。該數據集包含26824個任務導向的人類演示,采用消費者級VR設備收集,提供了準確的3D手部關鍵點姿態和語言注釋。數據集覆蓋了多種操作任務、不同的物體和容器,旨在通過模仿人類行為來學習人形機器人的操作策略,促進跨模態學習并提高機器人政策的泛化能力和魯棒性。
一、研究背景
人形機器人在多樣任務和平臺上展現操作能力,需強大且泛化的策略。以往從機器人演示中學習雖有進展,但數據收集成本高、效率低,難以大規模擴展,限制了模型泛化能力提升。而人類演示數據豐富、易獲取,若能有效利用,有望突破人形機器人學習瓶頸,實現更高效、泛化的策略訓練。
目前遇到困難和挑戰:
1、數據收集成本高:通過機器人遙操作收集數據需昂貴設備和大量時間,難以大規模擴展。
2、泛化能力不足:現有方法多依賴單一機器人實體數據,難以泛化到新任務、環境和平臺上,缺乏互聯網規模數據支持。
3、人機實體差異大:人類與人形機器人在身體結構、動作執行等方面存在顯著差異,直接從人類演示到機器人操作的轉換面臨諸多挑戰,如動作速度、精度和控制方式等。
數據集地址:Physical Human-Humanoid Data (PH2D)|人形機器人數據集|機器人學習數據集
二、讓我們一起來看一下PH2D
Physical Humanoid-Human Data(PH2D):是一個大規模、任務導向的以人為中心演示數據集,為跨實體學習提供豐富數據,助力人形機器人操作策略訓練。
PH2D數據集包含多種日常操作任務,如抓取、傳遞、傾倒等,涵蓋豐富物體和場景。數據通過消費級VR設備收集,包含準確的3D手部和手腕姿態,以及視覺信息,為模仿學習提供高質量監督信號。
數據集構建:
研究人員利用消費級VR設備(如Apple Vision Pro、Meta Quest 3等)收集數據,開發相應應用程序獲取3D頭手姿態和視覺觀察。通過讓人類操作者在特定任務指令下執行操作,同步收集視覺和本體感知數據,構建了這一大規模數據集。
數據集特點:
1、大規模:包含大量演示數據,涵蓋多種任務和物體,為學習提供豐富樣本。
2、任務導向:數據直接與人形機器人執行任務相關,便于協同訓練。
3、準確姿態估計:借助VR設備SDK,提供準確3D手部和手腕姿態,提升學習精度。
4、視覺多樣性:使用不同相機配置,引入視覺多樣性,增強策略對不同環境的適應性。
基準測試:
研究人員在不同人形機器人平臺上進行實驗,驗證了PH2D數據集的有效性。實驗表明,協同訓練顯著提升了策略在背景變化、物體位置變化和未見物體上的泛化能力,成功率達到甚至超過僅用機器人數據訓練的兩倍。
我們建議使用以任務為導向的以自我為中心的人類數據來學習類人機器人作策略。在不依賴模塊化感知的情況下,我們通過以端到端的方式直接將人類建模為不同的類人體現來訓練 Human Action Transformer (HAT)作策略。
以任務為導向的以自我為中心的人類數據集的比較。除了擁有最多的演示外,PH2D 還收集了各種作任務、各種對象和容器,并附有準確的 3D 手指姿勢和語言注釋。幀數是假設 30 Hz 估計的。?:根據報告的數據收集時間估計;而 DexCap 和 PH2D 在初始處理后報告幀。
調整消費級設備進行數據收集。為了避免依賴專門的硬件進行數據收集并使我們的方法更易于訪問,我們使用消費級 VR 設備設計了數據收集流程。
HAT 概述
HAT系統通過模擬人類行為來訓練機器人,使其能夠在真實環境中執行任務。系統利用Dinov2編碼器處理圖像數據,并通過Transformer模型進行狀態-動作對的學習,最終實現機器人的動作預測和執行。
1、數據來源:
人類遠程操作員:通過逆運動學(Inverse Kinematics)從人類操作中獲取機器人觀察數據。
人形機器人:通過正運動學(Forward Kinematics)獲取機器人觀察數據。
人類演示:通過觀察人類演示獲取數據。
2、機器人觀察:
包括6自由度(DoF)的手腕姿態和3D手部關鍵點。
3、Dinov2編碼器:
圖像數據通過凍結的Dinov2編碼器進行編碼,Dinov2是一種視覺模型,用于從圖像中提取特征。
4、HAT模型:
包含一個通用的Transformer模型,用于處理來自人類和機器人的數據。
該模型在訓練過程中從人類數據或機器人數據中采樣狀態-動作對。
5、機器人數據/部署:
頭部姿態:通過逆運動學從人類數據中獲取。
6自由度手腕姿態:通過逆運動學從人類數據中獲取。
3D手部關鍵點:通過重定向(Retargeting)從人類數據中獲取。
6、動作預測:
機器人根據預測的頭部姿態、手腕姿態和手部關鍵點進行動作預測。
機器人在四個不同的背景上執行傳杯任務。左側顯示四種背景變化,而右側表示兩個傳遞方向:(#1 - 右手將杯子傳給左手,#2 - 左手將杯子傳給右手)。
機器人使用四個不同的物品執行水平抓取任務:瓶子、box_1、box_2和罐子,如左圖所示。右側說明了該過程:(#1-#3 - 機器人抓住瓶子,#4-#5 - 機器人將其放入塑料箱)。
機器人執行垂直抓取任務。如左圖所示,Dynamixel 盒子被放置在九個不同的位置以供抓取。右側說明了該過程:(#1-#3 - 機器人抓住盒子,#4-#5 - 機器人將盒子放入塑料箱)。
機器人執行倒入任務。左側顯示了通過改變機器人的旋轉和工作臺位置實現的不同設置。右側說明了倒酒過程:(#1 - 右手抓住瓶子,#2 - 左手抓住杯子,#3 - 倒酒,#4 - 左手放下杯子,#5 - 右手放下瓶子)。
三、展望PH2D應用場景
以前,人形機器人的學習主要依賴于機器人本體操作的數據采集,這種方式成本高昂,且數據采集效率低。例如,機器人學習一個簡單的抓取動作,需要通過復雜的傳感器和精確的控制來收集數據,這個過程不僅耗時,還需要專業的技術人員操作。而且,由于數據量有限,機器人很難泛化到新的任務和環境中。
現在有了PH2D數據集,一切都發生了改變。
PH2D數據集通過收集人類的演示數據,為機器人提供了一個豐富的學習資源。這些數據不僅包含了人類的動作,還包含了相應的視覺信息,使得機器人可以通過模仿人類的動作來學習。這樣一來,機器人學習新任務的速度大大加快,而且成本也降低了。
具體來說,PH2D數據集帶來了以下幾個改變:
1、數據采集成本降低:以前需要昂貴的機器人本體和專業設備來采集數據,現在只需要消費級的VR設備就可以采集人類的演示數據。
2、學習效率提高:人類演示數據豐富多樣,機器人可以通過這些數據快速學習到各種任務。
3、泛化能力增強:由于PH2D數據集包含了多種任務和環境,機器人在學習過程中能夠更好地泛化到新的場景。
4、應用場景拓展:機器人可以學習到更多復雜的任務,比如在家庭環境中幫助做家務,在工業環境中進行復雜的裝配任務。
想象一下這樣一個美好場景:家里來了客人,機器人幫忙準備茶點
你剛從超市買回來一堆零食和飲料,正準備招待客人。你一邊忙著鋪桌布,一邊對機器人“小K”說:“小K,幫我把那些杯子從柜子里拿出來,再把飲料瓶從冰箱里拿出來,放到茶幾上。”
“小K”聽到指令后,立刻行動起來。它先是走到櫥柜前,柜子有點高,但“小K”毫不費勁。它伸出機械手臂,手臂上的攝像頭快速掃描了一下櫥柜內部,找到了那些杯子。杯子有大有小,形狀也不一樣,但“小K”一點都不慌。它模仿人類抓杯子的動作,手指靈活地夾住杯子的把手,輕輕一提,就把杯子拿了出來。它還特別小心,動作很輕柔,生怕杯子滑落。
接著,“小K”走到冰箱前。冰箱門有點重,但“小K”用機械手臂輕輕一推,門就開了。它伸進冰箱,找到那瓶飲料。飲料瓶有點滑,但“小K”通過模仿人類抓握的動作,手指緊緊地握住瓶子,然后小心翼翼地把它拿了出來。它還特別注意,把瓶子上的水珠擦干凈,免得弄濕茶幾。
最后,“小K”把杯子和飲料瓶穩穩地放在茶幾上。茶幾有點小,空間有限,但“小K”把東西擺放得整整齊齊。它還模仿人類的動作,把杯子稍微傾斜一下,讓客人拿的時候更方便。等一切都擺放好了,“小K”還禮貌地退后一步,好像在說:“好了,主人,你可以招待客人啦!”
這時候,客人們都驚呆了,紛紛夸贊“小K”真聰明,動作又快又準。你也很開心,因為“小K”不僅幫你分擔了家務,還讓客人感受到了科技的魅力。
更多免費的數據集,請打開:遇見數據集
遇見數據集-讓每個數據集都被發現,讓每一次遇見都有價值。遇見數據集,領先的千萬級數據集搜索引擎,實時追蹤全球數據集,助力把握數據要素市場。https://www.selectdataset.com/