“白虎”數據集首批開源
在機器人智能不斷邁向自主化、通用化的進程中,如何解決人形機器人的“喂養”難題、走出“數據荒漠”,已成為具身智能領域亟需攻克的關鍵課題。為此,2025 年初,全國首個異構人形機器人訓練場在模力社區正式啟用,超百臺異構本體在場景中日復一日演練、采集、優化,構建出一個前所未有的數據工程體系。而在這片“進化之地”中孕育而生的,正是被譽為機器人“糧倉”的——“白虎”數據集。
“白虎”數據集開源直達https://www.openloong.org.cn/cn/dataset?utm_source=referral&utm_medium=csdn&utm_campaign=data&utm_content=250728
"白虎"數據集由國家地方共建人形機器人創新中心(以下簡稱“國地中心”)牽頭打造的,作為全球首個規模突破百萬量級的異構機器人數據集,其數據源自真實應用場景,全面覆蓋多種全尺寸人形機器人、類人形輪式機器人以及機械臂等異構平臺,并經過嚴格的質量控制與校驗。它不僅在體量上實現突破,更在采集方法、采集內容、數據管理上形成了標準規范,成為驅動人形機器人能力躍遷的數據基座。
本次正式開源的數據集,正是從“白虎”數據集中精心選取的一部分子集,聚焦于四款主流機器人本體和兩類典型末端類型,共計10萬余條高質量任務數據。這是白虎數據集面向開源社區邁出的第一步,未來“白虎”數據集將持續逐步開放,預計最終累計開源超百萬條數據,構建起全球領先的具身智能數據開放體系。
值得一提的是,該數據集已通過中國信息通信研究院組織的具身智能數據集質量評估,獲得官方頒發的《數據集質量檢測報告》及《具身智能數據集質量評估證書》,成為我國首個獲得信通院權威認證的具身智能機器人數據集。
四大機器人、兩類末端、五大真實場景、數十類任務
本次開源數據涵蓋四款主流機器人本體,分別為:青龍、智元A2D、傅利葉GR2、樂聚夸父,在構型設計與適用場景上各具代表性。青龍是全尺寸開源公版人形機器人,具備高度仿生軀干設計特性,適用于科研、工業制造、民生服務等多種場景;智元A2D采用輪式結構設計,主要面向工業及數采場景;傅利葉GR-2配備了仿生靈巧手,適合高精度操作;樂聚夸父采用開源鴻蒙系統驅動,具備高動態運動構型特征。
在末端類型上,數據集覆蓋夾爪與靈巧手兩類類型,分別適用于簡單結構件抓取與精細操作,構成了具身控制中極具代表性的末端類型分布,為不同末端類型的操作模型訓練提供了數據支撐。
數據樣本涉及五大真實場景:工業制造、家居家政、餐飲服務、商超藥店和通用抓取放置,合計覆蓋30余類高頻任務類型,每類任務均配套詳細自然語言描述、動作標簽、場景信息、傳感器及機器人硬件參數,并采用統一的數據處理與管控方法,對具身模型的泛化性提升具有極高的價值,滿足深度學習、控制策略、語義理解等不同層次的建模需求。
部分任務示例包括:
電池抓取
冰箱拿取物體
插花
為提升數據的通用性與結構清晰度,每條數據配套多維度語義標簽信息,具體包括:
物品標簽
涵蓋工業件、餐具、日用器具、藥品等多種物品;
技能標簽:
如抓取、放置、旋轉、推進、拉取、按壓等基本操作原語;
任務與場景標識
任務名統一編碼,場景維度區分操作上下文語義;
末端類型:
分別記錄夾爪或靈巧手執行動作,可用于策略差異建模;
語言描述:
如“從傳送帶抓取藥盒并放置到指定托盤”,支持自然語言與動作對齊建模。
該標簽體系作為“白虎”數據集數據標準的核心要素,未來將在持續開放的數據集中復用。
高質量數據的三重保障
任務多樣,數據真實
數據采集任務緊貼現實應用場景,從流水線操作、家庭生活服務,到餐飲商用與通用交互任務全面覆蓋,構建出一個面向泛化智能系統訓練的任務譜系。例如在工業制造場景中,“電池抓取”“傳送帶物品分揀”等任務模擬典型自動化操作流程;而在家庭家政與商超服務類任務中,“咖啡機使用”“文具收納”“藥品上架”等任務則更具復雜操作步驟與物品交互多樣性。
與仿真數據不同,本數據集100%來源于真實機器人在真實物理環境中的任務執行記錄,數據通過“數據質量驗證”和“本體算法驗證”雙重機制,形成了系統化、工程化、前置化的數據質量保障路徑。
多元異構,差異全面覆蓋
與傳統數據集相比,該數據集最顯著的特點在于異構本體間任務的高度統一與復用性設計。每一個關鍵任務都在多個機器人平臺上進行了采集,例如“文具收納”任務在青龍、智元A2D、傅利葉GR2等本體上均有執行版本,這種跨本體一致采集設計,為遷移學習、模仿學習、通用動作策略訓練等研究方向提供了非常理想的實驗基礎。
同時,在執行過程中,機器人所采用的末端類型也被詳細記錄,包括夾爪與靈巧手兩種典型類型。不同末端結構對物品的操控方式、夾取路徑、姿態控制等都有顯著差異,這也使得數據集天然支持控制策略的對比研究和結構適應性評估:
機器人本體異構性
青龍為全尺寸開源公版人形機器人,具備高度仿生軀干設計、智元A2D為輪式結構,面向工業及數采場景、傅利葉GR-2配備仿生靈巧手,適合高精度操作、樂聚夸父為開源鴻蒙系統驅動,高動態運動構型,多者結合綜合體現了機器人本體異構性;
末端執行器差異
夾爪主要用于規則物體處理,靈巧手支持復雜物品抓握、工具使用、人類類比動作執行;
任務分布廣泛
同一任務在不同機器人上執行,形成天然的跨本體對照實驗語料,有利于訓練具備泛化能力的策略模型。
這套異構數據結構使數據集具備了極強的可拓展性與對比分析能力,是實現“通用任務能力”驗證的核心基礎之一。
數據規范統一, 可直接調用
本數據集采用人形機器人具身智能訓練數據集管理標準,明確不同來源、不同類型的數據結構和表示方法,并規范數據質量評價方法,有效解決多源異構數據格式不統一、質量層次不齊等問題,保障規模化數據集的高質量生產,同時為行業內的數據生產與管理提供了標準參考。
向更廣闊的數據生態邁進
具身智能離不開大規模真機數據。我們希望這批由真實本體、真實任務、真實執行過程構建的高質量數據,能夠助力更多開發者和研究者開發更強健的具身智能系統、構建統一可對比的任務基準,推動從“能動”到“會做”的能力躍遷。
本次開源標志著“白虎”數據集向開源社區邁出的堅實一步,但遠未終點。白虎數據集開源的全量規模未來將突破百萬條任務數據,不斷引入更多機器人類型、末端形式、任務內容與多模態傳感輸入(視覺、力覺、語音等),構建面向通用具身智能系統訓練的完整數據基座。
OpenLoong 社區也將攜手行業開發者與生態伙伴,持續推動具身智能數據生態開放,共建基準測試、開源評測、技能遷移與大模型訓練等關鍵環節,共同打通“真實數據-算法建模-智能演化-實體應用”的閉環鏈路。
歡迎各位加入OpenLoong開源社區,如果您在使用過程中有任何建議或合作需求,歡迎與我們取得聯系。