前言
盡管當前的視覺-語言-動作(VLA)模型已展現出顯著進展,但其在新場景和與復雜物體交互中的性能會顯著下降,在遵循指令方面落后于像LLaVA 這樣的大型多模態模型(LMM)。
這種局限性源于現有VLA模型對存在固有仿真到現實差距(Sim-to-Real?Gap)的合成數據或缺乏多樣性的有限規模的實驗室遙操作演示數據的依賴,導致其難以勝任高靈巧度操作任務,且在新場景中泛化能力有限。
1)合成數據:雖有研究者們嘗試利用仿真器獲取低成本合成數據,但其有限多樣性與未解決的仿真-現實差異,仍阻礙著靈巧手的實際部署。
2)遙操作數據:該類數據的規模與互聯網級別的大型多模態模型(LMMs)訓練數據相比,存在數個數量級的差距,這使得具身智能陷入了持續的 “數據泥潭”。對于靈巧手而言,這種數據稀缺問題尤為突出 —— 由于操作復雜性和硬件成本的限制,迫使大多數VLA模型只能局限于適配簡易夾爪。然而,這些末端執行器自由度有限,無法實現精細的手指控制,因此無法完成復雜交互所需的精確協調或微妙的力調節。
具身智能面臨的數據難題該如何突破呢?由北京大學、中國人民大學以及北京智在無界科技有限公司(BeingByond)聯合發表的論文《Being-H0: Vision-Language-Action Pretraining?from Large-Scale Human Videos》提出了值得參考和借鑒的思路。
論文指出:為突破數據瓶頸,人類活動視頻為VLA訓練提供新路徑?——?具備海量真實世界數據且與現實差異極小。盡管已有研究采用隱式學習方法(如對比學習、掩碼自編碼、潛動作建模)增強機器人技能,但這些方法的學習機制與遷移效果仍不明確。
值得注意的是,此類方法未能復現LLM/LMM領域的性能躍升,例如視覺指令微調在LLM/LMM領域展現的突破性效果。這種差距可能源于數據結構的根本差異?——?在大型語言模型和大型多模態模型中,預訓練數據與下游訓練數據具有同構性,因此文本推理與語言任務能無縫適配,視覺-文本理解能力也能自然遷移至多模態任務。
相比之下,在VLA中卻呈現出異構性—— 文本/二維視覺輸入與具有本體感知需求的三維動作空間之間存在顯著差距。
因此,研究人員分析了視覺指令調優的成功因素,并提出了物理指令調優這一新范式來訓練了靈巧視覺-語言-動作模型——Being-H0。
該模型將人手確立為下游操作的通用基準(也就是說,將人手作為“基礎操控器”),使機器人能從網絡視頻學習多樣化技能。據悉,這是首次通過大規模人類視頻的顯式動作建模,預訓練可擴展、強泛化能力的VLA模型。
如下圖所示,物理指令調優范式包含三個關鍵組成部分:人類視頻驅動的VLA預訓練、面向三維推理的物理空間對齊以及針對機器人任務的后訓練適配。
Being-H0模型物理指令調優的三個關鍵組成部分
備注:文本分詞器(text tokenizer)和視覺編碼器(visual encoder)在預訓練和后訓練階段是共享的。對于預訓練以及手部運動/ 平移任務,Being-H0 以自回歸方式生成輸出。對于后訓練以及下游操作任務,Being-H0 引入了一組可學習的查詢向量作為動作塊進行預測。
同時,本論文還提出部件級動作Token化技術,通過毫米級重建精度建模精準手部軌跡。另外,為支撐此框架,研究人員構建了統一數據整備管線,整合了涵蓋動作捕捉數據、VR交互記錄、純RGB視頻在內的數據,形成包含數百萬動作驅動型指令實例的大規模數據集?- UniHand。
一、物理指令調優的三個關鍵組成部分
Being-H0模型物理指令調優過程
通過統一物理指令微調,搭建起了人類視頻數據集與機器人操作之間的橋梁。
1)圖左側:部件級運動Token化 ——?將連續的手部運動轉換為離散Token。物理空間對齊通過坐標系對齊和MANO參數化,統一異構數據源 —— 從視頻中的人類手部演示(數據集)到真實機器人數據,為預訓練和后訓練監督創建一致的表征。
2)圖中間:在預訓練階段——?將視覺-文本參數 Θv,t?擴展以納入運動參數Θm,使統一序列內的視覺、文本和運動Token能夠實現多頭注意力交互。用藍色表示視覺和文本注意力,紅色表示運動注意力,黃色表示跨模態注意力。
3)圖右側:擴展階段展示了注意力機制如何適配預訓練的跨模態依賴關系(Attnv,t|m),隨后是后訓練階段,其中納入動作參數Θa,生成具有參數Θa,v,t|m的最終VLA模型,用于下游機器人任務。綠色部分表示動作注意力。
1. 預訓練
現有的大型多模態模型(LMMs)在多模態推理方面表現出色,但在適配為用于操作任務的視覺-語言-動作模型(VLAs)時表現欠佳。原因在于預訓練數據與下游任務數據之間存在根本性不匹配。
為彌合這一差距,研究人員利用人類與機器人操作器在結構上的相似性,引入了手部運動生成預訓練。該預訓練方法是將人手視為理想的操作器,而機器人操作器則被視作人手的簡化版本。
預訓練使用一個多模態數據集:D = {(v?, t?, m?)}來訓練基礎VLA,使其能夠根據視覺輸入和語言指令預測手部運動。
其中v 代表視覺輸入, t 代表語言指令, m = {θ, rrot, τ, β} 代表基于 MANO 模型參數化的運動數據(包括關節角度 θ, 手腕旋轉 rrot, 平移 τ, 和手部形狀 β)。每個樣本都被視為一個指令-執行對{XQ, XA},并通過以下優化目標進行訓練:
其中Θ 表示基礎模型,XA?= {y?} 包含來自文本和運動模態的目標詞元。該統一框架支持靈活的任務定義,包括:視覺到動作生成、動作描述生成以及面向多樣化手-物交互場景的多模態條件生成。
1)模型架構
Being-H0 基于預訓練的大型多模態模型(LMM)構建,采用 InternVL3 架構 。主干網絡包含兩大部分:一個是基于預訓練的?InternViT-300M 作為視覺編碼器,以及一個2層的多層感知器(MLP)作為投影器。在每個時間步,模型會處理圖像-文本對輸入,以預測手部運動序列。
采用動態高分辨率策略,將輸入圖像分割為多個圖像塊,同時保持寬高比以最大限度減少失真,從而保留精細的視覺細節。
另外,將手部運動視為一種“外語”,以促進其與大型多模態模型的無縫整合。在預訓練階段,手部運動Token生成器會將連續的運動特征量化為離散嵌入。為將運動Token整合到大型多模態模型主干中,通過運動碼本中的?K個離散編碼擴展了模型的詞匯表。此外,還引入了兩個特殊Token<MOT>和</MOT>,用于標記運動塊的邊界。
2)手部運動Token化
運動Token化器旨在將原始運動序列中包含T幀的手部特征 M = {m?, m?, ..., m_T} 編碼為?T/α?個維度為 d 的Token嵌入,其中α 表示時間下采樣率。
a.運動特征
使用三維模型MANO來表示手部姿態,其參數化為 m = {θ, rrot, τ, β}。在本文中,探索了五種備選表示方式:
MANO-D51:每幀手部運動被編碼為 m∈R?1,包含θ∈R15×3、rrot∈ R3 和τ∈R3,其中θ和 rrot?以軸角形式表示。
MANO-D99:每幀手部運動被編碼為 m∈R??。與 MANO-D51 不同,該特征采用 6D旋轉(θ∈R15×6和rrot∈R?)而非軸角形式。
MANO-D109:在 MANO-D99 的基礎上進行擴展,額外納入了形狀參數 β ∈ R10。
MANO-D114:在 MANO-D51 的基礎上進行擴展,增加了關節位置 j∈R21×3。注意,關節位置僅在重建訓練中作為輔助特征,而在評估和推理階段,僅使用51 維參數。
MANO-D162:與 MANO-D114 類似,在MANO-D99的基礎上增加了關節位置 j∈R21×3。
論文中提到:6D旋轉特征在手指關節旋轉的重建質量上表現更優,而軸角特征在腕部姿態重建方面效果更好。研究人員將這一現象歸因于手部不同部位的結構特點—— 腕部通常表現出幅度較大但更為簡單的旋轉,軸角表示法的簡潔性和計算效率使其在此處更具優勢。相比之下,手指旋轉涉及更精細的細節,而6D旋轉表示法的連續性和數值穩定性能夠更好地捕捉這些細節。
盡管由于腕部姿態誤差的主導影響,使用軸角特征時整體重建誤差更低,但研究人員最終為手部運動Token生成器選擇了6D旋轉特征,因為它在 Being-H0 的訓練中表現更優。
一個可能的解釋是,大型多模態模型(LMMs)相對容易學習腕部姿態模式,而對精細的手指運動進行建模則面臨更大挑戰。因此,在該研究中,選擇 MANO-D162 作為手部運動的特征。
另外,研究人員打算在未來的工作中探索腕部使用軸角特征與手指使用6D旋轉特征的組合方式。
b.分組殘差量化
運動Token生成器的精度對生成的手部運動質量以及所學到的運動先驗知識在下游操作任務中的可遷移性都有著關鍵影響。為確保最佳性能,研究人員精心設計了一款專門用于手部運動的Token生成器。其架構基于分組殘差量化器變分自編碼器(GRQ-VAE)構建,如下圖所示。
基于GRQ的部件級手部運動Token化
c.部件級運動Token生成器
鑒于腕部參數重建的復雜性高于手指運動,研究人員為腕部和手指參數分別設計了Token生成器,使每個Token生成器能夠更好地對部件級特征進行建模。
具體而言,手部運動特征m = {θ, rrot, τ, β} 被分解為用于全局姿態和精確定位的腕部運動 {rrot, τ},以及用于精細操作的手指運動 {θ, β}。
這種部件級Token化不僅改進了特征建模,還提供了明確的Token語義,使大型多模態模型(LMM)主干能夠更好地捕捉結構化的手部動態。使用部件級Token生成器時,腕部損失 Lwrist?將被省略。
3)多模態整合
與傳統的大型語言模型(LLMs)一樣,采用下一個 token 預測的方式來生成輸出。Being-H0 通過將三種模態 ——RGB視覺、文本和手部運動 —— 統一token化(轉換為離散 token)來進行處理。
文本的處理方式遵循大型語言模型的常規做法,下面詳細闡述另外兩種模態(視覺和手部運動)的處理過程。
a.視覺Token
視覺輸入需經過專門處理,以應對可變分辨率圖像與動態內容復雜度的挑戰。給定輸入圖像后,首先采用動態分塊策略,根據圖像內容復雜度生成N 個圖像塊。
參照InternVL 的設計,該分塊策略包含縮略圖生成以保留全局上下文:始終保留一個下采樣版本 Ithumb(像素混洗比例為0.5)與細節圖像塊并行處理。
視覺處理過程:首先使用視覺編碼器從這些圖像塊中提取特征,然后通過MLP 層將特征投影到統一的嵌入空間中。
視覺Token使用邊界標記 <IMG> 和 </IMG> 包裹序列,而 <IMG_CONTEXT> 作為動態占位符Token,在處理過程中被實際視覺嵌入實時替換。
b.運動Token
運動數據在整合到token 流中之前,會先進行量化處理。對于表示為M的運動特征序列,運動 tokenizer 會將其量化為離散 token 序列 {mi}。
運動序列通過邊界標記<MOT>和</MOT>構建結構,形成每秒128個 token的運動塊。這種結構化表示確保運動信息在 token 流中具有清晰的界限,同時保持與Transformer 架構的兼容性。
多模態融合:?該模型通過統一的token空間處理所有模態,采用共享的嵌入層和注意力機制。在融合過程中,視覺token會替換 <IMG_CONTEXT> 占位符,而運動token則作為結構化塊插入到文本序列中。
由此生成一個組合token序列 S = {si},其中每個元素si可能代表文本、視覺或動作內容。注意力機制在跨模態間同步運作:對于拼接后的多模態隱藏狀態Hv,t,m?= [Hv;Ht;Hm](分別代表視覺、文本和運動嵌入),通過共享投影權重矩陣計算查詢(Query)、鍵(Key)、值(Value):
其中,W?{Q,K,V}?表示權重矩陣。此架構支持直接跨模態注意力機制,使模型能夠捕捉模態間的深層依賴關系,例如將視覺觀測關聯到特定手部運動,或將語言指令錨定到運動序列。
預訓練階段,在原始視覺-文本參數 Θv,t?的基礎上擴展,納入了運動參數Θm,通過共享注意力機制實現對三種模態的統一處理。模型通過在視覺觀測與語言指令的整體上下文中預測離散運動Token,學習生成連貫的運動序列。
物理指令調優過程
2. 物理空間對齊
上述所提到的預訓練方法旨在彌合視覺-動作之間的鴻溝以構建一個基礎視覺-語言-動作模型(VLA),但它面臨著超越標準視覺指令調優的獨特對齊挑戰。
關鍵難點源于以下三個方面:
(1)來自多源的視覺輸入在相機內參上存在差異,且是在動態世界坐標系下捕獲的數據;
(2)模型的主干網絡使用二維視覺-文本預訓練進行初始化,致使其缺乏關鍵的三維空間先驗知識;
(3)視頻數據中缺失人類憑直覺就能理解的力、摩擦力等基本物理屬性。
與生物視覺系統通過具身經驗自然形成三維感知不同,該論文中通過物理空間對齊來顯式地校準這些不同的數據源:將觀測結果統一到一致的坐標系中,并逐步“灌輸”三維推理能力和物理理解能力。
為了構建一個足夠大規模的靈巧人類手部動作視頻數據集,需要從各種數據集和公開來源收集樣本。然而,這種方法會導致相機系統存在差異,給有效的預訓練帶來挑戰。此外,現有的語言-多模態模型(LMMs)的3D感知能力有限。
為緩解這一問題,該論文中引入了物理空間對齊技術?——?這是一個統一的工具包,可將不同相機拍攝的視頻映射到一致的物理空間中,同時融3D空間推理和物理屬性(若有),以增強跨數據集的幾何一致性和感知一致性。
接下來介紹論文中提到的兩種物理空間對齊策略:弱透視投影對齊和視角不變的動作分布平衡。
1)弱透視投影對齊
不同數據源的相機系統存在固有差異,導致3D空間的投影不一致。盡管人類能夠直觀地感知深度并估計手部與物體之間的抓取距離,但在這類多源數據集上訓練的模型往往難以將圖像投影準確映射到實際3D場景中,從而在3D空間推理中產生誤差。
為緩解這一問題,研究人員建立了統一的弱透視相機空間,確保從2D視覺內容到共享3D參考框架的一致性對齊。這種方法能為相似深度的物體維持統一的像素尺度,減輕因相機內參不同造成的不一致性。
2)視角不變的動作分布平衡
培養模型穩健的指令遵循能力,需要對指令微調數據進行細致的預處理,以確保數據分布的平衡性,對于物理指令微調而言尤其如此。
如果數據集中某一種相機配置占主導地位,可能會給3D感知系統帶來偏差,最終限制模型在未見過的相機設置中的泛化能力。
為緩解這一問題,研究人員提出了一種新穎的分布平衡策略,對小規模數據源的視頻-動作對進行增強,避免它們被大規模數據源的樣本所掩蓋。在平衡過程中,在不改變相機視角和位置的前提下,調整手部姿態分布。重要的是,該方法保留了來自不同數據源的動作之間的弱透視一致性,確保連貫的3D理解。
3)其它
除上述兩種策略外,該論文還提出了一種觀點:整合更豐富的物理線索能進一步提升模型對空間和物理環境的理解。例如,融入視覺深度信息、觸覺反饋或其他多感官信號,可為人類活動提供更具扎實依據且更貼合實際的表征。這些模態能從不同角度補充物理交互和3D結構的信息,而僅靠2D視覺輸入,這些信息往往模糊不清或表述不足。
這種多感官整合可解決純視覺方法固有的根本性局限。例如,RGB-D 傳感器提供的深度信息能消除弱透視投影帶來的空間模糊性;觸覺反饋可捕捉關鍵的接觸動態、握力和材料屬性,這些在視覺觀察中不可見,但對成功完成操作至關重要;物體交互產生的音頻信號能進一步區分視覺上相似但物理過程不同的操作策略,比如區分輕柔放置和用力按壓動作。
這些增強的對齊策略能構建更穩健的表征,更精準地捕捉人類在操作任務中自然具備的豐富物理理解能力。
對于規模規模更大,更多樣化的數據集,整合此類多模態物理線索對于彌合人類演示數據與機器人在各種真實場景中可靠部署之間的差距,將變得愈發重要。
3. 后訓練
經過預訓練和物理空間對齊后,基礎VLA模型具備了全面的視覺-語言-動作理解能力,但還需要適應特定的機器人操作任務。
后訓練階段將模型參數從Θv,t,m?擴展至Θa,v,t|m,納入了動作參數Θa,使其能夠直接實現機器人控制,同時利用預訓練過程中學習到的豐富多模態表征。
物理指令調優過程
人類手部與機器人靈巧手/夾爪之間的運動學差異,使得基礎?VLA 模型及其動作 token 無法直接遷移使用。研究人員采用基于非自回歸?MLP 的投影方法來彌合這一差距。
Being-H0模型物理指令調優的三個關鍵組成部分
采用VLA主干網絡作為預訓練編碼器,通過輕量級MLP投影頭(fp)將靈巧手的本體感知狀態投射到其嵌入空間中。該本體感知嵌入與視覺-文本Token結合,形成統一上下文(ctx) ,實現對感官輸入、語言指令和當前物理構型的協同推理。
在動作生成方面,使用一組可學習的查詢?token {q1, ..., qNa},這些 token在預訓練編碼器中關注上述上下文信息,同時,通過一個回歸策略頭?MLP(fr)將預訓練編碼器的輸出轉換為可執行的靈巧姿態。
訓練后階段的目標是通過模仿學習來復現專家演示。這種方法能有效將預訓練的基礎VLA模型升級為可生成機器人可執行控制指令的模型,同時保留跨模態推理能力,并支持多項任務,例如:從視覺-文本輸入生成動作、基于文本對觀察到的動作進行描述,以及通過特定領域微調實現機器人控制適配。
二、UniHand: 手部動作指令數據集
1. 數據集來源
1)數據集來源于三個主要渠道:
動作捕捉數據集:這類數據集包含來自受控環境(如工作室、實驗室)中多視角動作捕捉系統的高精度3D標注,但其多樣性往往有限。例如,OAKINK2提供了多視角、以物體為中心的真實世界雙手操作記錄。
VR錄制數據集:這類數據集利用VR設備(如蘋果 Vision Pro),通過校準相機和基于SLAM 的跟蹤技術,在約束較少的環境中捕捉自然的手部-物體交互,同時保持可靠的3D真值。例如,EgoDex,其中包含多達194項家庭操作任務,如系鞋帶和疊衣服。
偽標注數據集:利用現成的手部動作預測器,從真實場景視頻中生成偽3D標簽。盡管這類數據集噪聲較多,但在可擴展性和多樣性方面表現出色 。例如,Taste-Rob包含約10萬個從固定視角錄制的第一視角視頻,且配有對齊的語言指令。
UniHand 數據集整合了 11 個來源的信息,不僅包含詳盡的手部動作標注,還配有對應的 RGB觀測數據。該數據集規模龐大,共涵蓋超過 44萬個任務軌跡,包含1.3億余幀畫面與1100多小時的視頻內容。
受計算成本限制,研究人員從UniHand中抽取了250萬個指令數據點用于預訓練。這一子集是基于平衡采樣策略選取的,以確保任務類型和數據來源的多樣性,并將其稱為 UniHand-2.5M,據悉,這是目前規模最大的第一視角手部動作數據集。
UniHand-2.5M 數據集
備注:左側表示來自不同數據源類型的場景和任務;中間表示不同數據源、數據類型及時長的分布情況;右側表示不同數據類型的樣本。
UniHand數據集信息統計
備注:#Inst 指的是用于該研究所生成的指令樣本數量。
2. 數據整備流程
1)手部姿態標準化
模型將手部動作視為3D信號,學習從2D視覺觀測到3D空間坐標的顯式映射,以確保幾何精度和視覺-語義一致性。為解決不同數據集間動作標簽的異質性問題,需要通過手部姿態標準化來整合不同數據源。
對于包含動作捕捉或SLAM跟蹤標簽的數據集,直接提取其MANO參數形式的標注 。當僅存在3D手部關節位置時,通過基于梯度的優化方法推導出相應的MANO 參數。若數據集完全缺乏 3D手部姿態或關節標注,則利用 HaMer進行逐幀姿態估計,以保持一致的動作語義。
為提升HaMer 輸出結果的可靠性,通過識別姿態不連續性來檢測并糾正左右手匹配錯誤,隨后采用時間插值法填補微小缺口。此外,擬合過程中還融入了關節角度約束和時間平滑正則化,以確保手部動作在物理上合理且連貫。
2)任務描述標簽
為了在視覺、語言和動作之間建立堅實的語義關聯,引入了一個結構化的分層標注框架,該框架對動作語義進行了豐富,克服了現有數據集中文本標簽稀疏或不精確的問題。此框架提供詳細且一致的文本描述,使VLA 模型能夠有效對齊視覺輸入、自然語言指令和量化的手部動作表征。
為實現結構化覆蓋,將每個視頻分割為不重疊的片段,每個片段最長為10秒,確保每個片段都能捕捉任務的一個明確階段。然后,以2FPS的頻率對幀進行采樣,并利用Gemini-2.5-Flash-Lite在兩個時間層級生成標注:在片段層級,生成祈使句指令和簡潔摘要,描述整體的手部活動和物體交互;
在更精細的每秒層級,將每個片段進一步劃分為重疊的1秒窗口,為其標注精確的指令和描述,詳細說明接觸狀態、物體屬性、手部部位以及相對于相機視角的動作軌跡。
為保證清晰度和完整性,對全局的雙手動作和單個手的動作分別進行標注,同時捕捉雙邊和單邊描述。這種多尺度標注策略確保了全面且一致的覆蓋,在統一框架中架起了高層級任務目標與細粒度手-物交互之間的橋梁。
3)指令數據生成
基于系統性的標注成果,構建了指令跟隨訓練數據,旨在為基礎VLA模型明確建立豐富的視覺-語言-動作對齊關系。為此,所設計的指令任務聚焦于手部動作理解的多個關聯層面,包括手部軌跡與視覺上下文的時空對齊、精確的物體屬性與接觸狀態、清晰的動作意圖,以及高層級指令與細粒度動作步驟之間的一致性。
遵循這些原則,針對三種互補的任務類型開發了訓練數據:
(1)指令性動作生成:模型學習在場景圖像和任務指令的約束下,生成逐步的動作序列;
(2)運動轉譯:要求模型將運動序列和視覺線索轉換為描述手-物交互的語言文本;
(3)基于上下文的運動預測:讓模型根據先前的動作歷史、當前的場景觀測以及可選的指令或任務目標,預測后續的動作序列。
在實現過程中,為每種任務類型設計了約20個基礎模板,并利用 Gemini-2.5-Pro 生成多樣化的指令變體。每個模板都明確包含目標時長規格,使模型能夠處理不同的時間粒度和序列長度。通過基于規則的實例化,向這些模板中填充關聯指令、動作token 和明確的長度約束。
為確保訓練集中視覺視角分布的平衡性,采用視角不變動作分布平衡方法來增強數據。基于這一平衡后的數據集,生成了超過1.65億個高質量指令對,涵蓋多個時間尺度、用手配置和操作場景,并通過系統性質量檢查確保語義連貫性。
為進一步平衡訓練數據中數據源和任務類型的分布,從完整數據集中抽取了250萬個實例的子集,該子集對任務類別和數據來源的覆蓋更為均衡。
對于數據集UniHand-2.5M,從視角平衡數據中生成的樣本比例下圖所示。這種統一設計為模型提供了穩健的監督,使其能夠學習視覺、語言與結構化動作之間的一致性映射,包括雙手和單手的手-物交互。
UniHand-2.5M數據集中的樣本比例
總之,這種結構化的多尺度標注框架確保了對高層級任務目標和細粒度手-物交互的全面且一致的覆蓋,為下游建模和分析提供了豐富的動作數據。
三、核心問題與解決方案
1. 兩個核心問題
1)大規模人類活動視頻能否支持靈巧視覺-語言-動作模型的預訓練,使其能夠顯式地理解并模仿人類動作——類似于GPT-3通過大規模預訓練學習語言的方式?
2)這種預訓練模型能否通過后訓練適配,有效地將其能力遷移到機器人操作任務中?
為解決這些問題,必須克服若干關鍵挑戰。下面,論文中分析了這些難點并概述相應的解決方案。
2. 解決方案
1)預訓練數據整備
與自然語言處理(NLP)和計算機視覺(CV)領域相比,當前的視覺-語言-動作模型(VLAs)面臨著嚴重的數據稀缺問題。盡管存在如 Open X-Embodiment 和 AgiBot 等數據集,但其規模仍比現有的多模態基準數據集小幾個數量級,并且主要關注末端執行器控制,由于硬件成本而忽略了細粒度的手指協調動作。
人類活動視頻可能有助于解決這一問題,但其潛力尚未被充分利用,因為大多數方法主要側重于隱式對齊(例如,GR00T N1.5 的隱動作優化(潛在動作優化),且其益處尚未得到證實。
最近,一些工作開始基于實驗室采集數據集探索文本到運動生成,這些數據集具有精確標注。然而,這些數據受限于其規模小,因此缺乏多樣性和泛化能力。相反,野外采集數據集(例如Ego4D)能夠提供規模優勢,但這些數據集存在相機不一致性和運動粒度問題。
該論文中通過MANO參數標準化和弱透視對齊,系統性地整合了這些異構數據源,構建了一個涵蓋 150 多個任務、時長超過1000小時的統一數據集。
2)精確手部動作量化
該研究將手部動作視為一種“外語”,但引出了一個關鍵問題:“離散動作Token能否保持動作預測所需的足夠精度?”?盡管以往的研究表明,量化會破壞姿態連續性并損失精度,但通過其精心設計,基于矢量量化(VQ)的Token生成器實現了毫米級的重建精度。
具體而言,利用一維卷積編碼器對連續的MANO動作序列 M∈RT×D?進行離散化處理,生成特征圖z∈R?T/α?×d,過程如下:
其中,T 表示幀數,α 為時間下采樣率。動作Token mi∈{<motion_id_0>, ..., <motion_id_K>} 由<MOT>和</MOT>分隔,形成連貫的動作塊,以確保在統一的大型多模態模型(LMM)中與文本實現無縫整合。
3)統一跨模態推理
為了建模視覺觀測、語言指令和手部動作之間的復雜關系,研究人員將所有模態數據處理為統一的Token序列 S = {si},其中每個Token si?可代表文本、視覺或動作信息。視覺Token用于替換 < IMG_CONTEXT > 占位符,而動作Token則在序列中構成連貫的塊結構。
跨模態交互通過共享注意力機制實現,其中查詢Qv,t,m、鍵Kv,t,m?和值Vv,t,m?均由拼接后的狀態Hv,t,m?= [Hv;Ht;Hm] 計算得出。這使得模型能夠學習豐富的多模態依賴關系:將視覺場景映射到操作策略、將語言指令與精確的手指動作關聯,以及將時間動作模式與任務目標對齊。
4)自適應機器人控制遷移
盡管預訓練的基礎視覺-語言-動作模型(VLA)能夠生成連續運動并保持廣泛的能力,但由于運動學不匹配、自由度差異和物理約束等問題,將人類手部動作直接遷移到下游操縱器仍面臨挑戰。
為驗證從大規模人類視頻中學習的有效性,該論文采用了一種基于多層感知器(MLP)的簡單投影方法 —— 使用一組固定的可學習查詢作為下游操縱器的動作塊。
結語
Being-H0是一種基于大規模人類視頻訓練、具備高擴展性與樣本高效性的靈巧操作型視覺-語言-動作(VLA)模型。其創新性在于采用物理指令微調范式,包含:預訓練、物理空間對齊和后訓練。
該研究解決了從人類演示視頻中學習靈巧操作的四大關鍵挑戰:
預訓練數據整備:通過MANO參數標準化與投影對齊技術,系統集成異構數據源。
手部動作量化:所提出的分組殘差量化方案在實現毫米級重建精度的同時,無縫銜接語言模型,實現動作與語言的同構處理。
跨模態推理:將多模態信號統一到自回歸序列中,構建連接視覺場景→操作策略、語言指令→精準手指動作的復雜跨模態依賴。
機器人控制遷移:通過物理指令微調,克服人手與機械手的運動學差異,有效遷移預訓練多模態表征。
同時,該論文的研究為基于人類視頻的大規模機器人操作學習奠定了基礎,并指出以下未來研究方向:
深化物理空間對齊:通過融合深度感知信息與觸覺反饋,提升從人類演示到機器人控制的遷移能力,增強操作技能的物理合理性。
拓展復雜場景應用:將Being-H0模型延伸至工具使用、多物體交互及長程推理場景,開辟更具挑戰性的研究前沿。
融合仿真與強化學習:結合仿真環境與強化學習框架,實現更魯棒的策略學習及更安全的現實世界部署。
參考資料:
論文題目 ?:Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos
論文地址:https://arxiv.org/pdf/2507.15597