加州伯克利發布的超視覺多感知模態融合(FuSe, Fuse Heterogeneous Sensory Data)模型,基于視覺、觸覺、聽覺、本體及語言等模態,利用自然語言跨模態對齊(Cross-Modal Grounding)優調視覺語言動作等通用模型,提高模型任務成功率。
總體框架
基于預訓練的Octo模型或PaliGemma視覺語言動作模型,利用機器人第三方視角相機及腕部相機圖像,觸覺感知圖像,麥克風語譜圖像(Spectrogram)及自然語言指令等,通過多模態對比損失、語言生成損失及動作損失,進行模型優調,實現自然語言指令或圖像目標任務。
[圖片來自網絡]
一、硬件環境
[圖片來自網絡]
機械臂, WidowX 250 6-DoF。
第三方視角相機, RGB相機。
腕部相機, RGB相機。
觸覺傳感器, DIGIT,2個,分置于終端鉗。
麥克風, 標準型。
慣性測量單元, 9-DoF IMU。
二、訓練環境及數據
TPU, Google v5e-128 TPU pod。
機器人任務軌跡收集器, Meta Quest 2 VR headset。
任務數據集,基于遙操作收集大概3萬條軌跡。
每條軌跡通過模板化的語言指令(Templated Language Instruction)標記。
三類任務,兩類抓取任務具備視覺、觸覺及動作數據,一類具備聲音的按鈕任務。觸覺觀測信息去掉靜態背景圖。音頻包括最近1秒的麥克風采樣數據,頻率44K。
三、機器學習框架
Google Research 發布的 JAX,基于自動梯度(Autograd)及線代加速器(XLA, Accelerated Linear Algebra)、自動向量實現自動微分(Automatic Differentiation)、實時編譯(JIT, Just-In-Time)及并行計算,提高基于TPU等的大規模、高性能計算。不過易用性似不好。
四、觸覺傳感器(DIGIT)
GelSight DIGIT基于視覺的觸覺傳感器,利用相機捕獲彈性材料的形變圖像來測量接觸力(Contact Forces).
[圖片來自網絡]
拆解圖,左至右,彈性材料(Elastomer),窗(Acrylic Window),卡座(Snap-Fit Holder),照明電路板(Lighting PCB),外殼(Plastic Housing),相機電路板(Camera PCB),背殼(Back Housing)。
超態模型
一、模型框架
[圖片來自網絡]
框架圖,頂部,自然語言標記化作任務標記(原圖似未正確表示);相機圖像、觸覺圖像、語音譜圖標記化作觀測標記(Observation Tokens);取讀標記(Readout Tokens)添加到變換器輸入,用于注意此前任務及觀測標記;任務標記、觀測標記及取讀標記基于遮擋碼方法實現注意力規則,通過多模態編碼變換器生成注意力嵌量;底部,基于動作頭(Action Head)生成動作; 基于多模態對比損失對齊視觸覺與語言指令,基于語言生成損失對齊多模態與語言語義,基于動作損失對齊多模態與動作; 基于注意力嵌量,利用累加損失訓練模型。
取讀標記(Readout Tokens)作用類似基于變換器的雙向編碼器表征模型(BERT, Bidirectional Encoders Representations From Transformers)中的[CLS]標記(Token)。可存在多個取讀(Readout),一個取讀可對應多個標記(Tokens)。取讀標記實例化時等價于位置嵌量。
動作頭(Action Head)基于標準去噪擴散概率模型(DDPM, Denoising Diffusion Probabilistic Models),利用變換器生成的動作取讀(Action Readout)注意力嵌量等信息學習去噪神經網絡,通過對標準高斯噪聲多步去噪預測動作。
二、多模態模型Octo
基于視覺變換器(ViT, Vision Transformer)及開源具身數據集(Open X-Embodiment Dataset)預訓練實現的機器人通用控制策略模型。
[圖片來自網絡]
模型框架定義。
[圖片來自網絡]
框架圖,左側,分別基于預訓練語言模型與輕型卷積神經網絡標記化任務及觀測信息;頂部,預訓練框架,任務及觀測標記序列通過變換器骨干網絡生成取讀標記(Readout Tokens);取讀標記基于動作頭(Action Head)生成動作;底部,優調框架,基于變換器的塊注意力結構(Block-Wise Attention Structure),優調過程中可添加或移走輸入、輸出量,比方,新的觀測量或動作空間。
三、編碼器
1、自然語言編碼器
T5-Base變換器模型。
2、圖像編碼器
卷積棧(Shallow Convolution Stack)。
3、觸覺編碼器(Tactile Encoder)
基于每對模態之間,比方視覺語言、觸覺語言及觸覺視覺的對比損失訓練模型。
[圖片來自網絡]
4、音頻編碼器(Audio Encoder)
基于快速傅立葉變換(FFT, Fast Fourier Transform)得到語譜圖,利用ResNet26編碼器進行編碼。
模型訓練
參數更新基于余弦學習率調度器(Cosine Learning Rate Scheduler)。
一、標記序列
標記序列定義。
[task, observation 0, observation 1, observation 2, …]
標記序列示例。
[ , <t=0 “image_primary” tokens>, <t=0 “image_wrist” tokens>, <t=0 readout_action tokens>, … <t=1 “image_primary” tokens>, <t=1 “image_wrist” tokens>, <t=1 readout_action tokens>, … <t=2 “image_primary” tokens>, <t=2 “image_wrist” tokens>, <t=2 readout_action tokens>, … …]
二、遮擋規則
Octo模型是塊因果變換器(Block-Wise Casual Transformer),每個時步只注意當前及此前時步。
觀測標記注意任務標記,當前及此前時步的所有觀測標記。
取讀標記只注意該標記前的標記序列。
三、損失函數
[圖片來自網絡]
優調過程的損失函數程序實現。
def loss_fn(params, batch, rng, train=True, use_action_loss=True, use_contrastive_loss=True, use_generative_loss=True, **kwargs): info = {} loss = 0.0 bound_module = model.module.bind({“params”: params}, rngs={“dropout”: rng}) if use_action_loss: ac_loss, ac_metrics = loss_fn_action(bound_module, batch, train, **kwargs) info.update(ac_metrics) loss += ac_loss if use_contrastive_loss: lang_loss, lang_metrics = loss_fn_contrastive(bound_module, batch, train, **kwargs) info.update(lang_metrics) loss += lang_loss if use_generative_loss: gen_loss, gen_metrics = loss_fn_generative(model=model, params=params, rng=rng, batch=batch, **kwargs) info.update(gen_metrics) loss += gen_loss info[‘loss_total’] = loss return loss, info
淺析: Nvidia GR00T模型及Physical Intelligence模型,基于動作狀態,通過擴散變換器或流匹配生成未來動作;利用視覺語言模態注意力嵌量直接調控動作生成;利用行為克隆進行總對齊。
超視覺模態模型基于多模態圖像及語言,通過編碼變換器(Transformer Encoder)及標準擴散模型進行嵌量化及生成動作;基于行為克隆對齊的同時,利用對比損失及生成損失進行嵌量對齊,間接調控動作生成。
超視覺模態模型框架似過冗,多模態注意力嵌量直接調控擴散變換器或流匹配模型可能是更適合的方法。
基于觸覺、聽覺等模態信息及遮擋碼注意力規則可提供更全面的語義對齊能力;同時,利于基于多樣化的環境反饋實現機器人操作控制約束條件。
新發布的觸覺傳感器DIGIT360可實現全向感知、近千萬級感素(Taxels),空間特征分辨率可到7微米,法向力(Normal Forces)及切向力(Shear Forces)分辨率可到近1毫牛,可感知振動、熱,甚至異味。
基于U-Net骨干神經網絡的標準去噪擴散概率模型應可替換成擴散變換器(DiT, Diffusion Transformer)或流匹配模型,以提高性能或平滑性。
人形機器人基于慣性測量單元的超視覺模態注意力對齊,似有利于實現多任務操作時的整機平衡。
參考:
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding.
A Touch, Vision, and Language Dataset for Multimodal Alignment.
Octo: An Open-Source Generalist Robot Policy.
DIGIT: A Novel Design for a Low-Cost Compact High-Resolution Tactile Sensor with Application to In-Hand Manipulation.
Digitizing Touch with an Artificial Multimodal Fingertip.