0. 前言
GR00T N1 的詳細介紹
Isaac-GR00T 在6.11 進行了全面升級,從 N1 進化為 N1.5,但基本還是基于之前的架構,官方發布了一個技術報告,并更新了github庫,之前的N1也做了獨立版本 N1
N 1.5 github
技術報告
model
GR00T N1.5 其實是一種改進的通用人形機器人開源基礎模型。這個跨形體模型可以接收多模態輸入(比如語言和圖像),用來在不同環境中完成操作任務。
這是面向人形機器人的 GR00T N1 基礎模型的升級版。通過在架構、數據和建模方面的多項改進,Nvidia 發現 N1.5 在模擬操控基準測試和真實 GR-1 機器人上的表現都超過了 N1。Nvidia 預計使用 N1.5 的用戶將看到比 N1 更好的表現,尤其在泛化能力和語言指令理解方面有顯著提升。
1. 模型和數據更新
1.1 結構
和 N1 一樣,GR00T N1.5 使用了 NVIDIA 的 Eagle VLM 來編碼文本和視覺觀察信息。
由 VLM 輸出的“視覺-語言嵌入向量”會被另一個模塊 DiT(Denoising Transformer)用“跨注意力機制”處理,它同時還處理機器人當前的狀態和帶噪聲的動作。
和N1的主要不同:
- VLM 模型在預訓練和微調階段都保持凍結
- 簡化了從視覺編碼器到大語言模型(LLM)的 adapter MLP,并在輸入 LLM 的視覺和文本 token embeddings 上都加了層歸一化
adapter MLP:可以理解成“翻譯官”,它把視覺編碼器輸出的向量變成 LLM 能懂的格式。原來可能有好幾層線性變換+激活函數,現在縮減層數,讓信息傳遞更直接,不容易“走偏”。
LayerNorm(層歸一化):是在網絡內部做“數據標準化”,讓輸入向量的數值分布更“均勻”、更“可控”。
這些改動帶來的好處:
- 更強的語言跟隨能力:機器人聽指令不會“走神”,更準確地執行你說的每一句話。
- 更好的泛化:即使碰到新場景、新物體、新說法,也能跨過去,不容易“卡殼”。
1.2 改進了 VLM 的定位能力
他們將 GR00T N1.5 中的視覺–語言模型升級到 Eagle 2.5,并針對更好的**“定位”能力和物理理解進行了微調。在 RefCOCOg 基準和他們內部的 GEAR GR-1 定位數據集(含指代表達)上,發現 N1.5 的 VLM 表現優于同級別的開源模型 Qwen2.5-VL-3B。
左圖:測試數據集的示例標注**。右圖:模型輸出示例。
1.3 將策略學習與世界模型聯合
除了 N1 使用的流匹配損失(flow matching loss)之外,N1.5 還引入了“未來潛在表示對齊”(Future LAtent Representation Alignment,簡稱 FLARE,詳見 FLARE 項目)。與其去“生成”未來幀圖像,不如直接讓模型對齊到未來目標的向量表示。他們發現,加入 FLARE 不僅能提升策略性能,還能解鎖從真人視頻中學習的能力。
流匹配損失(Flow Matching Loss):用于讓模型學會從當前狀態“流暢地”過渡到未來狀態,好比對動作軌跡做平滑擬合。
策略學習(Policy Learning):教機器人“下一個動作該怎么做”。
世界建模(World Modeling):讓模型理解環境如何運轉,比如“如果我推一下盒子,它會往哪兒滾?”FLARE不生成未來幀,而是讓模型對齊到“未來幀的向量表達”上:
生成未來幀圖像很耗資源,還容易模糊;
對齊向量更高效,也能直接對比“我預測的未來”與“真實未來”的差距。
1.4 訓練
在 1,000 塊 H100 GPU 上以全局批量大小(global batch)16,384,訓練了 250,000 步。如同 N1,使用 AdamW 優化器,配合余弦學習率調度(含 5% 預熱)。在預訓練與后訓練階段,FLARE 的損失系數均設置為 0.2。
預訓練數據混合集 包括:內部 GR-1 真實數據、OpenXE 數據集、模擬 GR-1(又名 DexMG)、DreamGen 生成的神經軌跡,以及 AgiBot-Beta。
2. 實驗結果
2.1 架構驗證
為了為 N1.5 調優模型架構,他們從頭開始在兩個需要“聽指令做任務”的仿真機器人基準上訓練策略:一個叫 “Language Table”,另一個是一組包含五個需語言指令的模擬 GR-1 任務(“Sim GR-1 Language”)。我們發現 N1.5 的新架構在這兩個基準上的成功率都明顯更高,說明其“基于語言的控制”能力更強。
2.2 在模擬環境中有限數據的后訓練
遵循 GR00T N1 的評估流程,在數據受限的后訓練場景下評估 N1.5 的表現。對于 Sim GR-1,這里既能做少樣本(few-shot)評估,也能做零樣本(0-shot)評估,因為預訓練時已包含了同一具身的其他 Sim GR-1 任務。可以發現,在數據極度稀缺的情況下(零樣本和僅 30 個示例演示),N1.5 的表現明顯優于 N1。
2.3 真實環境 GR-1 語言跟隨
在真實 GR-1 評估中加入了一個簡單的語言跟隨任務:桌子上有兩個水果,機器人需要把其中一個放到盤子里。目標水果的初始位置以 50% 的概率更靠近左手或右手。
相較于 N1,N1.5 在真實 GR-1 機器人上執行語言指令的能力有了顯著提升。盡管兩者策略都會把某個水果放到盤子里,N1.5 在“聽懂并執行正確指令”這一點上表現更好,從而獲得了更高的整體成功率。
2.4 從人類第一視角視頻中學習操控新物體
為了評估模型的泛化能力,使用一組 10 件在預訓練中未見過的新物體來測試抓取和放置性能。
如同 FLARE 項目所示,“未來潛在表示對齊”使得模型能夠直接從人類的第一視角視頻中學習。這就能讓機器人僅憑人類視頻和極少量的機器演示,就學會操作新物體。使用 N1.5,他們發現這種學習方式在零樣本條件下也能奏效。
但是這樣似乎只能學到靈巧手的操作吧
2.5 使用“神經軌跡”實現對新行為的泛化
為了超越遙操作數據,使人形機器人能夠在新環境中學習新任務,使用 DreamGen 生成合成機器人數據進行訓練。
通過 DreamGen 流程,展示了 GR00T N1.5 在 12 個新動詞 上取得了不俗的結果(任務詳情見 DreamGen 博客)。這些新動詞被加入到預訓練數據中。而 GR00T N1 對新動詞的泛化能力很弱,僅能重復預訓練中見過的任務(比如抓取和放置)。
他們發現,GR00T N1.5 在這 12 個 DreamGen 任務上的成功率達到了 38.3%,而 GR00T N1 僅為 13.1%。盡管這些新動詞在嚴格意義上是“零樣本”(從未為這些任務收集遙操作數據),但仍通過 DreamGen 軌跡對它們進行了顯式訓練;將完全的零樣本動詞和環境泛化留給未來工作。
2.6 在 Unitree G1 機器人上的后訓練
在 Unitree G1 機器人上使用 1,000 條遙操作示范對 GR00T N1 和 N1.5 進行了后訓練。與 GR-1 語言跟隨實驗相同,場景中初始化放置一個目標物體和一個干擾物體,目標物體有 50% 概率更靠近左手或右手。
可以觀察到,后訓練后的 GR00T N1.5 對預訓練中見過的玩具水果(在 GR-1 預訓練語料中出現過)取得了遠高于 N1 的成功率,并且還能泛化到多種此前未見過的物體。
總體來看, GR00T-N1.5 相較于 GR00T-N1 有了顯著提升。
它取得了更高的成功率;能夠利用更豐富多樣的數據來源;并且在語言指令跟隨能力上有顯著改善。他們將這些改進歸功于更強的“定位”能力、FLARE 損失的引入,以及來自 DreamGen 的多樣化數據。該模型已經開源,希望各位實踐者在對自己的機器人進行微調時,能看到更好的效果。
3. N1.5 github repo
N 1.5 github
3.1 使用 GR00T N1.5 的大致流程:
- 用戶先收集機器人演示數據,形式為(三元組):(視頻, 狀態, 動作)。
- 將演示數據轉換為 LeRobot 兼容的數據格式(詳見 getting_started/LeRobot_compatible_data_schema.md),該格式與 Huggingface 上游的 LeRobot 工具鏈兼容。
- 我們的代碼倉庫提供了不同形體配置的訓練示例。
- 倉庫還附帶了微調腳本,幫助用戶在自有數據上快速微調預訓練好的 GR00T N1.5,以及推理腳本用于實時運行。
- 最后,用戶將 Gr00tPolicy 連接到機器人控制器,即可在目標硬件上執行生成的動作。
LeRobot 兼容格式: 一種統一的數據規范,讓各種輸入(三元組)能無縫接入 Huggingface 的 LeRobot 訓練工具。
3.2 GR00T N1.5 新變化總覽
3.2.1 模型與數據
- 凍結 VLM
視覺–語言模型在預訓練和微調階段始終“凍結”參數,保持其強大的語言理解能力,同時提升泛化效果。 - 增強的 VLM 定位能力
升級到 Eagle 2.5,物理感知和目標“定位”更精準——在 GR-1 定位任務上達到 40.4 IoU(而 Qwen2.5-VL 為 35.5)。 - 簡化的 Adapter
視覺編碼器到大語言模型(LLM)之間的多層感知機(MLP)被瘦身,并且在視覺與文本 token 輸入處均加入了層歸一化(LayerNorm),讓信息傳遞更穩定、更對齊。 - FLARE 引入
在原有的流匹配(flow matching)損失之外,又加了“未來潛在表示對齊”(FLARE)目標,使模型能直接從人類第一視角視頻中高效學習新動作。 - DreamGen 集成
利用 DreamGen 合成的“神經軌跡”數據,讓機器人學會一堆預訓練里沒見過的新行為,大幅擴展了任務多樣性。
3.2.2 性能提升
- 語言跟隨:GR00T N1.5 在 GR-1 操作任務上的語言指令執行率達到 93.3%,而 N1 只有 46.6%。
- 數據效率:在極少示例(0-shot 和 few-shot)條件下,N1.5 表現更穩。
- 新物體泛化:拿到從未見過的物品也能“零樣本”抓放。
- 新形體支持:
- 單臂機械臂(EmbodimentTag.OXE_DROID)可用末端執行器(EEF)控制;
- 帶抓手的人形機器人(EmbodimentTag.AGIBOT_GENIE1)也能直接接入—超越了單純的關節空間控制,適配更廣硬件。
3.2.3 適用場景
目標用戶:人形機器人研究員與工程師。
功能亮點:
- 利用預訓練基礎模型快速上手機器人控制;
- 在小規模自定義數據上高效微調;
- 針對特定任務和硬件做最少量的后訓練;
- 一鍵部署推理,直接對接機器人控制器
3.2.4 環境與依賴
系統測試:Ubuntu 20.04/22.04 + GPU(H100、L40、RTX 4090、A6000) + Python 3.10 + CUDA 12.4。
推理測試:Ubuntu 20.04/22.04 + GPU(RTX 3090、4090、A6000)。
必裝依賴:CUDA 12.4、TensorRT、ffmpeg、libsm6、libxext6。
其他的詳細使用教程與步驟可以看官方的repo。