GR00T N1.5 技術報告 -- Nvidia -- 2025.6.11 -- 開源

0. 前言

GR00T N1 的詳細介紹

Isaac-GR00T 在6.11 進行了全面升級，從 N1 進化為 N1.5，但基本還是基于之前的架構，官方發布了一個技術報告，并更新了github庫，之前的N1也做了獨立版本 N1

N 1.5 github
技術報告
model

GR00T N1.5 其實是一種改進的通用人形機器人開源基礎模型。這個跨形體模型可以接收多模態輸入（比如語言和圖像），用來在不同環境中完成操作任務。

這是面向人形機器人的 GR00T N1 基礎模型的升級版。通過在架構、數據和建模方面的多項改進，Nvidia 發現 N1.5 在模擬操控基準測試和真實 GR-1 機器人上的表現都超過了 N1。Nvidia 預計使用 N1.5 的用戶將看到比 N1 更好的表現，尤其在泛化能力和語言指令理解方面有顯著提升。

1. 模型和數據更新

1.1 結構

和 N1 一樣，GR00T N1.5 使用了 NVIDIA 的 Eagle VLM 來編碼文本和視覺觀察信息。

由 VLM 輸出的“視覺-語言嵌入向量”會被另一個模塊 DiT（Denoising Transformer）用“跨注意力機制”處理，它同時還處理機器人當前的狀態和帶噪聲的動作。
在這里插入圖片描述
和N1的主要不同：

VLM 模型在預訓練和微調階段都保持凍結
簡化了從視覺編碼器到大語言模型（LLM）的 adapter MLP，并在輸入 LLM 的視覺和文本 token embeddings 上都加了層歸一化

adapter MLP：可以理解成“翻譯官”，它把視覺編碼器輸出的向量變成 LLM 能懂的格式。原來可能有好幾層線性變換＋激活函數，現在縮減層數，讓信息傳遞更直接，不容易“走偏”。
LayerNorm（層歸一化）：是在網絡內部做“數據標準化”，讓輸入向量的數值分布更“均勻”、更“可控”。

這些改動帶來的好處：

更強的語言跟隨能力：機器人聽指令不會“走神”，更準確地執行你說的每一句話。
更好的泛化：即使碰到新場景、新物體、新說法，也能跨過去，不容易“卡殼”。

1.2 改進了 VLM 的定位能力

他們將 GR00T N1.5 中的視覺–語言模型升級到 Eagle 2.5，并針對更好的**“定位”能力和物理理解進行了微調。在 RefCOCOg 基準和他們內部的 GEAR GR-1 定位數據集（含指代表達）上，發現 N1.5 的 VLM 表現優于同級別的開源模型 Qwen2.5-VL-3B。

左圖：測試數據集的示例標注**。右圖：模型輸出示例。
在這里插入圖片描述

1.3 將策略學習與世界模型聯合

除了 N1 使用的流匹配損失（flow matching loss）之外，N1.5 還引入了“未來潛在表示對齊”（Future LAtent Representation Alignment，簡稱 FLARE，詳見 FLARE 項目）。與其去“生成”未來幀圖像，不如直接讓模型對齊到未來目標的向量表示。他們發現，加入 FLARE 不僅能提升策略性能，還能解鎖從真人視頻中學習的能力。

流匹配損失（Flow Matching Loss）：用于讓模型學會從當前狀態“流暢地”過渡到未來狀態，好比對動作軌跡做平滑擬合。
策略學習（Policy Learning）：教機器人“下一個動作該怎么做”。
世界建模（World Modeling）：讓模型理解環境如何運轉，比如“如果我推一下盒子，它會往哪兒滾？”

FLARE不生成未來幀，而是讓模型對齊到“未來幀的向量表達”上：
生成未來幀圖像很耗資源，還容易模糊；
對齊向量更高效，也能直接對比“我預測的未來”與“真實未來”的差距。

1.4 訓練

在 1,000 塊 H100 GPU 上以全局批量大小（global batch）16,384，訓練了 250,000 步。如同 N1，使用 AdamW 優化器，配合余弦學習率調度（含 5% 預熱）。在預訓練與后訓練階段，FLARE 的損失系數均設置為 0.2。

預訓練數據混合集 包括：內部 GR-1 真實數據、OpenXE 數據集、模擬 GR-1（又名 DexMG）、DreamGen 生成的神經軌跡，以及 AgiBot-Beta。
在這里插入圖片描述

2. 實驗結果

2.1 架構驗證

為了為 N1.5 調優模型架構，他們從頭開始在兩個需要“聽指令做任務”的仿真機器人基準上訓練策略：一個叫 “Language Table”，另一個是一組包含五個需語言指令的模擬 GR-1 任務（“Sim GR-1 Language”）。我們發現 N1.5 的新架構在這兩個基準上的成功率都明顯更高，說明其“基于語言的控制”能力更強。
在這里插入圖片描述

2.2 在模擬環境中有限數據的后訓練

遵循 GR00T N1 的評估流程，在數據受限的后訓練場景下評估 N1.5 的表現。對于 Sim GR-1，這里既能做少樣本（few-shot）評估，也能做零樣本（0-shot）評估，因為預訓練時已包含了同一具身的其他 Sim GR-1 任務。可以發現，在數據極度稀缺的情況下（零樣本和僅 30 個示例演示），N1.5 的表現明顯優于 N1。
在這里插入圖片描述

2.3 真實環境 GR-1 語言跟隨

在真實 GR-1 評估中加入了一個簡單的語言跟隨任務：桌子上有兩個水果，機器人需要把其中一個放到盤子里。目標水果的初始位置以 50% 的概率更靠近左手或右手。
在這里插入圖片描述
相較于 N1，N1.5 在真實 GR-1 機器人上執行語言指令的能力有了顯著提升。盡管兩者策略都會把某個水果放到盤子里，N1.5 在“聽懂并執行正確指令”這一點上表現更好，從而獲得了更高的整體成功率。

2.4 從人類第一視角視頻中學習操控新物體

為了評估模型的泛化能力，使用一組 10 件在預訓練中未見過的新物體來測試抓取和放置性能。
在這里插入圖片描述
如同 FLARE 項目所示，“未來潛在表示對齊”使得模型能夠直接從人類的第一視角視頻中學習。這就能讓機器人僅憑人類視頻和極少量的機器演示，就學會操作新物體。使用 N1.5，他們發現這種學習方式在零樣本條件下也能奏效。

但是這樣似乎只能學到靈巧手的操作吧

在這里插入圖片描述

2.5 使用“神經軌跡”實現對新行為的泛化

為了超越遙操作數據，使人形機器人能夠在新環境中學習新任務，使用 DreamGen 生成合成機器人數據進行訓練。
在這里插入圖片描述
通過 DreamGen 流程，展示了 GR00T N1.5 在 12 個新動詞上取得了不俗的結果（任務詳情見 DreamGen 博客）。這些新動詞被加入到預訓練數據中。而 GR00T N1 對新動詞的泛化能力很弱，僅能重復預訓練中見過的任務（比如抓取和放置）。

他們發現，GR00T N1.5 在這 12 個 DreamGen 任務上的成功率達到了 38.3%，而 GR00T N1 僅為 13.1%。盡管這些新動詞在嚴格意義上是“零樣本”（從未為這些任務收集遙操作數據），但仍通過 DreamGen 軌跡對它們進行了顯式訓練；將完全的零樣本動詞和環境泛化留給未來工作。

2.6 在 Unitree G1 機器人上的后訓練

在 Unitree G1 機器人上使用 1,000 條遙操作示范對 GR00T N1 和 N1.5 進行了后訓練。與 GR-1 語言跟隨實驗相同，場景中初始化放置一個目標物體和一個干擾物體，目標物體有 50% 概率更靠近左手或右手。

可以觀察到，后訓練后的 GR00T N1.5 對預訓練中見過的玩具水果（在 GR-1 預訓練語料中出現過）取得了遠高于 N1 的成功率，并且還能泛化到多種此前未見過的物體。
在這里插入圖片描述
總體來看， GR00T-N1.5 相較于 GR00T-N1 有了顯著提升。

它取得了更高的成功率；能夠利用更豐富多樣的數據來源；并且在語言指令跟隨能力上有顯著改善。他們將這些改進歸功于更強的“定位”能力、FLARE 損失的引入，以及來自 DreamGen 的多樣化數據。該模型已經開源，希望各位實踐者在對自己的機器人進行微調時，能看到更好的效果。

3. N1.5 github repo

N 1.5 github

3.1 使用 GR00T N1.5 的大致流程：

用戶先收集機器人演示數據，形式為（三元組）：(視頻, 狀態, 動作)。
將演示數據轉換為 LeRobot 兼容的數據格式（詳見 getting_started/LeRobot_compatible_data_schema.md），該格式與 Huggingface 上游的 LeRobot 工具鏈兼容。
我們的代碼倉庫提供了不同形體配置的訓練示例。
倉庫還附帶了微調腳本，幫助用戶在自有數據上快速微調預訓練好的 GR00T N1.5，以及推理腳本用于實時運行。
最后，用戶將 Gr00tPolicy 連接到機器人控制器，即可在目標硬件上執行生成的動作。

LeRobot 兼容格式：一種統一的數據規范，讓各種輸入（三元組）能無縫接入 Huggingface 的 LeRobot 訓練工具。

3.2 GR00T N1.5 新變化總覽

3.2.1 模型與數據

凍結 VLM
視覺–語言模型在預訓練和微調階段始終“凍結”參數，保持其強大的語言理解能力，同時提升泛化效果。
增強的 VLM 定位能力
升級到 Eagle 2.5，物理感知和目標“定位”更精準——在 GR-1 定位任務上達到 40.4 IoU（而 Qwen2.5-VL 為 35.5）。
簡化的 Adapter
視覺編碼器到大語言模型（LLM）之間的多層感知機（MLP）被瘦身，并且在視覺與文本 token 輸入處均加入了層歸一化（LayerNorm），讓信息傳遞更穩定、更對齊。
FLARE 引入
在原有的流匹配（flow matching）損失之外，又加了“未來潛在表示對齊”（FLARE）目標，使模型能直接從人類第一視角視頻中高效學習新動作。
DreamGen 集成
利用 DreamGen 合成的“神經軌跡”數據，讓機器人學會一堆預訓練里沒見過的新行為，大幅擴展了任務多樣性。

3.2.2 性能提升

語言跟隨：GR00T N1.5 在 GR-1 操作任務上的語言指令執行率達到 93.3%，而 N1 只有 46.6%。
數據效率：在極少示例（0-shot 和 few-shot）條件下，N1.5 表現更穩。
新物體泛化：拿到從未見過的物品也能“零樣本”抓放。
新形體支持：
1. 單臂機械臂（EmbodimentTag.OXE_DROID）可用末端執行器（EEF）控制；
2. 帶抓手的人形機器人（EmbodimentTag.AGIBOT_GENIE1）也能直接接入—超越了單純的關節空間控制，適配更廣硬件。