GR00T N1.5 技術報告 -- Nvidia -- 2025.6.11 -- 開源

0. 前言

GR00T N1 的詳細介紹

Isaac-GR00T 在6.11 進行了全面升級,從 N1 進化為 N1.5,但基本還是基于之前的架構,官方發布了一個技術報告,并更新了github庫,之前的N1也做了獨立版本 N1

N 1.5 github
技術報告
model

GR00T N1.5 其實是一種改進的通用人形機器人開源基礎模型。這個跨形體模型可以接收多模態輸入(比如語言和圖像),用來在不同環境中完成操作任務。

這是面向人形機器人的 GR00T N1 基礎模型的升級版。通過在架構、數據和建模方面的多項改進,Nvidia 發現 N1.5 在模擬操控基準測試和真實 GR-1 機器人上的表現都超過了 N1。Nvidia 預計使用 N1.5 的用戶將看到比 N1 更好的表現,尤其在泛化能力語言指令理解方面有顯著提升。

1. 模型和數據更新

1.1 結構

和 N1 一樣,GR00T N1.5 使用了 NVIDIA 的 Eagle VLM 來編碼文本和視覺觀察信息。

由 VLM 輸出的“視覺-語言嵌入向量”會被另一個模塊 DiT(Denoising Transformer)用“跨注意力機制”處理,它同時還處理機器人當前的狀態和帶噪聲的動作
在這里插入圖片描述
和N1的主要不同:

  1. VLM 模型在預訓練和微調階段都保持凍結
  2. 簡化了從視覺編碼器到大語言模型(LLM)的 adapter MLP,并在輸入 LLM 的視覺和文本 token embeddings 上都加了層歸一化

adapter MLP:可以理解成“翻譯官”,它把視覺編碼器輸出的向量變成 LLM 能懂的格式。原來可能有好幾層線性變換+激活函數,現在縮減層數,讓信息傳遞更直接,不容易“走偏”。
LayerNorm(層歸一化):是在網絡內部做“數據標準化”,讓輸入向量的數值分布更“均勻”、更“可控”。

這些改動帶來的好處:

  1. 更強的語言跟隨能力:機器人聽指令不會“走神”,更準確地執行你說的每一句話。
  2. 更好的泛化:即使碰到新場景、新物體、新說法,也能跨過去,不容易“卡殼”。

1.2 改進了 VLM 的定位能力

他們將 GR00T N1.5 中的視覺–語言模型升級Eagle 2.5,并針對更好的**“定位”能力和物理理解進行了微調。在 RefCOCOg 基準和他們內部的 GEAR GR-1 定位數據集(含指代表達)上,發現 N1.5 的 VLM 表現優于同級別的開源模型 Qwen2.5-VL-3B。
在這里插入圖片描述
左圖:測試數據集的
示例標注**。右圖:模型輸出示例
在這里插入圖片描述

1.3 將策略學習與世界模型聯合

除了 N1 使用的流匹配損失(flow matching loss)之外,N1.5 還引入了“未來潛在表示對齊”(Future LAtent Representation Alignment,簡稱 FLARE,詳見 FLARE 項目)。與其去“生成”未來幀圖像,不如直接讓模型對齊到未來目標的向量表示。他們發現,加入 FLARE 不僅能提升策略性能,還能解鎖從真人視頻中學習的能力。

流匹配損失(Flow Matching Loss):用于讓模型學會從當前狀態“流暢地”過渡到未來狀態,好比對動作軌跡做平滑擬合。
策略學習(Policy Learning):教機器人“下一個動作該怎么做”。
世界建模(World Modeling):讓模型理解環境如何運轉,比如“如果我推一下盒子,它會往哪兒滾?”

FLARE不生成未來幀,而是讓模型對齊到“未來幀的向量表達”上:
生成未來幀圖像很耗資源,還容易模糊;
對齊向量更高效,也能直接對比“我預測的未來”與“真實未來”的差距。

1.4 訓練

在 1,000 塊 H100 GPU 上以全局批量大小(global batch)16,384,訓練了 250,000 步。如同 N1,使用 AdamW 優化器,配合余弦學習率調度(含 5% 預熱)。在預訓練與后訓練階段,FLARE 的損失系數均設置為 0.2。

預訓練數據混合集 包括:內部 GR-1 真實數據、OpenXE 數據集、模擬 GR-1(又名 DexMG)、DreamGen 生成的神經軌跡,以及 AgiBot-Beta。
在這里插入圖片描述

2. 實驗結果

2.1 架構驗證

為了為 N1.5 調優模型架構,他們從頭開始在兩個需要“聽指令做任務”的仿真機器人基準上訓練策略:一個叫 “Language Table”,另一個是一組包含五個需語言指令的模擬 GR-1 任務(“Sim GR-1 Language”)。我們發現 N1.5 的新架構在這兩個基準上的成功率都明顯更高,說明其“基于語言的控制”能力更強。
在這里插入圖片描述

2.2 在模擬環境中有限數據的后訓練

遵循 GR00T N1 的評估流程,在數據受限的后訓練場景下評估 N1.5 的表現。對于 Sim GR-1,這里既能做少樣本(few-shot)評估,也能做零樣本(0-shot)評估,因為預訓練時已包含了同一具身的其他 Sim GR-1 任務。可以發現,在數據極度稀缺的情況下(零樣本和僅 30 個示例演示),N1.5 的表現明顯優于 N1。
在這里插入圖片描述

2.3 真實環境 GR-1 語言跟隨

在真實 GR-1 評估中加入了一個簡單的語言跟隨任務:桌子上有兩個水果,機器人需要把其中一個放到盤子里。目標水果的初始位置以 50% 的概率更靠近左手或右手。
在這里插入圖片描述
相較于 N1,N1.5 在真實 GR-1 機器人上執行語言指令的能力有了顯著提升。盡管兩者策略都會把某個水果放到盤子里,N1.5 在“聽懂并執行正確指令”這一點上表現更好,從而獲得了更高的整體成功率。
在這里插入圖片描述

2.4 從人類第一視角視頻中學習操控新物體

為了評估模型的泛化能力,使用一組 10 件在預訓練中未見過的新物體來測試抓取和放置性能。
在這里插入圖片描述
如同 FLARE 項目所示,“未來潛在表示對齊”使得模型能夠直接從人類的第一視角視頻中學習。這就能讓機器人僅憑人類視頻和極少量的機器演示,就學會操作新物體。使用 N1.5,他們發現這種學習方式在零樣本條件下也能奏效。

但是這樣似乎只能學到靈巧手的操作吧

在這里插入圖片描述
在這里插入圖片描述

2.5 使用“神經軌跡”實現對新行為的泛化

為了超越遙操作數據,使人形機器人能夠在新環境中學習新任務,使用 DreamGen 生成合成機器人數據進行訓練。
在這里插入圖片描述
通過 DreamGen 流程,展示了 GR00T N1.5 在 12 個新動詞 上取得了不俗的結果(任務詳情見 DreamGen 博客)。這些新動詞被加入到預訓練數據中。而 GR00T N1 對新動詞的泛化能力很弱,僅能重復預訓練中見過的任務(比如抓取和放置)。

他們發現,GR00T N1.5 在這 12 個 DreamGen 任務上的成功率達到了 38.3%,而 GR00T N1 僅為 13.1%。盡管這些新動詞在嚴格意義上是“零樣本”(從未為這些任務收集遙操作數據),但仍通過 DreamGen 軌跡對它們進行了顯式訓練;將完全的零樣本動詞和環境泛化留給未來工作

2.6 在 Unitree G1 機器人上的后訓練

在 Unitree G1 機器人上使用 1,000 條遙操作示范對 GR00T N1 和 N1.5 進行了后訓練。與 GR-1 語言跟隨實驗相同,場景中初始化放置一個目標物體和一個干擾物體,目標物體有 50% 概率更靠近左手或右手。

可以觀察到,后訓練后的 GR00T N1.5 對預訓練中見過的玩具水果(在 GR-1 預訓練語料中出現過)取得了遠高于 N1 的成功率,并且還能泛化到多種此前未見過的物體
在這里插入圖片描述
總體來看, GR00T-N1.5 相較于 GR00T-N1 有了顯著提升。

它取得了更高的成功率;能夠利用更豐富多樣的數據來源;并且在語言指令跟隨能力上有顯著改善。他們將這些改進歸功于更強的“定位”能力、FLARE 損失的引入,以及來自 DreamGen 的多樣化數據。該模型已經開源,希望各位實踐者在對自己的機器人進行微調時,能看到更好的效果。

3. N1.5 github repo

N 1.5 github

3.1 使用 GR00T N1.5 的大致流程:

  1. 用戶先收集機器人演示數據,形式為(三元組):(視頻, 狀態, 動作)。
  2. 將演示數據轉換為 LeRobot 兼容的數據格式(詳見 getting_started/LeRobot_compatible_data_schema.md),該格式與 Huggingface 上游的 LeRobot 工具鏈兼容。
  3. 我們的代碼倉庫提供了不同形體配置的訓練示例。
  4. 倉庫還附帶了微調腳本,幫助用戶在自有數據上快速微調預訓練好的 GR00T N1.5,以及推理腳本用于實時運行。
  5. 最后,用戶將 Gr00tPolicy 連接到機器人控制器,即可在目標硬件上執行生成的動作。

LeRobot 兼容格式: 一種統一的數據規范,讓各種輸入(三元組)能無縫接入 Huggingface 的 LeRobot 訓練工具。

3.2 GR00T N1.5 新變化總覽

3.2.1 模型與數據

  • 凍結 VLM
    視覺–語言模型在預訓練和微調階段始終“凍結”參數,保持其強大的語言理解能力,同時提升泛化效果。
  • 增強的 VLM 定位能力
    升級到 Eagle 2.5,物理感知和目標“定位”更精準——在 GR-1 定位任務上達到 40.4 IoU(而 Qwen2.5-VL 為 35.5)。
  • 簡化的 Adapter
    視覺編碼器到大語言模型(LLM)之間的多層感知機(MLP)被瘦身,并且在視覺與文本 token 輸入處均加入了層歸一化(LayerNorm),讓信息傳遞更穩定、更對齊。
  • FLARE 引入
    在原有的流匹配(flow matching)損失之外,又加了“未來潛在表示對齊”(FLARE)目標,使模型能直接從人類第一視角視頻中高效學習新動作。
  • DreamGen 集成
    利用 DreamGen 合成的“神經軌跡”數據,讓機器人學會一堆預訓練里沒見過的新行為,大幅擴展了任務多樣性。

3.2.2 性能提升

  • 語言跟隨:GR00T N1.5 在 GR-1 操作任務上的語言指令執行率達到 93.3%,而 N1 只有 46.6%。
  • 數據效率:在極少示例(0-shot 和 few-shot)條件下,N1.5 表現更穩。
  • 新物體泛化:拿到從未見過的物品也能“零樣本”抓放。
  • 新形體支持:
    1. 單臂機械臂(EmbodimentTag.OXE_DROID)可用末端執行器(EEF)控制;
    2. 帶抓手的人形機器人(EmbodimentTag.AGIBOT_GENIE1)也能直接接入—超越了單純的關節空間控制,適配更廣硬件。

3.2.3 適用場景

目標用戶:人形機器人研究員與工程師。

功能亮點:

  • 利用預訓練基礎模型快速上手機器人控制;
  • 在小規模自定義數據上高效微調;
  • 針對特定任務和硬件做最少量的后訓練;
  • 一鍵部署推理,直接對接機器人控制器

3.2.4 環境與依賴

系統測試:Ubuntu 20.04/22.04 + GPU(H100、L40、RTX 4090、A6000) + Python 3.10 + CUDA 12.4。

推理測試:Ubuntu 20.04/22.04 + GPU(RTX 3090、4090、A6000)。

必裝依賴:CUDA 12.4、TensorRT、ffmpeg、libsm6、libxext6。

其他的詳細使用教程與步驟可以看官方的repo。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/86569.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/86569.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/86569.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SRS WebRTC 入門

什么是 SRS WebRTC? SRS (Simple Realtime Server) 是一個支持 WebRTC 流媒體的開源媒體服務器。它允許你建立基于 WebRTC 的低延遲直播和實時通信應用。 快速開始 1. 安裝 SRS bash # 使用 Docker 快速安裝 docker run --rm -it -p 1935:1935 -p 1985:1985 -p 8080:8080…

從手機隨拍到標準掃描件:AI如何智能校正證件照片(Python+OpenCV)

目錄 一、概述二、解決方案2.1 核心挑戰:AI眼中的“三座大山”2.2 設計思路:給AI一個“智能提示”2.3 實現流程:四步搞定 三、代碼實現3.1 依賴庫3.2 代碼 四、結語 一、概述 在當今的線上業務中,要求用戶上傳身份證、駕駛證等證…

基于OpenCV圖像分割與PyTorch的增強圖像分類方案

在圖像分類任務中,背景噪聲和復雜場景常常會對分類準確率產生負面影響。為了應對這一挑戰,本文介紹了一種結合OpenCV圖像分割與PyTorch深度學習框架的增強圖像分類方案。通過先對圖像進行分割提取感興趣區域(Region of Interest,R…

華為云對象存儲OBS 支持安卓/iOS/鴻蒙UTS組件

華為云對象存儲OBS 支持安卓/iOS/鴻蒙UTS組件 介紹使用前須知vue代碼調用示例權限說明API調用說明初始化配置(openClient)創建桶(createBucket)列舉桶(listBuckets)刪除桶(deleteBucket&#xf…

Buildroot 2025.05 中文手冊【AI高質量翻譯】

譯文在 Github 倉庫 和 Gitee 倉庫 保持最新,其它平臺發的文檔可能不會與之同步。 希望能夠共同維護這個 倉庫的 Buildroot 手冊 中文譯文,幫助更多人真正深入學習理解,更好的工作、生活和創造。 關于 AI 提示詞 以及 更多工具 的收集&#…

采用ArcGIS10.8.2 進行插值圖繪制

一、最終成果圖展示 二、軟件下載 鏈接: 百度網盤 請輸入提取碼 密碼:azay 三、軟件安裝 1、在安裝之前需要關閉電腦的防火墻及殺毒軟件 設置-隱私和安全性-Windows安全中心-防火墻和網絡保護 2、軟件解壓 (1)【ArcGIS_Desktop_1082_180......】“以管理員身份運行”…

Python網安-zip文件暴力破解(僅供學習)

目錄 源碼在這里 需要的模塊 準備一個密碼本和需要破解的ZIP文件 一行一行地從密碼文件中讀取每個密碼。 核心部分 注意,需要修改上段代碼注釋里的這段具有編碼問題的代碼: 源碼在這里 https://github.com/Wist-fully/Attack/tree/cracker 需要的…

如何讓ChatGPT模仿人類寫作,降低AIGC率?

在AI技術日益普及的當下,ChatGPT 等大語言模型已成為許多學術與寫作任務中的得力助手。然而,學境思源,隨著各類“AI檢測系統”的出現,一鍵生成論文初稿!我們也遇到一個新的問題:如何讓AI寫作看起來不像AI寫…

科大訊飛2025AI開發者大賽-用戶新增賽道時間規則解析

根據訓練集中的時間規則,對測試集中的數據推斷用戶標簽(新用戶或老用戶)。 時間規則如下: 針對訓練集和測試集中都存在的did: 找到在訓練集中標記為新用戶最晚的時間點,則測試集中對應did的數據在此時間點前全部為新用…

.NET C# async/定時任務的異步線程池調度方案最大線程數? = 處理器核心數 × 250

關于.NET中Threading.Timer的線程機制,結合線程池特性和異步協作原理分析如下: 一、線程復用機制 ?共享進程級線程池? Threading.Timer的回調任務?不會每次新建線程?,而是提交到.NET進程全局線程池統一調度,該線程池與async/…

Redis 高可用分片集群:主從模式與哨兵機制詳解

一、為何需要分片集群? 在討論具體方案之前,我們先明確分片集群要解決的問題: 單節點瓶頸:無論是內存容量還是處理能力(QPS),單個 Redis 實例都有物理上限。高可用性需求:單點故障…

Qt readyRead信號避坑:不產生readyRead信號的解決方法

Qt readyRead信號避坑:不產生readyRead信號的解決方法 引言一、QSerialport的readyRead1.1 版本問題1.2 緩存問題1.3 阻塞問題 二、Q(Tcp)Socket的readyRead2.1 阻塞問題2.2 運行一段時間,突然不發信號2.3 和具體數據有關? 引言 目前沒遇到相…

大事件項目記錄10-文章分類接口開發-更新文章分類

四、更新文章分類。 CategoryController.java: PutMappingpublic Result update(RequestBody Validated Category category){categoryService.update(category);return Result.success();} CategoryService: //更新分類void update(Category category); …

AI接口使用–阿里云百煉

原文地址:AI接口使用–阿里云百煉 – 無敵牛 歡迎參觀我的個人博客:無敵牛 – 技術/著作/典籍/分享等 最近開發了一個抖音AI起名小程序,已經在抖音上線了,歡迎大家來使用。其中用到了 AI文本生成 功能,我用的是 阿里云…

大模型之提示詞工程入門——解鎖與AI高效溝通的“鑰匙”

一、什么是提示詞工程? 提示詞工程(Prompt Engineering) 是一門通過設計、優化輸入文本(Prompt)來引導大語言模型(LLM)生成高質量輸出的技術。它不僅是AI應用的核心環節,也是連接人…

智慧城市云計算大數據中心項目設計方案

第1章 總體方案設計 1.1 概述 1.2 建設目標 1.3 建設內容 1.3.1 標準規范體系編制 1.3.2 基礎設施平臺建設 1.3.3 數據資源平臺建設 1.3.4 應用支撐平臺建設 1.3.5 云管平臺運維建設 1.3.6 應用上云遷移實施 1.3.7 信息安全保障建設 1.3.8 容災備份系統建設 1.4 設…

OpenMP并行加速學習筆記2025.6.27

在OpenMP并行加速中,線程數(如32、16、8)的選擇需結合硬件核心數、任務類型(計算密集型或I/O密集型)、負載均衡策略及線程開銷綜合判斷。以下為具體差異分析與性能提升對比: 一、核心影響因素分析 1. 硬件…

對象回調和函數回調

1.對象回調: 對象回調原始寫法,A調B B又回頭調A package com.ldj.demo.controller;/*** User: ldj* Date: 2025/6/28* Time: 12:22* Description: 回調函數的理解 對象回調*/ public class Tr {public static void main(String[] args) {A a new A();…

Python實例題:Web 爬蟲與數據可視化

目錄 Python實例題 題目 要求: 解題思路: 代碼實現: Python實例題 題目 Web 爬蟲與數據可視化 要求: 編寫一個爬蟲,從豆瓣電影 Top250 頁面(豆瓣電影 Top 250)抓取電影名稱、評分、導演…

關于ubuntu 20.04系統安裝分區和重復登錄無法加載桌面的問題解決

1. 想要安裝Ubuntu 20.04版本,有兩塊硬盤,所以在分區列表設置的格式為如下: 其中各個/boot 、/home的格式為如下(Ubuntu20.04分區方案_ubuntu20.04手動分區-CSDN博客) 2.安裝完死活輸完密碼進不去主界面 必須禁用Nou…