NORA:一個用于具身任務的小型開源通才視覺-語言-動作模型

25年4月來自新加坡技術和設計大學的論文“NORA: a Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks”。

現有的視覺-語言-動作 (VLA) 模型在零樣本場景中展現出優異的性能,展現出令人印象深刻的任務執行和推理能力。然而,視覺編碼的局限性也帶來巨大的挑戰,這可能導致諸如物體抓取等任務的執行失敗。此外,這些模型通常由于規模龐大(通常超過 70 億個參數)而導致計算開銷高昂。雖然這些模型在推理和任務規劃方面表現出色,但它們產生的大量計算開銷使其不適用于實時機器人環境,因為在實時機器人環境中速度和效率至關重要。鑒于針對特定任務對 VLA 模型進行微調的常見做法,顯然需要一個更小、更高效的模型,該模型可以在消費級 GPU 上進行微調。為了解決現有 VLA 模型的局限性, NORA,一個 30 億個參數的模型,旨在降低計算開銷的同時保持強大的任務性能。 NORA 采用 Qwen-2.5-VL-3B 多模態模型作為主干模型,利用其卓越的視覺語義理解能力來增強視覺推理和動作推理能力。此外,NORA 基于 97 萬個真實機器人演示進行訓練,并配備 FAST+ token 化器,可高效生成動作序列。實驗結果表明,NORA 的表現優于現有的大規模 VLA 模型,在顯著降低計算開銷的同時實現了更優的任務性能,使其成為實時機器人自主控制的更實用的解決方案。

VLM

視覺語言模型 (VLM) 已成為強大的圖像理解和推理框架,展現出基于視覺輸入生成文本以及識別圖像中物體的能力。這使其成為 VLA 的絕佳主干模型。基于預訓練 VLM 進行微調的 VLA 顯著受益于這些模型所經歷的互聯網規模的圖像和文本預訓練。這種預訓練賦予 VLA 對視覺語義的豐富理解,使 VLA 能夠將語言扎根于視覺世界中,并將這種理解轉化為有意義的機器人動作。這種扎根有助于泛化到分布外的指令和環境中。例如,VLA 可以從先前的視覺語言經驗中進行泛化,從而在之前未見過的場景中解釋和執行“拿起玩具”之類的指令,即使在訓練過程中沒有遇到過完全相同的短語或上下文。

最近的視覺-語言模型 (VLM) 包含一個圖像編碼器 (Oquab,2023)、一個大語言模型 (LLM) 主干 (Touvron,2023) 和一個將視覺表征映射到共享嵌入空間的投影網絡。這種架構使 LLM 能夠有效地推理文本和圖像模態。VLM 的預訓練通常利用各種多模態數據集,包括交錯的圖像-文本對、視覺知識源、目標基礎、空間推理和多模態問答數據集。

本文工作基于 Qwen2.5-VL 模型 (Bai,2025),這是一個最先進的開源 VLM。Qwen2.5-VL 的一個顯著特點是它在訓練期間使用原始圖像分辨率,旨在增強模型對真實世界尺度和空間關系的感知。這種方法能夠更準確地理解物體的大小和位置,從而提升物體檢測和定位等任務的性能。可以利用 Qwen 2.5-VL 的落地和空間能力來構建 VLA,這將有利于機器人控制。

VLA

盡管 VLM 具有諸多優勢,但它們的內在設計并非旨在直接生成適用于機器人技術中特定體現配置的策略。這一局限性促使視覺-語言-動作 (VLA) 模型的出現,該模型通過利用多模態輸入(結合視覺觀察和語言指令)來彌補這一差距,從而在多樣化的多任務場景中生成自適應且廣義的機器人動作。根據動作建模方法,VLA 模型大致可分為兩類:連續動作模型(Octo Model Team,2024),通常采用擴散過程在連續動作空間中生成平滑軌跡;以及離散 token 模型(Brohan,2023b;c;Kim,2024;Sun,2024),其中機器人動作表示為離散 token 序列。在基于離散 token 的 VLA 模仿學習公式中,機器人在給定時間 t 的狀態由多模態觀察表征,包括視覺圖像 I_t、文本指令 L_t 和先前狀態上下文 S_t。目標是預測一系列離散標記 A_t,表示機器人可執行的動作。正式地說,該模仿學習策略模型 π_θ(A_t |I_t,L_t,S_t) 經過訓練,可以復制專家提供的動作序列,使機器人能夠將學習的行為泛化到由視覺語言提示引導的新場景中。

動作 token 化

在機器人系統中,動作通常表示為跨多個自由度 (DoF) 的連續控制信號,例如 (x, y, z) 方向的平移以及滾轉、俯仰和偏航方向的旋轉。為了兼容基于 Transformer 的語言主干,通常使用分箱方法將這些連續動作離散化 (Brohan et al., 2023c; b)。此過程使用基于分位數的策略將機器人動作的每個維度映射到 256 個離散箱中的一個,從而確保對異常值的魯棒性,同時保持足夠的粒度。OpenVLA (Kim et al., 2024) 通過覆蓋 LLaMA token 化器中 256 個最少使用的 tokens,將這些動作 tokens 合并到語言模型的詞匯表中,從而實現對動作序列的下一個 token 預測。為了進一步提高預訓練效率,采用了一種快速 token 化方法 (Pertsch et al., 2025),該方法在每個時間步對動作維度應用離散余弦變換 (DCT)。這種方法可以去除聯合動作分量的相關性,并支持使用字節對編碼 (BPE) 將它們壓縮為更短、更高效的 token 序列。由此產生的表征減少詞匯量并加快收斂速度,同時使動作數據的結構與語言模型友好的 token 統計數據保持一致。在推理過程中,NORA 占用約 8.3GB 的 GPU 內存。


為機器人自主的神經編排器 (NORA),這是一個基于 Open X-Embodiment 數據集 (Collaboration et al., 2023) 訓練的 3B 參數視覺-語言-動作 (VLA) 模型。NORA 建立在現有的視覺-語言模型 (VLM) 之上,充分利用其強大的通用世界知識、多模態推理、表征學習和指令遵循能力。特別地,采用開源多模態模型 Qwen-2.5-VL-3B (Bai et al., 2025) 作為 NORA 的 VLM 主干,因為它在同等規模下實現性能與效率之間的完美平衡。另一方面,利用 FAST+ token 化器(Pertsch,2025)來離散化連續動作 tokens,因為它在包括單臂、雙手和移動機器人任務在內的各種動作序列中已被證明有效,使其成為訓練自回歸 VLA 模型的強大現成選擇。

架構

模型 NORA,如圖所示,利用預訓練的視覺語言模型 (VLM)(記為 M)自回歸地預測一個動作塊,該動作塊編碼了從時間 t 到 t + N 的未來動作,記為 a_t:t+N = [a_t,…,a_t+N]。M 的輸入包括自然語言任務指令 c 和時間 t 的 n 幀視覺觀察 o_t = [I_t1,…,I_tn],它們連接起來形成整體輸入 X_t = [o_t, c]。動作塊 a_t:t+N 由一系列離散tokens R = [r_t,…,r_t+N] 表示,并在訓練時使用 FAST+ 機器人 token 化器進行編碼。 VLM M 通過自回歸生成以 X_t 為條件的 token 序列 R 來預測此動作塊。

請添加圖片描述

選擇最先進的開源 VLM Qwen-2.5-VL (Bai et al., 2025) 作為主干模型,因為它的參數規模較小,只有 3B。此外,通過 FAST+ token 化器引入的 2048 個 tokens,擴充 VLM token 化器的詞匯量。將觀察結果限制在單個視覺幀內。動作塊大小設為 1。隨后,用標準語言建模目標函數(即下一個 token 預測損失函數)訓練 NORA。

預訓練

預訓練階段的目標是在自然語言指令的驅動下,賦予 NORA 廣泛的機器人能力,并在各種任務、設置、模態和具體化方面實現強大的泛化能力。為此,在 Open X-Embodiment (Collaboration et al., 2023) (OXE) 數據集上訓練 NORA,該數據集包含執行各種任務的不同機器人的軌跡,包括 BridgeV2 (Walke et al., 2023)、DROID (Khazatsky et al., 2024) 等子集。與 OpenVLA (Kim et al., 2024) 類似,將所有幀的大小調整為 224 x 224 像素以進行訓練。

在 8xH100 GPU 的單節點上對 NORA 進行了大約三周的訓練,總計約 4000 個 H100 GPU 小時。用 256 的批次大小,并使用 AdamW (Loshchilov & Hutter, 2017) 優化器執行了 110 萬次梯度更新。在前 5 萬步中,進行線性預熱,使峰值學習率達到 5 × 10?5,然后以余弦衰減至零。為了提高訓練效率并減少內存占用,用 FlashAttention 并以 bf16 精度進行訓練。在下圖 a 和 b 中報告訓練損失和梯度范數曲線。訓練過程中的損失曲線總體穩定,呈下降趨勢,沒有出現明顯的峰值。雖然梯度范數曲線在整個訓練過程中偶爾出現峰值,但這似乎并未擾亂損失的整體平穩增長。

請添加圖片描述

NORA-LONG

一些研究表明,動作分塊(即預測較長的動作范圍而無需頻繁重規劃)可帶來卓越的性能。(Zhao et al., 2023; Chi et al., 2024)。受這些發現的啟發,訓練 NORA 的一個變體,稱為 NORA-LONG,其動作塊大小為 5。NORA-LONG 與 NORA 的架構完全相同,但預測給定狀態下的動作范圍為 5 個動作。在與 NORA 相同的預訓練數據集上對 NORA-LONG 進行 90 萬步的預訓練。


為了評估 NORA 在不同環境和機器人實現中的魯棒性,用 (i) Walke (2023) 開發的真實 WidowX 機器人平臺和 (ii) LIBERO (Liu,2023) 模擬基準,該基準包含 30 個程序生成的解纏結任務,這些任務需要深入理解不同的空間布局 (LIBERO-Spatial)、物體 (LIBERO-Object) 和任務目標 (LIBERO-Goal),以及 10 個長范圍糾纏任務 (LIBERO-Long);該基準測試還附帶一個訓練數據集。在這兩種情況下,策略模型都以第三人稱攝像機畫面和自然語言指令為輸入,預測末端執行器的速度動作,從而在 500 次試驗中控制機器人。在相應的數據集上對 NORA 進行了 150 次微調,批次大小為 128,學習率為 5 × 10?5。

為了確定策略模型的泛化能力,開發一套具有挑戰性的評估任務,涉及域外 (OOD) 目標、空間關系和多個拾取和放置任務,如圖所示。所有策略均在相同的真實世界設置下進行評估,確保攝像機角度、光照條件和背景一致。每項任務進行 10 次試驗,遵循 Kim (2024) 的方法。

請添加圖片描述

如果機器人成功完成提示指定的任務,則計為成功 (succ),得分為 1;否則,得分為 0:


為了與 NORA 進行比較評估,將其性能與以下基準方法進行比較。

OpenVLA (Kim,2024):VLA 模型基于 Llama 2 語言模型 (Touvron,2023) 構建,并結合視覺編碼器,該編碼器集成來自 DINOv2 (Oquab,2023) 和 SigLIP (Zhai,2023) 的預訓練特征。該模型在 Open-X-Embodiment 數據集 (Collaboration,2023) 上進行預訓練,該數據集包含 97 萬個真實世界機器人演示。

SpatialVLA (Qu,2025):VLA 模型專注于機器人操控的空間理解,并融合空間運動等 3D 信息。它學習一種適用于各種機器人和任務的空間操控通用策略。 SpatialVLA 一次可預測四個動作。

TraceVLA(Zheng,2024):一個通過視覺軌跡提示增強時空推理的 VLA 模型。該模型基于機器人操作軌跡對 OpenVLA 進行微調,將狀態-動作歷史編碼為視覺提示,從而提升交互任務中的操作性能。

RT-1(Brohan,2023c):一個可擴展的 Robotics Transformer 模型,旨在從大型任務無關數據集中遷移知識。RT-1 基于多種機器人數據進行訓練,在各種機器人任務中實現高水平的泛化和任務特定性能,展現開放式任務無關高容量模型訓練的價值。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/86987.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/86987.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/86987.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

在Ubuntu中使用Apache2部署項目

1. 安裝Apache2 sudo apt update sudo apt install apache2 -y安裝完成后,Apache會自動啟動,通過瀏覽器訪問 http://服務器IP 應看到默認的Apache歡迎頁。 2. 配置防火墻(UFW) sudo ufw allow Apache # 允許Apache通過防火墻 …

【QT系統相關】QT文件

目錄 1. Qt 文件概述 2. 輸入輸出設備類 3 文件讀寫類 讀取文件內容 寫文件 實現一個簡單的記事本 4. 文件和目錄信息類 QT專欄:QT_uyeonashi的博客-CSDN博客 1. Qt 文件概述 文件操作是應用程序必不可少的部分。Qt 作為一個通用開發庫,提供了跨…

愛普生RX8111CE實時時鐘模塊在汽車防盜系統中的應用

在汽車智能化與電子化的發展浪潮中,汽車防盜系統是現代汽車安全的重要組成部分,其核心功能是通過監測車輛狀態并及時發出警報來防止車輛被盜或被非法操作。愛普生RX8111CE實時時鐘模塊憑借其高精度、低功耗和豐富的功能,能夠為汽車防盜系統提…

SQL注入攻擊原理與防御全解析

目錄 一、引言 二、SQL 注入原理 2.1 SQL 注入的概念 2.2 SQL 注入產生的原因 2.3 SQL 注入的本質 2.4 SQL 注入的關鍵點 三、SQL 注入的實現方法 3.1 常見的 SQL 注入場景 3.2 不同類型的 SQL 注入方式 3.3 SQL 注入的一般流程 四、SQL 注入的危害 4.1 數據泄露 …

寫實交互數字人:賦能消防知識科普,點亮智能交互講解新未來

在數字化浪潮席卷全球的今日,科技創新以前所未有的速度重塑著我們的生活方式與產業格局。消防知識科普,作為守護生命財產安全的關鍵防線,也亟待借力新興技術實現變革與突破。深聲科技以其行業領先的 2D 寫實交互數字人技術,為消防…

用 HTML、CSS 和 JavaScript 實現五子棋人機對戰游戲

引言 在 Web 開發的世界里,通過 HTML、CSS 和 JavaScript 可以創造出各種各樣有趣的互動游戲。今天,我們將深入探討如何實現一個簡單而又富有挑戰性的五子棋人機對戰游戲。這個游戲不僅能讓你重溫經典的五子棋玩法,還能通過 AI 對戰功能給你…

【QT】自動更新庫QSimpleUpdater使用實例封裝

【QT】自動更新庫QSimpleUpdater使用實例封裝 QSimpleUpdater 庫信號介紹appcastDownloaded 信號downloadFinished信號概括 參數介紹 實例編寫 QSimpleUpdater 庫 QSimpleUpdater是一個用于QT的開源自動更新庫,它可以幫助開發者實現應用程序的版本檢查和自動更新功…

Nginx、CDN、 DNS的關系解析

文章目錄 Nginx 與 CDN 的關系1. 角色定位2. 協作方式3. 自建 CDN vs. 第三方 CDN Nginx 與 DNS 的關系1. 角色定位2. 協作方式3. 性能優化 CDN 與 DNS 的關系1. 角色定位2. 協作方式3. 高級 DNS 技術 三者結合的典型架構總結 Nginx、CDN 和 DNS 是現代網絡架構中的三個關鍵組件…

PH熱榜 | 2025-06-13

1. Flowstep 標語:借助人工智能,瞬間設計出美觀的用戶界面。 介紹:Flowstep 是您的 AI 設計助手,將簡單的文字提示轉化為用戶界面設計、線框圖和流程圖。它能加速您的工作流程,讓您輕松迭代,內置建議幫助…

Spectacular AI Gemini2 跑通實時建圖

參考鏈接:Spectacular AI 硬件設備 gemini2 測試了gemini335沒成功 修改record.cpp 倉庫鏈接:sdk 讀取Timu_cam ros2 run tf2_ros tf2_echo imu坐標系(加速度計和陀螺儀都可以,兩者變換為單位陣)camera_rgb_optic…

簡析MDM在餐飲設備中的部署與應用

引言:科技驅動餐飲運營升級 在競爭激烈的餐飲行業,科技已成為提升服務質量和運營效率的關鍵。從自助點餐機、數字菜單牌,到移動收銀系統,智能設備已經深入餐廳的日常運營。然而,隨著設備數量和種類的增加,…

RocketMQ總結

深入理解RocketMQ三高架構設計 高性能 順序寫磁盤 mmap 零拷貝異步刷盤 刷盤策略可配置輕量網絡協議 長連接復用 高可用 主從復制機制、controller、dledger集群NameServer 多副本無狀態客戶端自動切換 Broker消息刷盤機制保障可靠性 高可擴展性 Broker 水平擴展Consu…

vue3+tdesign實現明暗主題切換

很多項目中有些會涉及到明暗主題切換的功能,今天就來梳理一下有關這方面的具體實現步驟和使用到的方法,本篇文章使用到的組件是tdesign,利用部分案例,主要闡述明暗主題切換的技術原理和實現步驟,僅供參考。 目錄 一、…

goland 的 dug 設置

brew install delve # 或通過go install go install github.com/go-delve/delve/cmd/dlvlatestwhere dlvdlv.path/your/path/to/dlv環境變量 DEPLOY_MODEprivate;EGO_DEBUGtrue;EGO_MODEdev;MO_MODEdev;PD_MODEco;PRODUCT_MODEall

CVE-2020-1938源碼分析與漏洞復現(Tomcat 文件包含/讀取)

漏洞概述 漏洞名稱:Tomcat AJP協議文件包含/讀取漏洞(Ghostcat) CVE 編號:CVE-2020-1938 CVSS 評分:9.8 影響版本: Apache Tomcat 6.x (≤ 6.0.53)Apache Tomcat 7.x (≤ 7.0.99)Apache Tomcat 8.x (≤ 8…

基于51單片機的簡易打鈴系統

目錄 具體實現功能 設計介紹 資料內容 全部內容 資料獲取 具體實現功能 具體功能: (1)實時顯示當前時間(時、分、秒),LED模式指示燈亮;4個按鍵可以調整時間的時和分。 (2&…

vue+cesium示例:3D熱力圖(附源碼下載)

接到一位知識星友的邀請,隨機模擬三維數據點,結合heatmap.js實現基于cesiumvue的3D熱力圖需求,適合學習Cesium與前端框架結合開發3D可視化項目。 demo源碼運行環境以及配置 運行環境:依賴Node安裝環境,demo本地Node版本…

批處理實現:自動抓取perfetto日志 自動導出到當前文件夾 自動打開分析頁面

序言 最近在研究性能問題需要抓取trace文件。于是寫了個腳本 使用 雙擊運行批處理文件,可以開始記錄trace。而且以當前文件夾下面的。config.pbtx 作為配置文件。 (pbtx就是一個json文件。配置了需要抓取那些參數,可以通過https://ui.per…

未來機器人的大腦:如何用神經網絡模擬器實現更智能的決策?

編輯:陳萍萍的公主一點人工一點智能 未來機器人的大腦:如何用神經網絡模擬器實現更智能的決策?RWM通過雙自回歸機制有效解決了復合誤差、部分可觀測性和隨機動力學等關鍵挑戰,在不依賴領域特定歸納偏見的條件下實現了卓越的預測準…

??Promise代碼理解

1.事件循環與 Promise 執行順序 案例 1:基礎 Promise 同步異步區分 console.log(1); new Promise(resolve > {console.log(2);resolve();console.log(3); }).then(() > console.log(4)); console.log(5); 輸出順序:1,2,3…