智源研究院新研究:突破物理世界智能邊界的RoboBrain 2.0,將重構具身AI能力天花板

當你對著家用機器人說"把杯子放在筆筒和鍵盤之間,對齊杯身logo"時,它能精準理解空間關系并執行動作;當多臺機器人在超市協作補貨時,它們能自主規劃軌跡、避免沖突并完成長周期任務——這些曾經出現在科幻電影中的場景,正隨著RoboBrain 2.0的誕生加速成為現實。

作為新一代具身視覺-語言基礎模型,RoboBrain 2.0由北京人工智能研究院(BAAI)團隊研發,旨在打破"數字智能"與"物理智能"的鴻溝。這款模型以70億和320億參數的兩種規格,實現了感知、推理與規劃能力的統一,在空間理解、時間決策等核心任務上超越了現有開源與專有模型,為通用具身智能體的發展奠定了里程碑式的基礎。

傳統視覺語言模型(VLM)在數字世界表現出色,但面對物理環境時往往力不從心:要么無法精準判斷物體間的空間關系,要么難以規劃多步驟的長期任務,更遑論在動態環境中通過反饋持續優化行為。RoboBrain 2.0針對性解決了這三大瓶頸:

空間理解能力實現跨越式提升。模型能精準預測物體功能(如"杯子的握持部位")、解析復雜空間指向(如"冰箱右側第二層的牛奶"),甚至生成符合物理規律的放置軌跡。在RoboSpatial機器人環境基準測試中,32B版本以72.43分的成績大幅領先于Gemini(59.87分)和Qwen2.5-VL(48.33分),展現出對機器人操作場景的深度適配。

時間決策機制支持閉環交互與長程規劃。通過分析視頻序列中的時序依賴關系,模型能完成"先打開咖啡機再倒入牛奶"這類多步驟任務,甚至在多機器人協作時協調行動順序。在EgoPlan2日常活動規劃基準中,其57.23分的成績遠超GPT-4o(41.79分)和Claude(41.26分),證明了在復雜時序任務中的優勢。

因果推理鏈條讓智能行為可解釋。不同于直接輸出結果的傳統模型,RoboBrain 2.0能生成"觀察-思考-行動"(OTA)的完整推理過程。例如在"尋找馬克杯并倒咖啡"任務中,模型會先規劃搜索路徑,再根據反饋調整機器操作,最終完成目標,這種透明化的決策過程大幅提升了任務可靠性。

圖1 | 幾項標準的對比

RoboBrain 2.0的強大能力源于其精心設計的異構架構,通過四大核心組件實現多模態信息的深度融合:

?視覺編碼器:處理高分辨率圖像、多視角視頻等視覺輸入,采用自適應位置編碼和窗口注意力機制,高效解析復雜場景的空間特征。

?MLP投影器:將視覺特征精準映射到語言模型的 token 空間,解決跨模態語義對齊難題。

?語言模型主干:基于Qwen2.5-VL構建的解碼器,支持從自然語言指令到空間坐標、軌跡規劃等多樣化輸出。

?場景圖處理器:結構化解析環境中的物體、位置及關系,為推理提供結構化知識支撐。

這種架構設計讓模型能同時接收"把紅色盒子放在圓桌中心"的語言指令、多攝像頭拍攝的廚房畫面、以及包含家具位置的場景圖數據,通過統一的 token 序列進行聯合推理,最終輸出精確到像素級的操作坐標。

圖2 | 該機器人的能力

RoboBrain 2.0的性能突破離不開大規模高質量數據的支撐。團隊構建了涵蓋三大類別的訓練數據體系,總規模達數百萬樣本:

通用多模態數據奠定基礎能力。整合LLaVA-665K、LRV-400K等數據集,涵蓋視覺問答、區域查詢、OCR理解等任務,確保模型具備基本的跨模態交互能力。

空間數據強化物理世界感知。包括:

??152K張高分辨率圖像的視覺定位數據,支持精確到 bounding box 的物體定位

??190K組物體指向樣本,訓練模型理解"左上角的藍色杯子"等空間描述

??826K條3D空間推理數據,涵蓋距離、方向等31種空間概念,遠超傳統數據集的15種

時間數據培養動態決策能力。包含:

??50K條第一視角規劃軌跡,模擬人類日常活動的時序邏輯

??44K組多機器人協作樣本,覆蓋家庭、超市、餐廳等場景

??大規模閉環交互數據,通過模擬隨機故障事件,提升模型在動態環境中的魯棒性

訓練過程采用三階段遞進策略:首先通過基礎時空學習掌握環境感知能力,再通過具身增強訓練適配物理交互場景,最終通過思維鏈推理訓練提升復雜任務的解決能力。這種"從感知到行動"的培養路徑,使模型能高效吸收海量數據中的知識。

圖3 | 訓練數據的分布

在12項公開基準測試中,RoboBrain 2.0-32B在6項任務中刷新SOTA(state-of-the-art)成績,展現出全面的能力優勢:

?空間推理:在BLINK基準的深度感知與空間關系任務中,以83.63分超越GPT-4o(77.90分)和Gemini-2.5(81.83分);在Where2Place物體放置預測任務中,73.59分的成績是Qwen2.5-VL(39.92分)的1.8倍。

?時間規劃:Multi-Robot-Plan多機器人協作任務中,80.33分大幅領先于Claude(71.30分)和Gemini(65.39分);EgoPlan2日常活動規劃中,57.23分顯著超越所有對比模型。

?實際操作:在ShareRobot-Bench的軌跡預測任務中,動態弗雷歇距離(DFD)達到0.2368,遠低于Qwen2.5-VL的0.5034,意味著機器人運動軌跡更平滑精準。

值得注意的是,輕量版7B模型在保持緊湊體積的同時,性能仍超越多數開源模型,為資源受限的邊緣設備部署提供了可能。這種"大模型保性能、小模型保部署"的雙版本策略,大幅降低了具身AI技術的落地門檻。

RoboBrain 2.0的技術突破已展現出廣泛的應用前景:

家庭服務場景中,模型能理解"把陽臺的衣服收進衣柜下層"這類包含空間約束的指令,自主規劃移動路線并完成操作;在工業協作中,多臺機器人可基于模型的規劃能力協同完成流水線裝配,通過實時更新場景圖應對突發狀況;在倉儲物流中,系統能根據訂單需求優化機器人的取貨路徑,動態調整任務優先級。

更深遠的意義在于,團隊已開源模型代碼、 checkpoint 和基準測試工具(https://superrobobrain.github.io),這將推動整個具身AI領域的發展。正如報告中所言:"我們希望RoboBrain 2.0成為連接視覺-語言智能與物理世界交互的橋梁,為通用具身智能體的研發提供扎實基礎。"

未來,隨著與Vision-Language-Action(VLA)框架的融合以及機器人操作系統的深度集成,RoboBrain 2.0有望實現"感知-推理-行動"的端到端閉環,讓機器人真正理解物理世界的規則,在家庭、工廠、社區中成為可靠的智能助手。

當AI從屏幕走向三維空間,從處理數據轉向改造世界,RoboBrain 2.0的出現,或許正是通用人工智能征程上的關鍵一躍。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/922339.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/922339.shtml
英文地址,請注明出處:http://en.pswp.cn/news/922339.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【2025】Office核心組件Microsoft word,Excel,PowerPoint詳細使用指南

Office 核心組件使用指南 Microsoft Word 文字處理 Word主要用于創建和編輯文檔,如信件、報告、論文等。 2025Office🔗 1. 界面認識 快速訪問工具欄:位于左上角,可自定義保存、撤銷、恢復等常用命令。功能區:頂部…

【模型訓練篇】VeRL的使用 - RL(PPO)與源碼

繼續學習字節家的VeRL,今天來看看VeRL的RL,是VeRL系列的第三篇文章(話說近期好多大事兒,我司發布了Longcat、韓立結嬰、阿里周五發布了QWen-Next都是好東西啊,學不過來了damn) 底層分布式能力基礎Ray&…

QML Charts組件之折線圖的鼠標交互

目錄前言相關系列代碼示例詳解(LineSeriesDemo3.qml)功能概覽運行效果代碼說明工程下載參考前言 接上文(QML Charts組件之折線圖的基礎屬性),本文將重點介紹LineSeries的鼠標交互,包括:鼠標拖拽…

二值信號量——學習筆記12

本文是筆者在學習 正點原子官方 的《【正點原子】手把手教你學FreeRTOS實時系統》系列視頻時整理的筆記。 視頻講解清晰透徹,非常感謝UP主的無私奉獻!原課程鏈接如下: 👉 B站視頻鏈接:??????【正點原子】手把手教…

裸機開發 時鐘配置,EPIT

1.概念時鐘(clock):在電子系統中是一個產生穩定、周期性振蕩信號的電路或組件。這個信號像節拍器或心跳一樣,為數字電路中的各種操作提供同步時序基準。PLL(phase locked loop)鎖相環電路: 倍頻PFD(phase fractional P…

Linux-文本三劍客(grep、sed、awk)

Linux-文本三劍客前言一、grep二、sed三、awk模式 -- 正則表達式關系表達式、運算符表達模式匹配表達式動作 輸出流程控制參數傳遞,awk接受外部變量統計數組的使用分組統計練習常用內置函數前言 grep、sed、awk 被稱為 “文本三劍客”,它們是處理文本文…

主流反爬蟲、反作弊防護與風控對抗手段

文章目錄1. 寫在前面2. 指紋檢測3. 行為驗證3. 加固防護4. 鏈路檢測5. 風控埋點6. 游客注冊7. 數據防護8. 賬號權重9. 反調阻斷【🏠作者主頁】:吳秋霖 【💼作者介紹】:擅長爬蟲與JS加密逆向分析!Python領域優質創作者、…

金蝶云星空插件開發記錄(一)

實現目的:新增供應商保存后,觸發釘釘審批流程,并根據釘釘審批結果回寫是否合格供應商。實現思路:通過BOS平臺供在應商管理界面新增兩個復選框字段:是否釘釘審批、是否合格供應商,若在新建供應商檔案時勾選是…

企業跨區域組網新解:SD-WAN技術打造安全穩定網絡體系

前言在數字化浪潮席卷全球的今天,企業跨區域網絡互聯已成為支撐業務發展的關鍵基礎設施。傳統MPLS專線雖性能穩定,但高昂成本和漫長部署周期令眾多企業望而卻步。SD-WAN技術的出現,正以其智能、靈活和成本效益的優勢,重塑企業組網…

Docker 容器化

引言在解釋docker是什么之前,我們首先應該先了解的是容器化的概念。什么是容器?就是一個沙箱,在這個沙箱中涵蓋了特定應用運行的一切依賴的內容。但他不是一個操作系統,且和底層的操作系統是隔離的。什么是容器化?容器…

LeetCode刷題——hot 100(3)

題目1:矩陣置零題目:問題分析:使用兩個布爾數組來分別記錄哪行哪列出現了0,當出現0的行和列,對應的布爾數組值置為true。再次遍歷數組,當出現行數組和列數組中的值為true,則對應的原數組的值置為…

Ajax-day2(圖書管理)-渲染列表

本篇筆記素材來自“黑馬程序員” 渲染列表圖書管理一、獲取數據二、渲染數據完整代碼圖書管理 Bootstrap 框架渲染列表(查)新增圖書(增)刪除圖書(刪)編輯圖書(改) 自己的圖書數據&a…

MOS管的電路

MOS管的三極都會存在以下三個電容,分別是:Cgs,Cgd,Cds 輸入電容CissCgsCgd 輸出電容CossCgdCds 反向傳輸電容CrssCgd,也叫米勒電容 然而,這三個等效電容是構成串并聯組合關系,他們并不是獨立的,而是相互…

STM32_05_時鐘樹

時鐘 d用來輸入數據,CLK就是我們的時鐘,CPU1s中72000000HZ個時鐘周期STM32的時鐘樹鎖相環HSE時鐘源HSI時鐘源LSE時鐘源LSI時鐘源SystemInit函數SetSysClock函數SetSysClockTo72函數SystemInit()后時鐘頻率大小總結RCC標準庫函數定義變量a&…

C語言---判斷語句

文章目錄1. if 語句2. if...else 語句3. if...else if...else 語句4. switch 語句5. 三元運算符 ( ? : )總結與對比如何選擇C語言中的判斷語句用于根據給定的條件來決定執行哪一段代碼。其核心是條件為真(必須)則執行一段代碼,條件為假&…

[硬件電路-212]:電流的本質確實是電子的移動

1. 微觀機制:電子的定向漂移與熱運動定向漂移(Drift Motion):在導體(如金屬)中,自由電子(價電子)受電場驅動,從負端向正端定向移動,形成宏觀電流。…

雙RFSOC47DR-16通道5GSPS ADC采集模塊

16通道5GSPS ADC采集板卡組成如圖1所示。該板卡的輸入接口為SMA單端輸入,ADC采集和處理采用Xilinx公司的XCZU47DR-2FFVE1156I芯片。板卡需配備4路QSFP28光口輸出,并需要集成網口、DDR4、SD卡、USB調試口。兩塊RF-Soc需確保連接通信功能。板卡的16通道需實…

pytest -- 中文文檔

前言 零基礎1小時快速入門pytest自動化測試教程,全套項目框架實戰pytest配置文件可以改變pytest的運行方式,它是一個固定的文件pytest.ini文件,讀取配置信息,按指定的方式去運行 非test文件 pytest里面有些文件是非test文件 pyt…

硬件開發2-ARM裸機開發3-IMX6ULL - 引入中斷

一、鋪墊引入中斷 → 按鍵1、概要:實現按鍵控制發光二極管和蜂鳴器輸入類型的外設:按鍵(key)2、參考手冊內容完成配置過程(1)key 按鍵原理圖(2)core 內核中命名 -- UART1 CTS&#x…

Ansible的 Playbook 模式詳解

目錄一、Playbook模式1.1 Playbook 的優勢1.2 Playbook 的組成1.3 安裝 httpd 服務案例1.4 Playbook 命令及常用參數1.5 Playbook 的語法 —— 權限相關1. remote_user2. become3. become_method1.6 Playbook 的通知與觸發機制1. notify2. handlers3. 使用示例4. 使用場景1.6 P…