(論文速讀)從語言模型到通用智能體

論文題目:From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons(從多模式大型語言模型到多面手具身代理:方法和教訓)

會議:CVPR2025

摘要:我們研究了多模態大型語言模型(Multimodal Large Language Models, mllm)處理不同領域的能力,這些領域超出了這些模型通常訓練的傳統語言和視覺任務。具體來說,我們關注的是嵌入式AI、游戲、UI控制和計劃等領域。為此,我們介紹了一個將mllm應用于通用具身代理(GEA)的過程。GEA是一個單一的統一模型,能夠通過多體現動作標記器在這些不同的領域中扎根。GEA的訓練方法是在大型具體化經驗數據集上進行監督學習,并在交互式模擬器中進行在線強化學習。我們將探索開發這種模型所需的數據和算法選擇。我們的研究結果揭示了使用跨領域數據和在線強化學習進行訓練對于構建多面手智能體的重要性。與其他通用模型和特定于基準的方法相比,最終的GEA模型在不同基準上實現了對未見任務的強大泛化性能。


引言:AI智能體的新里程碑

想象一下,一個AI模型能夠同時完成機器人抓取蘋果、玩《太空入侵者》游戲、設置手機鬧鐘,以及規劃復雜的家務任務。這聽起來像科幻小說,但Apple和Georgia Tech的研究團隊通過**Generalist Embodied Agent (GEA)**讓這一愿景成為現實。

這項工作代表了embodied AI領域的重要突破,將多模態大語言模型的能力擴展到了前所未有的應用范圍。

核心挑戰:從語言理解到行動執行

現有方法的局限性

傳統的embodied AI系統通常面臨以下問題:

  1. 域特化嚴重:大多數系統只能在特定環境中工作,如只做機器人操控或只玩特定游戲
  2. 動作空間異構:不同任務需要完全不同的控制方式
    • 機器人:連續的關節角度控制
    • 游戲:離散的按鍵操作
    • UI控制:坐標點擊和文本輸入
  3. 數據稀缺性:專家演示數據有限,且缺乏錯誤恢復示例

GEA的解決方案

研究團隊提出了一個統一的智能體架構,能夠通過單個模型處理多樣化的embodied任務。關鍵創新在于:

  • 設計了通用的動作表示方法
  • 建立了有效的跨域訓練策略
  • 結合了監督學習和強化學習的優勢

技術架構:構建通用智能體的三大支柱

1. 多體驗動作分詞器

核心問題:如何讓一個語言模型理解和輸出各種不同類型的動作?

解決方案:使用Residual VQ-VAE技術將所有動作統一編碼為token序列

連續動作(機器人關節控制) → RVQ編碼 → [k?, k?, ..., k?] → 語言模型token
離散動作("向左移動") → 文本分詞 → ["move", "left"] → 語言模型token

這種設計讓模型能夠:

  • 統一處理機器人的7維關節控制和游戲的簡單按鍵操作
  • 在推理時根據具體環境截取相應維度的動作
  • 保持動作表示的精度和效率

2. 兩階段訓練策略

階段一:監督微調(SFT)

  • 數據規模:220萬條成功軌跡
  • 覆蓋領域:機器人操控、導航、游戲、UI控制、規劃
  • 目標:讓模型學會基本的感知-動作映射

階段二:在線強化學習

  • 算法:PPO + 持續SFT
  • 環境:Habitat Pick、語言重排列、Procgen游戲
  • 目標:提升魯棒性和錯誤恢復能力

3. 跨域知識遷移

研究發現,不同域之間存在有益的知識遷移:

  • 機器人操控的空間推理能力可以幫助游戲任務
  • UI控制的精確定位技能可以提升機器人抓取性能
  • 導航任務的路徑規劃思維對復雜操控任務有幫助

實驗結果:全面超越現有方法

操控任務表現

基準測試GEA性能最佳基線提升幅度
Meta-World94.7%87.0%+7.7%
CALVIN90.0%82.4%+7.6%
Habitat Pick82.5%81.0%+1.5%

視頻游戲表現

  • Procgen: 44%專家水平(vs 25%基線)
  • Atari: 32.7%專家水平,超越通用基線Gato

其他域表現

  • UI控制: 57.3%成功率,超越GPT-4o+專用感知系統
  • 導航: 在BabyAI達到91.1%成功率
  • 規劃: LangR任務達到50%成功率

關鍵發現:訓練策略的重要啟示

1. 在線RL的決定性作用

實驗對比顯示:

  • 僅SFT的GEA-Base:60.5%(Habitat Pick)
  • 加入在線RL的GEA:82.5%(+22%提升)

原因分析

  • SFT只學習成功案例,缺乏錯誤恢復能力
  • 在線RL能夠探索更多樣的狀態空間
  • 交互式學習更符合embodied任務的特性

2. 跨域數據的協同效應

多域聯合訓練 vs 單域訓練的對比:

  • 所有測試域都從多域訓練中受益
  • 操控任務受益最大(豐富的操控數據相互增強)
  • 即使是看似無關的域也存在知識遷移

3. 基礎模型的影響

  • 模型規模越大,embodied任務性能越好
  • 視覺編碼器的預訓練比語言模型更關鍵
  • 不同的基礎MLLM(LLaVA-OneVision vs MM1.5)性能相近

技術細節:實現通用智能體的工程實踐

訓練效率優化

計算資源

  • 階段一:8節點×8 H100 GPU,2天
  • 階段二:8節點×8 H100 GPU,1天
  • 總計算量:約1億步強化學習

內存優化

  • 使用LoRA微調減少內存占用
  • 約束解碼確保動作有效性
  • PopArt歸一化處理多環境獎勵差異

數據處理管道

  1. 數據收集:多種來源的軌跡數據

    • 人類演示:CALVIN、AndroidControl
    • RL專家:Habitat、Procgen、Atari
    • 運動規劃:Maniskill導航任務
  2. 數據格式統一

    • 觀察:RGB圖像序列
    • 指令:自然語言描述
    • 動作:統一token序列
  3. 質量控制:僅使用成功軌跡進行SFT訓練

局限性與未來方向

當前局限

  1. 性能天花板:某些域(如Maniskill、AndroidControl)仍有較大改進空間
  2. 零樣本能力有限:無法直接控制完全新的體驗類型
  3. 計算成本較高:大規模多域訓練需要大量資源

改進方向

  1. 擴展RL訓練:將在線學習應用到更多域
  2. 增強泛化能力:研究更好的跨體驗遷移方法
  3. 提升效率:開發更高效的訓練和推理算法

影響與意義:邁向通用人工智能的重要一步

學術貢獻

  1. 方法論突破:證明了跨域訓練在embodied AI中的有效性
  2. 技術創新:多體驗動作分詞器為統一控制提供了新思路
  3. 實證發現:在線RL對embodied任務的重要性

應用前景

  1. 家用機器人:一個模型處理清潔、整理、烹飪等多種任務
  2. 智能助手:同時控制多種設備和應用程序
  3. 自動化系統:跨平臺的統一控制解決方案

產業影響

  • 降低了開發多任務智能體的門檻
  • 為robotics即服務(RaaS)提供了技術基礎
  • 推動了AI從理解到行動的paradigm shift

結語:通用智能體時代的序幕

GEA的成功表明,通過合適的架構設計和訓練策略,我們可以構建真正的通用智能體。這不僅是技術上的突破,更代表了AI從"專才"向"通才"的重要轉變。

雖然距離真正的通用人工智能還有距離,但GEA為我們展示了一個清晰的發展路徑:

  • 統一的表示學習
  • 跨域的知識遷移
  • 交互式的能力獲取

隨著計算資源的增長和數據的豐富,我們有理由期待更加強大和通用的embodied AI系統。未來的智能體將不再局限于特定任務,而是能夠像人類一樣靈活地適應和學習新的環境與挑戰。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/98591.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/98591.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/98591.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Epiq Solutions】Matchstiq? G20 和 Matchstiq? G40 AI SDR

Matchstiq? G20 和 Matchstiq? G40 產品簡介 Matchstiq? G20 和 Matchstiq? G40 是 Epiq Solutions 推出的 緊湊型、高性能軟件定義無線電(SDR)平臺,專為滿足 嚴苛 SWaP-C(體積、重量、功耗受限)場景下的戰術與移動…

基于Echarts+HTML5可視化數據大屏展示-旅游智慧中心

效果展示&#xff1a; 代碼結構&#xff1a;主要代碼實現 index.html布局 <!DOCTYPE html> <html lang"en" style"font-size: 97.5px;"> <head><meta http-equiv"Content-Type" content"text/html; charsetUTF-8"…

Docker 鏡像的使用

1.鏡像的基本信息[roothost1 ~]# docker images REPOSITORY TAG IMAGE ID CREATED SIZE ubuntu latest 802541663949 2 weeks ago 78.1MB hello-world latest 1b44b5a3e06a 4 weeks ago 10.1kB執行 docker images 命令時加上 --no…

網絡編程;套接字;TCP通訊;UDP通訊;0909

思維導圖TCP服務器端和客戶端通訊服務器端 代碼#include<myhead.h> #define SER_IP "192.168.109.12"//我的虛擬機的ip #define SER_PORT 8888 int main() {//1.創建一個用于連接的套接字文件描述符int sfd socket(AF_INET,SOCK_STREAM,0);if(sfd-1){perror(&…

貪心算法應用:柔性制造系統(FMS)刀具分配問題詳解

Java中的貪心算法應用&#xff1a;柔性制造系統(FMS)刀具分配問題詳解 1. 問題背景與定義 柔性制造系統(Flexible Manufacturing System, FMS)是現代智能制造中的關鍵組成部分&#xff0c;它能夠靈活地適應不同產品的生產需求。在FMS中&#xff0c;刀具分配是一個核心優化問題&…

不止是DELETE:MySQL多表關聯刪除的JOIN語法實戰詳解

MySQL 的 ??DELETE?? 語句用于從數據庫表中刪除記錄。這是一項非常強大且危險的操作&#xff0c;因為一旦執行&#xff0c;數據通常無法恢復。理解其語法和安全實踐至關重要。以下是 MySQL 刪除語句的詳細指南。一、 核心語法&#xff1a;DELETE??DELETE?? 語句用于刪除…

ubuntu 系統使用過程中黑屏問題分析

背景&#xff1a; 工欲善其事&#xff0c;必先利其器。作為程序員&#xff0c;想要得到更好的發展&#xff0c;遇到問題直接baidu, google 雖然可以得到一些參考或者答案&#xff0c;但是也會降低自己的思考能力&#xff0c;本文以ubuntu 使用過程中黑屏這一問題為背景&#x…

Redis(45)哨兵模式與集群模式有何區別?

Redis 提供了兩種高可用性解決方案&#xff1a;哨兵模式和集群模式。它們各自有不同的特點和適用場景。以下是詳細的對比和結合代碼的示例&#xff1a; 哨兵模式&#xff08;Sentinel&#xff09; 特點高可用性&#xff1a; Sentinel 通過監控、通知、故障轉移等功能&#xff0…

微信小程序如何進行分包處理?

目錄 分包是什么&#xff1f; 為什么要分包&#xff1f; 分包前后結構對比 具體操作步驟 第 1 步&#xff1a;規劃分包結構 第 2 步&#xff1a;修改 app.json 進行配置 第 3 步&#xff1a;創建分包目錄并移動文件 第 4 步&#xff1a;處理組件和工具函數的引用 第 5…

Go語言極速入門與精要指南從零到精通的系統化學習路徑

&#x1f49d;&#x1f49d;&#x1f49d;歡迎蒞臨我的博客&#xff0c;很高興能夠在這里和您見面&#xff01;希望您在這里可以感受到一份輕松愉快的氛圍&#xff0c;不僅可以獲得有趣的內容和知識&#xff0c;也可以暢所欲言、分享您的想法和見解。 持續學習&#xff0c;不斷…

git 切換倉庫后清理分支緩存

我明白了&#xff0c;從您的截圖可以看到遠程倉庫中有 feature/v1.4_20250903 分支&#xff0c;但本地 git branch -r 看不到&#xff0c;這是因為之前更換過倉庫地址后需要重新獲取遠程倉庫的所有信息。讓我們執行以下步驟來解決這個問題&#xff1a; 首先執行 git fetch --al…

考研倒計時101天---路由選擇協議

路由選擇協議&#xff1a;RIP 與 OSPFRIP 協議&#xff08;基于距離向量算法&#xff09;RIP&#xff08;Routing Information Protocol&#xff09;是一種內部網關協議&#xff08;IGP&#xff09;&#xff0c;采用距離向量算法進行路由選擇。其主要特點如下&#xff1a;工作機…

「類 vs 實例」對比 ,「類 - 原型 - 實例」的關系

堅持的本身就是意義 目錄直觀類比類 (Class) vs 實例 (Instance)對比表示例代碼類 - 原型 - 實例關系圖解釋&#xff1a;類 (class Person)原型 (Person.prototype)實例 (new Person(...))總結&#xff1a;直觀類比 類&#xff08;Class&#xff09; 圖紙 / 模板實例&#xf…

第一課、Cocos Creator 3.8 安裝與配置

介紹說明 本文主要介紹在windows系統中&#xff0c;安裝開發Cocos使用的軟件工具&#xff0c;主要包含&#xff1a;安裝CocosDashboard控制面板、CocosCreator3.8編輯器和腳本編輯器 VS Code 。 一、Cocos Dashboard 的安裝 說明&#xff1a;Cocos Dashboard 主要作用是能夠同…

從航空FACE的一個落地方案漫談汽車HPC軟件架構的思維轉變(2/3)FACE的“段”同Autosar的“層”概念區別探索

文章目錄PART THREE&#xff1a;段和層的概念比較一、“段”更強調“功能閉環責任歸屬”&#xff0c;而非“單純的層級堆疊”二、“段”規避“層”的“剛性依賴陷阱”&#xff0c;適配航空系統的“靈活組合需求”三、“段”貼合航空工業的“工程化語言習慣”&#xff0c;降低跨…

金融量化指標--6InformationRatio信息比率

InformationRatio信息比率計算公式添加圖片注釋&#xff0c;不超過 140 字&#xff08;可選&#xff09;一、信息比率&#xff08;IR&#xff09;是什么&#xff1f;核心概念&#xff1a;信息比率衡量的是投資組合經理相對于某個基準指數&#xff08;Benchmark&#xff09;&…

Java全棧開發面試實錄:從基礎到微服務的實戰經驗分享

Java全棧開發面試實錄&#xff1a;從基礎到微服務的實戰經驗分享 一、初識面試場景 我叫李明&#xff0c;28歲&#xff0c;畢業于復旦大學計算機科學與技術專業&#xff0c;碩士學歷。在互聯網行業已經有5年的工作經驗&#xff0c;先后在兩家中型互聯網公司擔任Java全棧開發工程…

【51單片機】【protues仿真】基于51單片機公交報站系統

目錄 一、主要功能 二、使用步驟 三、硬件資源 四、軟件設計 五、實驗現象 一、主要功能 主要功能如下&#xff1a; 1、LCD12864顯示時間、日期、公交車車站、溫度等 2、按鍵設置時間&#xff0c;顯示公交車信息 3、串口播報相應站點信息 4、按鍵控制上行、下行、手動播…

第1節-PostgreSQL入門-從表中查詢數據

摘要&#xff1a;在本教程中,你將學習如何使用 PostgreSQL 的 SELECT 語句從表中檢索數據。 SELECT 語句 要從表中查詢數據,需使用 PostgreSQL 的 SELECT 語句。 以下是 SELECT 語句的基本語法: SELECT column1, column2, ... FROM table_name;在這種語法中: 首先,在 SELECT 關…

【C++進階】---- map和set的使用

1.序列式容器和關聯式容器 前?我們已經接觸過STL中的部分容器如&#xff1a;string、vector、list、deque、array、forward_list等&#xff0c;這些容器統稱為序列式容器&#xff0c;因為邏輯結構為線性序列的數據結構&#xff0c;兩個位置存儲的值之間?般沒有緊密的關聯關系…