多模態+類人認知：Embodied AI邁向AGI的三大瓶頸與突破路徑

作者：Yequan Wang；Aixin Sun

摘要

AGI常被視為本質上具有具身特性。隨著機器人技術和基礎人工智能模型的最新進展，我們正站在一個新時代的門檻上——這一時代以日益通用化的具身人工智能系統為標志。本文通過提出一個涵蓋五個層級（L1-L5）的具身通用人工智能系統化分類體系，為相關討論提供了貢獻。我們回顧了基礎層級（L1-L2）的現有研究與挑戰，并概述了實現更高層級能力（L3-L5）所需的關鍵要素。基于這些洞察與現有技術，我們提出了一個L3+級機器人大腦的概念框架，既提供了技術展望，也為未來探索奠定了基礎。

1 引言

AGI近年來吸引了廣泛關注。同時，Embodied AI也取得了快速進展。人們普遍認為，具身人工智能要么是實現AGI的關鍵路徑——反映了人類身體在認知中的不可或缺性——甚至應被納入AGI定義本身。我們不再進一步探討具身AI與AGI的關系，而是聚焦于“具身AGI”，從現有具身AI文獻出發，探索其距離真正類人化與通用化的差距。我們提出以下具身AGI的實用定義：

定義1（具身AGI）：具身AGI是一種具身人工智能形式，需具備類人交互能力，并能以人類水平熟練完成多樣化、開放性的現實任務。

在此定義中，具身AGI被框定為AGI與具身AI的交匯點，強調類人化場景。為衡量這一目標的進展，需建立一套標準：明確終極目標、評估當前能力、定義中間階段，并識別關鍵挑戰與潛在加速因素。受自動駕駛分級體系啟發，我們提出具身AGI的五級路線圖（第2節及圖1），從第一級（L1）——輔助完成有限基礎任務，到第五級（L5）——獨立執行具類人行為的開放性任務。

我們從四個核心維度評估具身AI的能力：

(1) 全模態能力：處理全譜信息模態的能力；

(2) 類人認知能力：包括細致的社會理解與類人學習機制（如自我意識、社會聯結理解、程序性記憶及記憶再鞏固，詳見第4節）；

(3) 實時響應能力：執行快速準確動作與雙向交互的能力；

(4) 泛化能力：適應開放環境與現實任務的能力（見圖2）。

基于提出的五級分級體系與四大能力維度，我們梳理了近期進展與未來方向。第3節簡要回顧了基礎模型與具身學習算法的最新發展，并評估其當前成熟度。分析表明，在達到L3+級具身AGI的所有四個維度上仍存在顯著差距，當前具身AI發展水平介于第一級至第二級（L1–L2）之間。第4節進一步明確了實現第三級及更高水平所需的四大維度要求。

我們觀察到，現有模型架構與主流框架——如LLMs、VLMs、VLA以及近期全模態方法——在多模態處理與精確實時動作執行方面尚未滿足L3+級要求。此外，主流學習范式（如監督學習與強化學習）在類人行為獲取與魯棒泛化方面仍顯不足。

為應對這些挑戰，第5節提出了一種L3+級具身AI學習的概念框架，包含兩大核心組件：(i) 高級機器人代理的模型架構；(ii) 滿足核心要求的集成學習算法：全模態處理、類人認知能力、實時響應與強泛化能力。所提出的架構與算法僅為當前研究的示例性方案，未來若有創新方法能達成相同基礎目標，可予以替代。

2 L1～L5：邁向具身通用人工智能的路線圖

借鑒廣泛認可的自動駕駛五個等級體系，以及近期關于AGI分級的討論，我們提出了通向具身通用人工智能的五階段路線圖（L1-L5）。該路線圖在圖1中概括，并在表1中詳細展開，其核心基于四個維度（圖2）：模態多樣性、類人認知能力、實時響應能力以及泛化能力。表1還簡要列出了硬件要求和運動/操作能力，并結合與自動駕駛的類比進行說明。

L1：單一任務完成

此階段的具身智能體（如機器人）可穩定執行定義明確的單一任務——例如工業或日常場景中的物體抓取。盡管可能在新環境條件（如光照或布局變化）下展現有限泛化能力，但其功能仍局限于特定任務域。每個任務通常需要專用機器人，且復雜目標需人工分解為簡單子任務。該階段類似于早期專注于單一功能的大語言模型，或自動駕駛L1級別中僅處理孤立任務（如定速巡航和車道保持）的系統。此時機器人的物理本體需具備執行目標任務的最低魯棒性。

L2：組合任務完成

在L2級別，機器人可通過分解高層指令為簡單動作序列（如抓取后切割）處理組合任務。其技能庫擴展使其相比L1更具通用性，減少人工干預需求。然而，能力仍受限于預定義任務和技能庫，跨域泛化能力有限。在大語言模型領域，這相當于多語言翻譯系統（支持多種語言對互譯但局限于翻譯領域）；在自動駕駛中，類似需顯式邏輯分解的組合任務（如泊車），但復雜決策（如擁堵路況應對）仍無法實現。此階段機器人需在物理魯棒性的基礎上，具備支持更長動作序列的響應能力。

L3：條件驅動的通用任務完成

L3級別機器人可處理廣泛任務類別（如抓取與舞蹈），在任務、環境及指令間展現條件泛化能力。其具備顯著實時響應性，能動態適應環境變化或指令更新。盡管支持多任務處理，但面對全新或開放式任務時性能尚不穩定，因此代表通用具身智能的初級階段。實現此階段需機器人具備綜合感知輸入（如視覺、聽覺，可選觸覺與本體感知）及對應輸出模態。大語言模型中，類似預訓練基礎模型通過多任務微調或少樣本提示實現通用化；自動駕駛中則相當于需人工監控的高速公路長途駕駛和交通導航任務。

L4：高度通用型機器人

從L4起，機器人對未見任務展現出穩健泛化能力，標志著真正的通用化能力。此類機器人能內化科學規律與物理世界模型，實現精準預測與決策。除實時處理外，其具備強大的多模態理解與推理能力（如語言、音頻、視覺），確保與人類的深度交互。機器人本體需更靈活精準以匹配高級能力。類比大語言模型，L4相當于具備強推理能力的通用模型（如o1（Jaech等，2024）、DeepSeek-R1（DeepSeek-AI等，2025））；自動駕駛中則相當于接近人類水平的復雜駕駛任務解決（如城市道路導航），但仍需最低限度人工干預。

L5：全用途機器人

L5代表具身AGI的終極目標：開發能全面滿足人類日常需求的通用機器人。其深度融合物理規律理解與人類情感社交動態，在實時中無縫處理所有模態。展現類人認知行為，包括自我意識、社會關系理解、程序性記憶和記憶重組（第4節）。此階段機器人本體需內置安全機制以防止危險意圖執行。大語言模型類比中，L5對應文本AGI的新興階段；自動駕駛中則體現為完全理解駕駛場景中人類細微需求，徹底消除人工干預的終極形態。

3 L1～L2：現狀與挑戰

我們首先進行簡要的文獻綜述，以評估Embodied AI的現狀。該領域由兩種主流方法主導：end-to-end方法和plan-and-act方法。端到端方法通常利用VLA模型，直接處理視覺和文本輸入，通過下一詞預測或基于擴散的方法生成動作。相反，規劃-執行方法首先利用VLMs或LLMs來解釋多模態輸入，然后進行高層規劃與任務分解，生成中間控制信號，如可執行代碼、函數調用或語言指令。一些混合方法通過潛在空間規劃將這兩種范式結合起來。LLMs 的顯著成功極大地影響了具身人工智能領域基礎模型的開發，推動了使用真實世界和合成數據集進行大規模預訓練的策略，以增強泛化能力。

我們達到了什么水平？我們的綜述表明，L1 級Embodied AGI所需的能力，現有模型已完全或部分滿足。許多模型能夠可靠地完成單一任務，并在面對未見過的環境和條件時表現出魯棒性。例如，GraspVLA1 能夠在各種光照條件、背景、干擾物和物體高度下成功泛化抓取能力。然而，它仍然專精于抓取任務，無法泛化到該領域之外。最先進的機器人系統，如 Helix11，不僅在特定任務類型（例如拾取各種物體）內表現出強大的泛化能力，還能處理廣泛的靈巧室內任務。這類機器人通過將復雜的人類指令分解為可執行的子任務，并獨立或通過協調的雙機器人系統解決它們，從而接近 L2 級水平。

向L3推進需要處理顯著不同的任務類別并表現出強大的實時響應能力。最近的研究，如 π0.51，通過組合預訓練（例如移動和非移動任務）部分解決了多樣任務類別的問題，但其應用仍主要集中于環境泛化而非真正的任務多樣性。因此，我們得出結論：當前的具身人工智能能力處于第 1 級和第 2 級之間。

我們識別出阻礙具身人工智能向 L3 及更高水平發展的四個關鍵挑戰，覆蓋了四個維度：

缺乏全面的聯合模態能力。主流模型通常僅整合視覺和文本語言輸入，輸出僅限于動作空間。真正的具身智能需要全頻譜多模態感知（例如，理解帶有情感和情緒的人類語音；除了文本控制臺和圖像攝像頭外，還需聽取來自麥克風設備的環境音頻輸入）和多模態響應，包括實時語音反饋。缺乏這些模態不僅嚴重限制了具身智能體在應用中的多功能性，也阻礙了其對物理世界的透徹理解。

類人認知不足。現有機器人主要專注于實現特定任務的操作，未能充分解決更高層次的智能交互或細微溝通。完全能力的具身智能體必須在推理和會話智能方面表現出色，類似于復雜的聊天機器人，并展示出與人類偏好和倫理價值觀的一致性。最終，對于 L5 級，智能體應表現出明顯的類人認知行為和復雜的社會理解力，這仍是當前包括無監督、監督和強化學習在內的學習范式遠未達到的目標。

有限的實時響應性。當前大多數具身人工智能系統以半雙工模式運行：在行動前完全接收和處理指令，這使得它們在條件或指令快速變化的動態環境中表現掙扎。這一限制嚴重阻礙了其在實際世界的部署。

泛化能力受限。如上所述，近期的具身人工智能模型在跨環境泛化方面取得了實質性進展。然而，值得注意的是，當前模型在處理跨環境泛化場景方面仍存在諸多困難，一個典型的例子是對空間變換（例如相機角度）的不變性不足。必須解決這些問題才能達到更高水平。更重要的是，任務間泛化能力仍然不成熟，但對于實現真正的通用能力（L3+）至關重要。

4 L3～L5：關鍵構成要素

在本節中，我們深入探討源自其定義的 L3+ 級具身 AGI 的基本構成要素。我們分析研究界取得的最新進展，審視當前方法在達到更高水平時所面臨的挑戰，并提出彌合這些差距的潛在技術路徑和設計選擇。

Omnimodal capabilities。 L3–L5 級具身 AGI 的一個基本要求是其“通用性”，這只有通過超越視覺和語言的全面全模態能力才能實現。這是因為現實世界的應用常常需要理解聽覺線索、人類語音的細微差別、觸覺反饋、熱感知等。此外，對于 L4 級及以上，掌握這些額外的模態對于獲取和內化物理定律知識變得至關重要，而這可能是真正泛化能力的基礎。

盡管雙模態基礎模型（如視覺-語言和音頻-語言模型）已被廣泛探索，三模態模型（例如視覺-語言-音頻）最近也引起了相當大的興趣，但為具身智能體整合更多模態（如動作和環境感知）在很大程度上仍是未知領域。

此外，當前模型面臨兩個關鍵挑戰：

(1) 模態沖突，這對模型容量提出了高要求；

(2) 由模態特定模塊和異構數據分布引起的級聯錯誤和對齊問題。

為解決這些問題，未來模型需要：

(1) 并行理解-推理-生成架構（L3+），以有效控制模型容量帶來的時間復雜度；

(2) 更先進的多模態預訓練范式（特別是對于 L4+），以改進模態特定模塊的協作或本質上支持多模態理解。

Humanoid cognitive behaviors。類人的認知行為在所有級別（L1–L5）都至關重要，因為

(1) 模仿人類神經大腦的基本學習機制1可能增強具身智能體的能力；

(2) 對自我和社會連接的類人理解能提升人機交互的質量。最終，L4+ 機器人應通過識別個體用戶、理解情感語境、甚至發展自我認同感和社會紐帶，無縫融入人類的日常生活。

我們認為以下四種能力是實現類人認知的核心（圖 2）：

Self-awareness。正如認知科學1和哲學1所支持的那樣，自我意識是高級認知功能的基礎。具有自我意識的智能體能夠更細致地理解其身份、時間連續性和目標。這種意識應是終身、動態和有狀態的——而非像當前大多數 LLMs 那樣靜態編碼在系統提示詞中。

Social connection understanding。理解自己與他人或其他機器人之間的關系——以及他人之間的關系——是一種高階認知能力。這種意識有助于人工智能系統理解其角色、責任和角色特征，增強其參與基于角色的交互的能力，尤其是在 L4+ 場景中。與自我意識類似，真正的社會連接理解也應是終身、動態和有狀態的1。

Procedural memory。人類保持著對增量學習技能的、可擴展的記憶，稱為程序性記憶。在人工智能中，這與克服領域偏移1和解決災難性遺忘相關。配備程序性記憶的智能體能夠隨著時間的推移積累和完善技能。

Memory reconsolidation。當前大多數機器學習系統在訓練后產生靜態的模型檢查點，不允許在部署期間進行進一步學習。相反，人類持續評估新信息的顯著性，并根據時間、語境和經驗更新知識——這種能力被稱為記憶再鞏固。對于具身 AGI，這種能力不僅對于減少再訓練開銷至關重要，而且對于實現長期適應和智能進化也至關重要。

上述大部分認知行為都與lifelong learning 密切相關。盡管近期研究強調了長上下文學習，但努力主要集中在擴展上下文窗口和優化位置編碼上。相比之下，終身學習涉及無限的時間范圍，其中模型在其參數內部持續更新其內部狀態和記憶表征，而非依賴外部緩存。對身份、社會動態和情感語境的類人理解，是通過由長期記憶支持的終身經驗學習而涌現的。因此，類人模型應采用類似的終身學習范式，通過主動、持續的交互，維持對自我、知識和外部環境的持續更新的內部表征。

Real-time interaction。實時響應性在幾乎所有具身人工智能應用中都是必不可少的，特別是對于 L3 級及以上的通用智能體，它們必須適應動態的現實世界環境，并對快速變化的人類指令做出迅速響應。

目前，實時操作常常對模型大小施加限制；例如，GO-11 和 π0.51 等模型采用的 VLA 架構限制在 50 億參數以內。

此外，實時的聽覺和視覺交互通常使用TDM 方法實現。然而，當納入更多模態時，這些方法會遇到可擴展性問題，因為計算復雜度隨序列長度呈二次方增長。

工程導向的優化，如在 MiniCPM-o2 中實現的那些，部分緩解了這一瓶頸。然而，實現 L3+ 級的實時性能將需要專門設計的新范式來支持真正多路復用、全模態的處理。

Generalization to open-ended tasks。如第 3 節所述，當前的具身人工智能模型在跨環境泛化方面表現出顯著能力，但在跨不同任務類別有效泛化方面仍然困難重重。

阻礙廣泛考慮的無監督或多任務預訓練方法解決任務間泛化問題的核心限制在于，它們對物理定律的內化不足，這限制了它們準確預測虛擬/想象動作結果的能力。

因此，模型常常過擬合于特定任務的線索，而非揭示潛在的可泛化原則。

開發超越簡單模仿或生成的訓練目標——例如物理交互的預測建模或因果推理——可以顯著增強任務間泛化能力，并更好地為具身智能體應對開放、異構的任務做好準備。

5 L3+機器人概念框架

本節提出一個專為滿足第2節所述L3+具身AGI開發需求而設計的概念框架。該框架由全模態模型結構及相應訓練范式組成，能夠潛在支持L3+能力的涌現。

5.1 模型結構

如第4節所述，L3-L5級具身AI模型結構的核心特征包括全面的模態融合和原生實時交互。理想情況下，在每個時間步t+1時，模型應基于時間步0...t內觀測到的所有先前信息生成響應。具體而言，模型需聯合處理多模態輸入流（如音視頻同步信號），并生成包括動作序列、連續語音、內部獨白、思維鏈推理等多模態輸出。

圖3展示了示例架構，該結構支持全模態流式輸入輸出，可快速響應動態現實條件（如變化的人類指令、中斷事件、環境擾動及先前動作的即時反饋）。此類架構的雙模態原型案例為RQ-Transformer。

5.2 訓練范式

圖4展示了示例訓練范式，詳細說明各階段所需數據、學習算法及里程碑目標。所引用算法均來自當前AI文獻，未來可能被實現相似目標的創新方法替代。該范式的設計動機及組成部分如下：

從零開始的多模態訓練。我們主張從零訓練本質多模態模型，以促進深度跨模態對齊和全模態理解。關鍵研究方向包括開發有效的訓練階段及數據集編排方案，最大化跨模態交互并促進聯合模態理解。

終身學習。受人類認知行為啟發，我們建議突破傳統"預訓練→微調→部署"范式，轉向終身持續學習框架（Fan等，2025；Zheng等，2025），整合主動學習（Bayer和Reuter，2024）及知識編輯（Wang等，2024c）等方法，用于多模態具身智能體。

面向物理的訓練。為提升高級具身AGI所需開放任務場景的泛化能力，我們提出探索面向物理世界理解的訓練范式。這些方法應大規模利用無監督或合成數據，并在學習目標中整合顯式或隱式動作，使模型內化因果效應和物理規律。有前景的方向包括基于細粒度動作驅動的結果預測框架（Hu等，2024），以及廣義世界模型（Garrido等，2024；Bar等，2024）的擴展應用，以覆蓋更廣泛的任務領域和交互動態。

6 結論與未來挑戰

本文通過建立五級分類體系作為路線圖，系統回顧了具身AGI的發展進程，評估了當前進展，識別了關鍵能力差距，并提出了概念框架。我們認為該路線圖具有長期相關性，盡管機器人硬件、基礎設施和機器學習的進步可能導致本文提出的框架作為實施策略發生演變、修改或替代。

我們的討論基于具身AGI應展現類人智能行為的前提。因此，未來挑戰不僅包含技術壁壘，還將涉及倫理安全考量及更廣泛的社會影響——特別是人類、機器人及人機群體間的協作關系動態問題。

我們希望本文能為具身通用智能的未來發展提供有價值的見解，并激發更具建設性的討論。

關于TsingtaoAI

TsingtaoAI通過對前沿先進具身機器人與協作機器人的算法和智能體開發，搭建面向自動化工廠的具身智能實訓平臺，可以讓企業在實際大規模產線決策建設前，進行預研實訓，以讓企業獲得更快接入超級AI工廠的能力。

TsingtaoAI基于PBL的項目式實訓理念，自研基于DeepSeek的具身智能實訓解決方案、LLM的AIGC應用開發實訓平臺、基于LLM大模型的AI通識素養課數字人助手、一站式機器學習/深度學習/大模型AI訓練實訓平臺和基于大語言模型的AIGC案例學習平臺，為央國企、上市公司、外資企業、政府部門和高校提供AI&具身智能實訓道場建設服務。