1.引言這學期在方老師開設的《機器人大模型基礎和前沿》選修課上接觸并學習了具身智能方面的相關知識。作為交互組的組長,我和組員們在幻爾機器狗的功能開發上有切身的實踐與探索,在張江具身智能大會上,也見識到了前沿的技術和行業的發展現狀和無限的潛力,這些不僅對我個人能力有提升,還讓我有未來在具身智能方面進一步投入的熱忱。近年來,大語言模型取得了突破性的進展,人們在工作生活中或多或少地和它們打交道,但其缺乏對物理世界的感知和環境交互的經驗,使其無法直接應用在具身智能體上作為“大腦”,這也就引出了世界模型(World Model,WM)的概念:為具身智能體提供了一種模擬未來、推演動作后果,能像人類一樣“先知先覺”地感知和推斷環境能力的模型。接觸具身智能之前,我對自然語言處理有淺層的了解,所以在我的結課報告中,我將LLM和WM作為主題,探討兩者之間的關系。2.大語言模型的發展大語言模型是通過學習語料中詞序列的生成概率來賦予機器語言能力的主要方法。從2003年論文《A Neural Probabilistic Language Model》中提到的MLP架構(每個文本給予固定參數量的張量,經過輸入層、超參數層、輸出層的架構進行學習),再到2017年Google發布的《Attention is all you need》,首次提出了具有自注意力機制的Transformer架構,大語言模型正式進入了爆發期。近年來基于Transformer的預訓練模型在大規模語料上訓練后展現出強大的通用語言能力。其基本原理是通過語言模型把世界知識壓縮到Transformer網絡中。這意味著LLM訓練時通過預測下一個詞匯,實際上學習了包含在文本中的大量世界知識(語言學、常識、社會知識等)。與此同時,自注意力機制使得大語言模型擁有上下文處理的能力和具備一定的推理能力,例如通過連鎖思維(Chain-of-Thought)提示可以分步解決邏輯和數學問題,展現出“擬人化”的回答能力。總之,LLM在自然語言處理領域已展現強大的潛能,被廣泛用于對話系統、寫作輔助、信息檢索、機器翻譯等場景。然而,它們主要依靠語言文本進行訓練,并未直接接觸現實世界的多模態信息,因此在需要物理常識和環境感知的任務上存在根本局限。
左圖為Transformer架構,右圖為MLP架構3.世界模型的概念和其在具身智能中的重要性世界模型(World Model)是具身智能系統的核心概念。它類似于人類在頭腦中構建的對環境的內在表征,能夠進行環境狀態的壓縮編碼和動態演化建模,從而使智能體具備對外界進行推理和預測的能力。具體來說,世界模型就是一個內部仿真器:在當前觀測和動作的基礎上,預測未來環境狀態或感知結果,以支持智能體的規劃和決策。經典的例子可以類比于人類玩棋:棋手在行動前會在腦海中“預演”幾步走法,同樣,具身智能體也需要在執行物理動作之前在內部模擬環境的未來變化。比起僅僅依賴即時感官信息,智能體更需要把內部世界模型作為前瞻性指南,就像國際象棋選手思考若干步棋或者司機直覺地預見前方行人可能突然沖出一樣。實質上,世界模型賦予智能體認知能力,使其能夠感知、預期并推理周遭環境,并在不確定條件下做出更明智的決策。在具身智能的背景下,世界模型至關重要。一方面,它為機器人或智能體提供了內在的“物理常識”,能夠理解并預測環境中的物體運動、相互作用和因果關系。另一方面,它支持多種下游任務的泛化,例如生成模擬、路徑規劃和長期決策等。例如,在自動駕駛場景中,配備世界模型的自動駕駛系統可以在虛擬空間中預測車輛、行人等的未來軌跡,從而更加安全地規劃行駛路線。在仿真任務中,世界模型能夠生成符合物理規律的場景序列,以供訓練和推理。正如學界所強調的,“世界模型日益被認為是高級認知智能體的基礎”——人類使用心理模型來理解環境,AI系統也將世界模型嵌入認知架構來指導感知和行動。簡而言之,具身智能強調智能體通過感官與環境交互來獲得知識,因此世界模型是其核心。它讓AI系統不再是孤立的文本處理器,而是具有“心智地圖”的實體,可以像人一樣在頭腦中模擬世界。在下一步,我們將探討現有LLM與WM的關系,以及如何讓語言模型逐步具備世界模型的特性。
圖為智源大會上孫富春教授對世界模型的闡釋4. LLM與WM的關系:大語言模型能否演化為具身世界模型?在最近我刷到的一個訪談中,李飛飛教授談到了大語言模型和具身世界模型。她說到:“大語言模型的核心是‘Saying things’,而具身世界模型的核心是‘Seeing and doing things’。大語言模型的基本單位是詞典,可以是單詞或者句子。而對于具身世界模型,它的基本單位則是像素或者體素。我們的目標是探索AI算法,讓人類可以和像素世界進行溝通。”當前的一個研究問題是,我們是否可以利用LLM的龐大知識庫和推理能力,通過適當的訓練,使其擁有對物理世界的內部仿真能力?純粹的LLM缺乏對物體如何運動、相互作用,以及連續操作反饋的直接經驗,這使它們難以進行真正的物理推理和因果理解。要彌補這一差距,研究者提出了讓LLM“學習具身經驗”的思路。例如,有工作提出在虛擬物理世界(如虛擬家居環境中)部署一個具身智能體,讓它通過規劃和隨機探索收集豐富的交互經驗,然后用這些經歷去微調LLM。這樣可以讓語言模型從模擬的具身經驗中學習到推理和動作技能,同時仍然保持其通用性。此外,多模態數據的融合也是關鍵路徑之一。通過引入視覺、觸覺、語言等多模態輸入,LLM可以獲得更豐富的環境信息。例如,將圖像或傳感器數據編碼成適合語言模型處理的形式能夠使得原本只會處理文本的模型了解周圍現實世界,從而“彌合”語言與物理世界之間的鴻溝。4.1 典型模型:PaLM-E PaLM-E(Pathways Language Model with Embodied),是Google和柏林工業大學聯合開發的,與2023年發布的具身多模態語言大模型。PaLM-E是一個用于體現推理任務、視覺語言任務和純粹語言任務的單一通用多模態語言模型。PaLM-E能夠將視覺-語言領域的知識遷移到具身推理任務中——無論是讓機器人在具有復雜動力學和物理約束的環境中執行規劃任務,還是回答關于可觀測世界的問題。PaLM-E運行在多模態句子上,即token序列,其中來自任意模態(例如圖像,神經3D表示或狀態)的輸入與文本token一起插入作為LLM的輸入,然后進行端到端的訓練。 最大的PaLM-E-562B(562億參數)模型可以進行零樣本多模態思維鏈推理,可以在給定圖像的情況下講視覺調節的笑話,并演示一系列與機器人相關的多模態信息功能,包括感知,基于視覺的對話和規劃。PaLM-E還可以零樣本學習方式推廣到多圖像提示,盡管只在單圖像提示上進行過訓練。PaLM-E還可以在給定文本交錯手寫數字的圖像去執行數學運算。此外,該模型可以對時間標注過的、以自我為中心的視覺進行零樣本、問答,但都在一個模型中端到端執行。在訓練包含機器人任務外,PaLM-E-562B還是一個視覺語言通才,在OK-VQA等數據集上取得了領先性能,同時保留了隨著規模增長而來的強大語言能力 PaLM-E展示了將傳感器數據無縫注入LLM的可行性,是LLM向WM邁進的重要案例。圖為PaLM-E的模型架構4.2 LLM向WM轉化的關鍵挑戰 物理推理能力不足:LLM受限于文本訓練,很難形成準確的物理直覺。舉例來說,理解碰撞運動規律、摩擦力等概念都需要真實感知支持。要解決這一問題,模型需要通過視覺/觸覺數據或仿真任務來學習物體運動和交互的因果規律。因果理解和預測:世界模型要求AI能夠理解因果關系,而LLM通常僅基于統計相關性進行語言生成。它們可能根據語料習得各種現象的描述,但并不真正“理解”因果機制。高質量的世界模型需要能夠預測“如果……那么……”的結果。當前的多模態模型和LM雖然具備一定推斷能力,但要達到可以在新環境下進行可靠因果推理的水平,仍需要進一步在多樣化場景中學習和驗證。模擬與現實的差距(Sim2Real):許多具身模型依賴于模擬器進行訓練(如虛擬環境中的探索)。但是,模擬環境與現實世界之間存在差距,包括物理參數、隨機性和感知噪聲等方面的差異。如何使得在虛擬環境學到的世界模型知識有效遷移到現實機器人或真實場景中,是一個重要課題。長期規劃與記憶:復雜任務往往需要跨越長時間的規劃和記憶,例如在大樓中尋找物品或完成多步驟的烹飪任務。LLM的上下文長度和記憶機制有限,即使具備連鎖思維,也常常因篇幅和細節復雜度受限而無法在真實世界場景中執行長期計劃。世界模型需要能夠跨越數十步乃至數百步地模擬未來狀態,而這對當前架構提出了挑戰,需要結合強化學習中的記憶機制或者分層規劃策略來解決。5.總結大語言模型向具身世界模型的演化是通向通用人工智能的一條重要路徑。它要求我們打通語言→感知(視覺,觸覺,聽覺)→動作→世界模擬的閉環,實現“紙上談兵”向“落地生根”的跨越。如同電影《黑客帝國》中虛擬矩陣的預測能力所設想的那樣,當AI能像人類那樣“在頭腦中預見未來”時,智能系統將具備前所未有的創造性和適應性。這不僅是技術的演進,更是認知科學與AI的深度融合,為我們理解智能本質提供了新的視角。