從LLM到WM:大語言模型如何進化成具身世界模型?

1.引言這學期在方老師開設的《機器人大模型基礎和前沿》選修課上接觸并學習了具身智能方面的相關知識。作為交互組的組長,我和組員們在幻爾機器狗的功能開發上有切身的實踐與探索,在張江具身智能大會上,也見識到了前沿的技術和行業的發展現狀和無限的潛力,這些不僅對我個人能力有提升,還讓我有未來在具身智能方面進一步投入的熱忱。近年來,大語言模型取得了突破性的進展,人們在工作生活中或多或少地和它們打交道,但其缺乏對物理世界的感知和環境交互的經驗,使其無法直接應用在具身智能體上作為“大腦”,這也就引出了世界模型(World Model,WM)的概念:為具身智能體提供了一種模擬未來、推演動作后果,能像人類一樣“先知先覺”地感知和推斷環境能力的模型。接觸具身智能之前,我對自然語言處理有淺層的了解,所以在我的結課報告中,我將LLM和WM作為主題,探討兩者之間的關系。2.大語言模型的發展大語言模型是通過學習語料中詞序列的生成概率來賦予機器語言能力的主要方法。從2003年論文《A Neural Probabilistic Language Model》中提到的MLP架構(每個文本給予固定參數量的張量,經過輸入層、超參數層、輸出層的架構進行學習),再到2017年Google發布的《Attention is all you need》,首次提出了具有自注意力機制的Transformer架構,大語言模型正式進入了爆發期。近年來基于Transformer的預訓練模型在大規模語料上訓練后展現出強大的通用語言能力。其基本原理是通過語言模型把世界知識壓縮到Transformer網絡中。這意味著LLM訓練時通過預測下一個詞匯,實際上學習了包含在文本中的大量世界知識(語言學、常識、社會知識等)。與此同時,自注意力機制使得大語言模型擁有上下文處理的能力和具備一定的推理能力,例如通過連鎖思維(Chain-of-Thought)提示可以分步解決邏輯和數學問題,展現出“擬人化”的回答能力。總之,LLM在自然語言處理領域已展現強大的潛能,被廣泛用于對話系統、寫作輔助、信息檢索、機器翻譯等場景。然而,它們主要依靠語言文本進行訓練,并未直接接觸現實世界的多模態信息,因此在需要物理常識和環境感知的任務上存在根本局限。在這里插入圖片描述
左圖為Transformer架構,右圖為MLP架構3.世界模型的概念和其在具身智能中的重要性世界模型(World Model)是具身智能系統的核心概念。它類似于人類在頭腦中構建的對環境的內在表征,能夠進行環境狀態的壓縮編碼和動態演化建模,從而使智能體具備對外界進行推理和預測的能力。具體來說,世界模型就是一個內部仿真器:在當前觀測和動作的基礎上,預測未來環境狀態或感知結果,以支持智能體的規劃和決策。經典的例子可以類比于人類玩棋:棋手在行動前會在腦海中“預演”幾步走法,同樣,具身智能體也需要在執行物理動作之前在內部模擬環境的未來變化。比起僅僅依賴即時感官信息,智能體更需要把內部世界模型作為前瞻性指南,就像國際象棋選手思考若干步棋或者司機直覺地預見前方行人可能突然沖出一樣。實質上,世界模型賦予智能體認知能力,使其能夠感知、預期并推理周遭環境,并在不確定條件下做出更明智的決策。在具身智能的背景下,世界模型至關重要。一方面,它為機器人或智能體提供了內在的“物理常識”,能夠理解并預測環境中的物體運動、相互作用和因果關系。另一方面,它支持多種下游任務的泛化,例如生成模擬、路徑規劃和長期決策等。例如,在自動駕駛場景中,配備世界模型的自動駕駛系統可以在虛擬空間中預測車輛、行人等的未來軌跡,從而更加安全地規劃行駛路線。在仿真任務中,世界模型能夠生成符合物理規律的場景序列,以供訓練和推理。正如學界所強調的,“世界模型日益被認為是高級認知智能體的基礎”——人類使用心理模型來理解環境,AI系統也將世界模型嵌入認知架構來指導感知和行動。簡而言之,具身智能強調智能體通過感官與環境交互來獲得知識,因此世界模型是其核心。它讓AI系統不再是孤立的文本處理器,而是具有“心智地圖”的實體,可以像人一樣在頭腦中模擬世界。在下一步,我們將探討現有LLM與WM的關系,以及如何讓語言模型逐步具備世界模型的特性。在這里插入圖片描述
圖為智源大會上孫富春教授對世界模型的闡釋4. LLM與WM的關系:大語言模型能否演化為具身世界模型?在最近我刷到的一個訪談中,李飛飛教授談到了大語言模型和具身世界模型。她說到:“大語言模型的核心是‘Saying things’,而具身世界模型的核心是‘Seeing and doing things’。大語言模型的基本單位是詞典,可以是單詞或者句子。而對于具身世界模型,它的基本單位則是像素或者體素。我們的目標是探索AI算法,讓人類可以和像素世界進行溝通。”當前的一個研究問題是,我們是否可以利用LLM的龐大知識庫和推理能力,通過適當的訓練,使其擁有對物理世界的內部仿真能力?純粹的LLM缺乏對物體如何運動、相互作用,以及連續操作反饋的直接經驗,這使它們難以進行真正的物理推理和因果理解。要彌補這一差距,研究者提出了讓LLM“學習具身經驗”的思路。例如,有工作提出在虛擬物理世界(如虛擬家居環境中)部署一個具身智能體,讓它通過規劃和隨機探索收集豐富的交互經驗,然后用這些經歷去微調LLM。這樣可以讓語言模型從模擬的具身經驗中學習到推理和動作技能,同時仍然保持其通用性。此外,多模態數據的融合也是關鍵路徑之一。通過引入視覺、觸覺、語言等多模態輸入,LLM可以獲得更豐富的環境信息。例如,將圖像或傳感器數據編碼成適合語言模型處理的形式能夠使得原本只會處理文本的模型了解周圍現實世界,從而“彌合”語言與物理世界之間的鴻溝。4.1 典型模型:PaLM-E PaLM-E(Pathways Language Model with Embodied),是Google和柏林工業大學聯合開發的,與2023年發布的具身多模態語言大模型。PaLM-E是一個用于體現推理任務、視覺語言任務和純粹語言任務的單一通用多模態語言模型。PaLM-E能夠將視覺-語言領域的知識遷移到具身推理任務中——無論是讓機器人在具有復雜動力學和物理約束的環境中執行規劃任務,還是回答關于可觀測世界的問題。PaLM-E運行在多模態句子上,即token序列,其中來自任意模態(例如圖像,神經3D表示或狀態)的輸入與文本token一起插入作為LLM的輸入,然后進行端到端的訓練。 最大的PaLM-E-562B(562億參數)模型可以進行零樣本多模態思維鏈推理,可以在給定圖像的情況下講視覺調節的笑話,并演示一系列與機器人相關的多模態信息功能,包括感知,基于視覺的對話和規劃。PaLM-E還可以零樣本學習方式推廣到多圖像提示,盡管只在單圖像提示上進行過訓練。PaLM-E還可以在給定文本交錯手寫數字的圖像去執行數學運算。此外,該模型可以對時間標注過的、以自我為中心的視覺進行零樣本、問答,但都在一個模型中端到端執行。在訓練包含機器人任務外,PaLM-E-562B還是一個視覺語言通才,在OK-VQA等數據集上取得了領先性能,同時保留了隨著規模增長而來的強大語言能力 PaLM-E展示了將傳感器數據無縫注入LLM的可行性,是LLM向WM邁進的重要案例。圖為PaLM-E的模型架構4.2 LLM向WM轉化的關鍵挑戰 物理推理能力不足:LLM受限于文本訓練,很難形成準確的物理直覺。舉例來說,理解碰撞運動規律、摩擦力等概念都需要真實感知支持。要解決這一問題,模型需要通過視覺/觸覺數據或仿真任務來學習物體運動和交互的因果規律。因果理解和預測:世界模型要求AI能夠理解因果關系,而LLM通常僅基于統計相關性進行語言生成。它們可能根據語料習得各種現象的描述,但并不真正“理解”因果機制。高質量的世界模型需要能夠預測“如果……那么……”的結果。當前的多模態模型和LM雖然具備一定推斷能力,但要達到可以在新環境下進行可靠因果推理的水平,仍需要進一步在多樣化場景中學習和驗證。模擬與現實的差距(Sim2Real):許多具身模型依賴于模擬器進行訓練(如虛擬環境中的探索)。但是,模擬環境與現實世界之間存在差距,包括物理參數、隨機性和感知噪聲等方面的差異。如何使得在虛擬環境學到的世界模型知識有效遷移到現實機器人或真實場景中,是一個重要課題。長期規劃與記憶:復雜任務往往需要跨越長時間的規劃和記憶,例如在大樓中尋找物品或完成多步驟的烹飪任務。LLM的上下文長度和記憶機制有限,即使具備連鎖思維,也常常因篇幅和細節復雜度受限而無法在真實世界場景中執行長期計劃。世界模型需要能夠跨越數十步乃至數百步地模擬未來狀態,而這對當前架構提出了挑戰,需要結合強化學習中的記憶機制或者分層規劃策略來解決。5.總結大語言模型向具身世界模型的演化是通向通用人工智能的一條重要路徑。它要求我們打通語言→感知(視覺,觸覺,聽覺)→動作→世界模擬的閉環,實現“紙上談兵”向“落地生根”的跨越。如同電影《黑客帝國》中虛擬矩陣的預測能力所設想的那樣,當AI能像人類那樣“在頭腦中預見未來”時,智能系統將具備前所未有的創造性和適應性。這不僅是技術的演進,更是認知科學與AI的深度融合,為我們理解智能本質提供了新的視角。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/87429.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/87429.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/87429.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

第十六屆藍橋杯C++B組國賽題解+復盤總結

文章目錄 寫在前面1、新型鎖2、互質藏卡3、數字輪盤4、斐波那契字符串5、項鏈排列6、藍橋星數字7、翻倍8、近似回文字符串9、子串去重10、涂格子 寫在前面 打了三年,第十六屆是我最后一次參加了,終于如愿以償國一啦。 這場的大多題目都補了,…

【TTS】2024-2025年主流開源TTS模型的綜合對比分析

以下是針對2024-2025年主流開源與商用TTS模型的綜合技術選型分析,結合GitHub熱度、功能特性、部署成本及中文支持等核心維度進行對比,并附詳細實踐建議。 一、開源TTS模型對比(2024-2025年主流方案) 模型名稱開源/廠商克隆支持中…

redis延時雙刪,為什么第一次刪除

Redis延時雙刪策略中第一次刪除的作用 在緩存與數據庫一致性方案中,"延時雙刪"(Delayed Double-Delete)是一種經典策略,其核心流程如下: 第一次刪除:更新數據庫前,先刪除緩存 更新數…

深度學習1(深度學習和機器學習的區別,神經網絡)

深度學習和機器學習的區別 深度學習和機器學習都是人工智能(AI)的重要分支,但它們在方法、應用場景和技術細節上有顯著區別。 機器學習通過算法讓計算機從數據中學習規律,并做出預測或決策。核心是特征工程(人工提取數…

這才叫窗口查詢!TDEngine官方文檔沒講透的實戰玩法

第1章:你不知道的TDEngine窗口查詢——開局就不簡單 先別急著翻白眼,提到時間窗口查詢,可能你腦子里立馬浮現的就是那些常規套路:GROUP BY time_interval、FIRST()、LAST(),再加上點AVG()和MAX(),一鍋端。…

Day50 預訓練模型+CBAM模塊

目錄 一、resnet結構解析 二、CBAM放置位置的思考 三、針對預訓練模型的訓練策略 a.差異化學習率 b.三階段式解凍與微調 (Progressive Unfreezing) 四、嘗試對vgg16cbam進行微調策略 是否可以對于預訓練模型增加模塊來優化其效果,這里會遇到一個問題&#xff…

快速說一下TDD BDD DDD

基本概念 TDD(測試驅動開發)、BDD(行為驅動開發)和 DDD(領域驅動設計)是軟件開發領域中幾個重要的概念,它們各自有著獨特的側重點與應用場景,以下為你詳細介紹: 測試驅…

淺析基于深度學習算法的英文OCR技術工作原理及其應用場景

在數字化信息飛速發展的當下,大量的文本信息以各種形式存在,從傳統的紙質文檔到電子圖片中的文字內容。如何高效地將這些非結構化的文本轉化為計算機能夠理解和處理的格式,成為了提高信息處理效率的關鍵。英文 OCR(Optical Charac…

AI時代SEO關鍵詞策略

內容概要 在人工智能(AI)驅動的新時代,搜索引擎優化(SEO)關鍵詞策略正迎來顛覆性變革。本篇文章將系統解析AI技術如何重塑關鍵詞研究、內容優化及流量提升的全過程,幫助企業實現高效可持續的在線曝光。通過…

免費一鍵自動化申請、續期、部署、監控所有 SSL/TLS 證書,ALLinSSL開源免費的 SSL 證書自動化管理平臺

目錄 一、前言二、ALLinSSL 簡介亮點核心功能 三、操作步驟部署安裝授權DNS服務商授權你的主機服務器自動化部署ssl測試自動申請ssl證書 一、前言 SSL證書是每個網站必備的,但是現在的免費的ssl證書有效期是3個月,以后CA/B Forum 調整 SSL 證書最長有效期…

如何高效清理C盤、釋放存儲空間,讓電腦不再卡頓。

以下是針對Windows系統的C盤深度清理全攻略,包含系統級優化和進階操作,可釋放30%-70%的冗余空間: 一、系統自帶工具快速清理(5分鐘見效) 磁盤清理工具 按WinR → 輸入cleanmgr → 選擇C盤重點勾選: ? Wind…

AI 如何批量提取 Word 表格中的字段數據到 Excel 中?

在日常工作中,我們經常會接觸到大量 Word 表格——學生登記表、客戶信息表、報名信息表……這些表格數據往往格式不一,但有一個共同的需求: 從中提取出“字段-值”結構,統一導入 Excel,方便后續分析處理。 傳統手工操作…

github代碼中遇到的問題-解決方案

下面內容介紹的是我個人在復現github代碼遇到的一些問題,如果也可以幫到你,請點個關注吧~ 1.我的項目位置在D盤,但是為什么下面終端的位置在E盤 -》cd /d D:\Users\xxxx(后面的xxxx是你具體的文檔位置) 2.怎么知道我…

使用Visual Studio 2022創建CUDA編程項目

要在 Visual Studio 2022 中開發 CUDA 程序,需要進行環境配置并了解基本開發流程。以下是詳細步驟: 環境準備 安裝 Visual Studio 2022 下載并安裝 Visual Studio 2022(社區版或專業版均可)。安裝時勾選 “使用 C++ 的桌面開發” 工作負載。確保安裝 “C++ CMake 工具” …

Java測試題一

1.基本數據類型有哪些? 基本數據類型有8個:整數:byte、int、long、short。 浮點型:float、double。 布爾型boolean。 字符型:char 2.下列代碼的輸出是什么?為什么? public static void ma…

使用 Flask 構建基于 Dify 的企業資金投向與客戶分類評估系統

使用 Flask 構建基于 Dify 的企業資金投向與客戶分類評估系統 前言一、🧩 技術棧二、📦 項目結構概覽三、 🔧 核心功能模塊說明1 配置參數2 請求封裝函數? 功能說明: 3 Prompt 構造函數4 Flask 路由定義🏠 首頁路由 /…

深入解析 AAC AudioSpecificConfig 在 RTSP/RTMP 播放器中的核心作用

在音視頻開發中,“能播”往往只是第一步,**“能正確、穩定、高質量地播”**才是衡量一款播放器成熟度的真正標準。尤其是在面對 AAC 音頻流時,很多開發者容易忽視一個極其關鍵但看似微小的配置段 —— AAC Audio Specific Config(…

Redis在項目中的使用

Redis(Remote Dictionary Server,遠程字典服務)是一個開源的鍵值存儲系統,通常用作數據庫、緩存或消息傳遞系統。在項目中,Redis 可以發揮多種作用,以下是一些常見的使用場景: 1. 緩存 減少數據…

使用 collected 向 TDengine 寫入數據

collectd 是一個用來收集系統性能的守護進程。collectd 提供各種存儲方式來存儲不同值的機制。它會在系統運行和存儲信息時周期性的統計系統的相關統計信息。利用這些信息有助于查找當前系統性能瓶頸和預測系統未來的負載等。 只需要將 collectd 的配置指向運行 taosAdapter 的…

greeenplum7.2幾個問題的解決方案

問題1systemd-modules-load.service報錯 systemd-modules-load.service: 這個服務負責加載內核模塊。在容器環境下,除非特別需要,否則通常不需要加載額外的內核模塊。 auditd.service: 審計守護進程(Audit Daemon),用…