【論文筆記】World Models for Autonomous Driving: An Initial Survey

原文鏈接:https://ieeexplore.ieee.org/abstract/document/10522953

1. 世界模型的發展

A. 世界模型的結構基礎

在這里插入圖片描述

世界模型包含4個關鍵組件,以模擬人類連貫的思考和決策過程。

a)感知模塊使用如變分自編碼器(VAE)、掩膜自編碼器(MAE)或離散自編碼器(DAE)等編碼模塊,將環境輸入(如圖像、視頻、文本、控制指令等)處理并壓縮為更易于管理的格式。

b)記憶模塊用于記錄和管理過去、現在和預測的世界狀態及其相關代價或獎勵。

c)控制/行為模塊評估當前狀態和世界模型的預測,以決定實現目標(如最小化代價或最大化獎勵)的最優行為序列。該模塊與世界模型模塊區分開來,使用小參數集獨立訓練。

d)世界模型模塊估計當前世界狀態丟失的信息并預測未來的環境狀態。

模型預測的確定性和真實世界現象的不確定性之間的協調是一個挑戰,因此,可以使用溫度變量引入不確定性,或使用結構化框架(如循環狀態空間模型(RSSM)與聯合嵌入預測結構(JEPA)),以微調預測精度與靈活性的平衡。此外,使用Top-K采樣,以及從CNN模型轉換到Transformer模型(如Transformer狀態空間模型(TSSM)和時空Patchwise Transformer(STPT))通過將世界模型的預測與真實世界的可能發展對齊,能更好地近似真實世界的復雜程度和不確定性。

世界模型中最常用的核心結構是RSSM與JEPA。

1)循環狀態空間模型(RSSM) 在隱空間中實現純正向預測。
在這里插入圖片描述
上圖c展示了潛在動態模型的3次步進。隨機變量(圈)和確定性變量(方塊)在模型結構內交互——實線表示生成過程,虛線表示推斷過程。

與無法捕捉多種潛在未來的、確定性初始狀態的RNN(圖a)和完全隨機、無信息保留能力的狀態空間模型(SSM,圖b)不同,RSSM將狀態分解為隨機性狀態和確定性狀態,有效利用確定性元素的預測穩定性和隨機性元素的自適應潛力。

記觀測和行為序列為 ( x 0 , a 1 , x 1 , a 2 , x 2 , ? , a T , x T ) (x_0,a_1,x_1,a_2,x_2,\cdots,a_T,x_T) (x0?,a1?,x1?,a2?,x2?,?,aT?,xT?)。觀測到 x t x_t xt?后,智能體進行行為 a t + 1 a_{t+1} at+1?,并接收下一步觀測 x t + 1 x_{t+1} xt+1?。RSSM將觀測和狀態轉移建模為下列生成過程:
p ( x 0 : T ∣ a 1 : T ) = ∫ ∏ t = 0 T p ( x t ∣ z ≤ t , a ≤ t ) p ( z t ∣ z < t , a ≤ t ) d z 0 : T p(x_{0:T}|a_{1:T})=\int\prod_{t=0}^{T}p(x_t|z_{\leq t},a_{\leq t})p(z_t|z_{<t},a_{\leq t})dz_{0:T} p(x0:T?a1:T?)=t=0T?p(xt?zt?,at?)p(zt?z<t?,at?)dz0:T?

其中 z 0 : T z_{0:T} z0:T?為隨機隱狀態。近似后驗定義為:
q ( z 0 : T ∣ x 0 : T , a 1 : T ) = ∏ t = 0 T q ( z t ∣ z < t , a ≤ t , x t ) q(z_{0:T}|x_{0:T},a_{1:T})=\prod_{t=0}^Tq(z_t|z_{<t},a_{\leq t},x_t) q(z0:T?x0:T?,a1:T?)=t=0T?q(zt?z<t?,at?,xt?)

RSSM使用共享的GRU來將 z < t z_{<t} z<t? a ≤ t a_{\leq t} at?壓縮為確定性編碼 h t h_t ht?
h t = G R U ( h t ? 1 , M L P ( c o n c a t [ z t ? 1 , a t ] ) ) h_t=GRU(h_{t-1},MLP(concat[z_{t-1},a_t])) ht?=GRU(ht?1?,MLP(concat[zt?1?,at?]))

隨后,用于計算先驗、似然和后驗的充分統計量:
p ( z t ∣ z < t , a ≤ t ) = M L P ( h t ) p ( x t ∣ z ≤ t , a ≤ t ) = N ( x ^ t , 1 ) x ^ t = D e c o d e r ( c o n c a t [ h t , z t ] ) q ( z t ∣ z < t , a ≤ t , x t ) = M L P ( c o n c a t [ h t , e t ] ) e t = E n c o d e r ( x t ) p(z_t|z_{<t},a_{\leq t})=MLP(h_t)\\ p(x_t|z_{\leq t},a_{\leq t})=\mathcal N(\hat x_t,1)\\ \hat x_t=Decoder(concat[h_t,z_t])\\ q(z_t|z_{<t},a_{\leq t},x_t)=MLP(concat[h_t,e_t])\\ e_t=Encoder(x_t) p(zt?z<t?,at?)=MLP(ht?)p(xt?zt?,at?)=N(x^t?,1)x^t?=Decoder(concat[ht?,zt?])q(zt?z<t?,at?,xt?)=MLP(concat[ht?,et?])et?=Encoder(xt?)

訓練目標是最大化證據下界(ELBO):
log ? p ( x 0 : T ∣ a 1 : T ) ≥ E q [ ∑ t = 0 T log ? p ( x t ∣ z ≤ t , a ≤ t ) ? L K L ( q ( z t ∣ z < t , a ≤ t , x t ) , p ( z t ∣ z < t , a ≤ t ) ) ] \log p(x_{0:T}|a_{1:T})\geq\mathbb E_q[\sum_{t=0}^T\log p(x_t|z_{\leq t},a_{\leq t})-\mathcal L_{KL}(q(z_t|z_{<t},a_{\leq t},x_t),p(z_t|z_{<t},a_{\leq t}))] logp(x0:T?a1:T?)Eq?[t=0T?logp(xt?zt?,at?)?LKL?(q(zt?z<t?,at?,xt?),p(zt?z<t?,at?))]

2)聯合嵌入預測結構(JEPA) 關注表達空間而非直接且具體的預測。
在這里插入圖片描述
如圖所示,JEPA通過雙編碼器將輸入 x x x和目標 y y y抽象為表達 s x , s y s_x,s_y sx?,sy?,并使用隱變量 z z z進行預測。其預測過程更簡單,且能保證結果的相關性和可靠性。

JEPA的核心是能量函數 E w ( x , y , z ; θ ) E_w(x,y,z;\theta) Ew?(x,y,z;θ),其捕捉了模型的預測誤差。這里 θ \theta θ表示模型參數。能量函數定義為
E w ( x , y , z ; θ ) = ∥ s y ? P r e d ( s x , z ; ? ) ∥ 2 2 + λ ∥ z ∥ 2 2 E_w(x,y,z;\theta)=\|s_y-Pred(s_x,z;\phi)\|_2^2+\lambda\|z\|_2^2 Ew?(x,y,z;θ)=sy??Pred(sx?,z;?)22?+λz22?

其中,L2范數平方衡量了預測表達與目標表達 s y s_y sy?的歐式距離,即模型預測誤差;預測函數 P r e d Pred Pred將輸入表達 s x s_x sx?和隱變量 z z z映射到目標空間,其參數為 ? \phi ?。正則化項 λ ∥ z ∥ 2 2 \lambda\|z\|_2^2 λz22?則懲罰模型的復雜性,以避免過擬合。

優化的目標是通過尋找 θ , ? , z \theta,\phi,z θ,?,z最小化能量函數 E w E_w Ew?,可表達為以數據分布為約束的復值拉格朗日優化問題:
L ( θ , ? , z ; x , y , α ) = E w ( x , y , z ; θ ) ? α ( h ( x , y , z ; θ , ? ) ? c ) L(\theta,\phi,z;x,y,\alpha)=E_w(x,y,z;\theta)-\alpha(h(x,y,z;\theta,\phi)-c) L(θ,?,z;x,y,α)=Ew?(x,y,z;θ)?α(h(x,y,z;θ,?)?c)

其中 L ( θ , ? , z ; x , y , α ) L(\theta,\phi,z;x,y,\alpha) L(θ,?,z;x,y,α)是拉格朗日方程, α \alpha α為拉格朗日乘子,強制滿足約束 h ( x , y , z ; θ , ? ) = c h(x,y,z;\theta,\phi)=c h(x,y,z;θ,?)=c h ( x , y , z ; θ , ? ) h(x,y,z;\theta,\phi) h(x,y,z;θ,?)為約束函數,其參數為 θ \theta θ ? \phi ? c c c為函數 h h h的目標值(常數)。

JEPA的訓練包含高階優化方法,考慮二階導數以保證收斂:
θ t + 1 = θ t ? η ? θ 2 L ( θ t , ? t , z t ; x , y , α t ) \theta_{t+1}=\theta_t-\eta\nabla_\theta^2L(\theta_t,\phi_t,z_t;x,y,\alpha_t) θt+1?=θt??η?θ2?L(θt?,?t?,zt?;x,y,αt?)

其中 θ t + 1 \theta_{t+1} θt+1?為更新后的參數向量, η \eta η為學習率; η ? θ 2 L ( θ t , ? t , z t ; x , y , α t ) \eta\nabla_\theta^2L(\theta_t,\phi_t,z_t;x,y,\alpha_t) η?θ2?L(θt?,?t?,zt?;x,y,αt?)為拉格朗日函數 L L L θ \theta θ二階偏導數的Hessian矩陣。

考慮到 z z z的高維特性和多模態分布的可能性,JPEA可采用變分近似方法處理后驗 p ( z ∣ x , y ; θ ) p(z|x,y;\theta) p(zx,y;θ),得到變分下界:
log ? p ( y ∣ x ; θ , ? ) ≥ E q ( z ∣ x ; ψ ) [ log ? p ( y ∣ x , z ; θ ; ? ) ] ? K L [ q ( z ∣ x ; ψ ) ∣ ∣ p ( z ∣ x ; θ ) ] \log p(y|x;\theta,\phi)\geq\mathbb E_{q(z|x;\psi)}[\log p(y|x,z;\theta;\phi)]-KL[q(z|x;\psi)||p(z|x;\theta)] logp(yx;θ,?)Eq(zx;ψ)?[logp(yx,z;θ;?)]?KL[q(zx;ψ)∣∣p(zx;θ)]

其中 log ? p ( y ∣ x ; θ , ? ) \log p(y|x;\theta,\phi) logp(yx;θ,?)為數據 y y y在給定 x x x和模型參數 θ , ? \theta,\phi θ,?時的對數似然, E q ( z ∣ x ; ψ ) [ ? ] \mathbb E_{q(z|x;\psi)}[\cdot] Eq(zx;ψ)?[?]為關于分布 q ( z ∣ x ; ψ ) q(z|x;\psi) q(zx;ψ)的期望, K L [ q ( z ∣ x ; ? ) ∣ ∣ p ( z ∣ x ; θ ) ] KL[q(z|x;\phi)||p(z|x;\theta)] KL[q(zx;?)∣∣p(zx;θ)]為變分分布 q ( z ∣ x ; ψ ) q(z|x;\psi) q(zx;ψ)和先驗分布 p ( z ∣ x ; θ ) p(z|x;\theta) p(zx;θ)的KL散度。

該不等式用于最大化ELBO,以近似真實后驗分布。

2. 自動駕駛中的世界模型

在這里插入圖片描述
目前,自動駕駛中的世界模型主要關注場景生成與規劃控制。

A. 駕駛場景生成

自動駕駛中的數據獲取成本高(采集和標注),且需要考慮法律和安全。世界模型通過自監督學習,可利用大量無標簽數據來提高模型性能。使用世界模型生成駕駛場景可豐富訓練數據集,使自動駕駛系統具備應對罕見和復雜場景的魯棒性。

典型模型包括使用視覺信息的GAIA-1、DriveDreamer、WorldDreamer等。

  • ADriver-I使用多模態大型語言模型(MLLM)和視頻隱擴散模型(VDM)。前者生成控制信號,后者以之作為提示,預測后續視頻輸出。

除了視覺信息外,自動駕駛場景還包括了大量的關鍵物理數據。

  • MUVO使用激光雷達點云和視頻輸入,預測未來的視頻、點云和3D占用網格。其中3D占用網格可直接用于下游任務。
  • OccWorld和Think2Drive直接使用3D占用信息作為系統輸入,來預測環境的演化并規劃車輛行為。

可見,世界模型正在逐步走向多模態方法。

B. 規劃與控制

典型模型包括MILE(基于模型的模仿學習)、SEM2等。

考慮到多數自動駕駛汽車有多個攝像機:

  • Drive-WM是第一個多視圖世界模型。
  • UniWorld使用多幀點云融合作為4D占用標簽,可進行運動預測和語義場景補全等任務。
  • TrafficBots使用條件變分自編碼器(CVAE)學習每個智能體的個性。

C. 小結

場景生成任務不僅包括視頻生成,還包括了場景信息補全和3D占用預測等任務。

控制任務包括基于傳感器輸入的和基于提示詞的,等等。此外還可與場景生成任務結合,以提高自動駕駛系統的可解釋性。

比較不同世界模型的性能有較大挑戰,因為任務、驗證集和評估準則不同。

3. 挑戰與未來展望

A. 技術和計算挑戰

a)長期可擴展記憶整合。當代模型面臨著梯度消失或災難性遺忘等問題,嚴重限制了其長期記憶能力。Transformer雖然可通過自注意力訪問歷史數據,但其處理長序列時的可擴展性和速度有限。

考慮該問題的模型:TRANSDREAMER、S4WM。

未來的研究可能多管齊下,包括增強網絡容量、整合復雜的外部記憶模塊、探索迭代學習策略等。

b)仿真到真實世界的泛化。目前的仿真平臺仍不能完全模擬真實世界的不可預測性和多樣性。這種不一致性體現在物理屬性差異、傳感器噪聲、不可預見事件的發生上。

需要改進仿真技術,或開發對真實數據和仿真數據之間的差異具有魯棒性的模型;也可整合先進傳感融合技術、探索新的學習策略(如元學習或強化學習)來使世界模型能夠動態適應真實世界駕駛的復雜性。

c)理論和硬件突破。目前的世界模型更擅長生成任務而非純預測任務,這可能是模型無法完美模仿真實世界的演化(包括平衡確定性和隨機性)。

此外,通過傳感器和編碼器后,信息會損失很多細節。一方面,需要對多模態信息的無損采集和處理;另一方面,處理和恢復細節對存儲和計算能力提出了挑戰。

B. 倫理和安全挑戰

  • 決策可解釋性。
  • 隱私和數據完整性。
  • 責任和標準。

C. 未來展望

  • 連接人類直覺和AI精確性。世界模型會向著認知協同駕駛框架發展,將人類駕駛員的的直覺決策能力和AI的精度可靠性結合。
  • 使車輛與城市生態協調

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/87998.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/87998.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/87998.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring Cloud Config(微服務配置中心詳解)

關鍵詞&#xff1a;Spring Cloud Config、配置中心、遠程倉庫、動態刷新、加密解密 ? 摘要 在微服務架構中&#xff0c;隨著服務數量的增加&#xff0c;統一管理各服務的配置信息變得尤為重要。傳統的本地配置文件方式難以滿足多環境、多實例、集中化的需求。 Spring Cloud …

【Note】《深入理解Linux內核》 第二十章:深入理解 Linux 程序執行機制

《深入理解Linux內核》 第二十章&#xff1a;深入理解 Linux 程序執行機制&#xff08;Program Execution&#xff09;關鍵詞&#xff1a;exec 系列系統調用、可執行文件格式&#xff08;ELF&#xff09;、用戶地址空間、內存映射、動態鏈接、棧初始化、入口點、共享庫、內核態…

服務器如何配置防火墻規則以阻止惡意流量和DDoS攻擊?

防火墻是保護服務器免受惡意流量和 DDoS 攻擊的第一道防線。通過合理配置防火墻規則&#xff0c;可以有效阻止惡意訪問、限制不必要的流量&#xff0c;并減少攻擊對服務器的影響。以下是配置防火墻規則的全面指南&#xff0c;包括基礎規則設置、防御 DDoS 攻擊的高級策略和最佳…

持續性投入是成就自我價值的關鍵一環

概述 時間&#xff0c;的唯一公平之處就是給你我的長度是相同的&#xff0c;這也是它唯一公平&#xff0c;也是不公平的地方。 所謂的公平&#xff0c;就是不患寡而患不均中所說的平均。 所謂的不公平就是&#xff0c;相同時間內我們彼此對應的標價不同&#xff0c;延伸到后…

使用allegro在BoardGeometry的Silkscreen_Top層畫出圖案

目錄 1. 圖形及圖形放置顯示2. 繪制 1. 圖形及圖形放置顯示 繪制完成圖案&#xff1a; 導出后圖案&#xff1a; 2. 繪制 圖層選中&#xff1b; 畫圓型&#xff1b; 半徑3.5mm&#xff0c;原點生成&#xff1b; 在圖案中挖空&#xff1b; 用指令走線&#xff1a; …

Kotlin 協程:Channel 與 Flow 深度對比及 Channel 使用指南

前言 在 Kotlin 協程的異步編程世界里&#xff0c;Channel 和 Flow 是處理數據流的重要工具&#xff0c;它們有著不同的設計理念與適用場景。本文將對比二者功能與應用場景&#xff0c;詳細講解 Channel 的使用步驟及注意事項 。 一、Channel 與 Flow 的特性對比 Channel 是協程…

MYsql主從復制部署

MySQL 主從復制是將主數據庫的變更自動同步到從數據庫的過程&#xff0c;常用語讀寫分離、高可用性和數據備份。 1.環境準備 確保主從服務器已安裝相同版本的 MySQL&#xff0c;并能通過網絡互相訪問。 # 檢查 MySQL 版本 mysql -V 2.配置主服務器 &#xff08;1&#xff0…

安燈呼叫看板如何實現汽車生產異常秒級響應

在汽車零部件工廠的靜置車間&#xff0c;傳統生產管理依賴人工巡檢與紙質記錄&#xff0c;存在效率低、信息滯后、異常響應慢等問題。某汽車廠曾因物料靜置時間未及時監控&#xff0c;導致批次混料&#xff0c;損失超10萬元。而安燈呼叫看板系統的引入&#xff0c;通過實時狀態…

構造函數注入在spring boot 中怎么使用詳解

我們來詳細講解一下在 Spring Boot 中如何使用構造函數注入&#xff0c;并通過一個完整的、可運行的例子來演示。 構造函數注入是 Spring 官方最推薦的依賴注入方式&#xff0c;因為它能保證對象的不可變性和依賴的完整性。 核心理念 在 Spring Boot 中使用構造函數注入非常簡單…

2025.6.30-2025.7.06第26周:第一次參加頭馬演講俱樂部

現在是周一早上6:23&#xff0c;我開始寫上周的周總結。 3件超出預期的事 參加頭馬俱樂部絕對是最超出預期的&#xff0c;使得這個周末格外的快樂簡歷的第一版終于改完了&#xff0c;花了好長的時間&#xff0c;其中有一天心情還很蕩&#xff0c;因為&#xff0c;我想&#x…

2025使用VM虛擬機安裝配置Macos蘋果系統下Flutter開發環境保姆級教程--下篇

其實如何安裝VM,如何安裝MACOS網上的教程很多,我只是結合我的體驗重新整理了一次,接下來才進入本教程最核心的部分,Flutter開發環境的配置部分。、一.配置前準備 主要是準備相應的工具包,以及其他虛擬機設置1.工具包 工具包的版本也可以自行配置,我這主要是我使用的是F…

QSPI、OSPI與FSMC的區別與內存映射分析

QSPI、OSPI與FSMC的區別與內存映射分析 基本概念與區別 1. FSMC (靈活靜態存儲控制器) 接口類型&#xff1a;并行接口&#xff0c;通常8/16位數據總線總線標準&#xff1a;傳統并行總線協議速度&#xff1a;相對較低&#xff0c;通常最高約100MHz應用場景&#xff1a;SRAM、NOR…

系統思考與心智模式探索

成長的真正障礙&#xff0c;不是能力的不足&#xff0c;而是看待問題的局限。 在復雜多變的商業環境中&#xff0c;我們往往習慣于解決“眼前”的問題&#xff0c;卻忽視了深藏背后的系統性障礙。我們看到的只是表面的“癥狀”&#xff0c;而真正的根源&#xff0c;卻往往隱藏…

物聯網技術的關鍵技術與區塊鏈發展趨勢的深度融合分析

一、物聯網技術的核心架構與關鍵技術 物聯網技術體系由感知層、網絡層、平臺層、應用層和安全層構成&#xff0c;各層技術協同工作&#xff0c;實現物理世界與數字世界的深度融合。 感知層&#xff1a;物聯網的“感官” 傳感器技術&#xff1a;包括環境傳感器&#xff08;溫度…

針對Exhcnage Server的攻擊防范措施

一、背景介紹最近&#xff0c;安全研究人員揭露了一個名為 NightEagle&#xff08;又名 APT-Q-95&#xff09; 的高級持續性威脅&#xff08;APT&#xff09;組織。這個組織被觀察到利用 Microsoft Exchange 服務器中的零日漏洞鏈 進行攻擊&#xff0c;其主要目標是中國政府、國…

編程基礎:繼承

能幫到你的話&#xff0c;就給個贊吧 &#x1f618; 文章目錄繼承&#xff1a;使用基類成員&#xff1a;前提——派生類必須同樣支持基類成員(組件和功能)示例&#xff1a;動物Animal 有 鰓 和 會飛。則 鳥Bird 不是 Animal&#xff0c;因為Bird雖會飛&#xff0c;卻沒有鰓。魚…

TMC4361A 使用(未驗證)

prompt 我用STM32F103C8T6 來控制 TMC4361A 運動控制芯片 &#xff0c;我配置 STM32F103C8T6 的 SPI1 與 TMC4361A 進行通信&#xff0c;配置 PA4 作為片選線&#xff0c;配置 PA8 作為 RCC_MCO 輸入時鐘輸入到 TMC4361A, 并將其連接到TMC4361A的CLK_EXT引腳。我想控制 TMC4361…

深度剖析:如何解決Node.js中mysqld_stmt_execute參數錯誤

在Node.js后端開發中&#xff0c;使用mysql2等數據庫驅動與MySQL/MariaDB交互時&#xff0c;Incorrect arguments to mysqld_stmt_execute 是一個令人頭疼的錯誤。它通常意味著你傳遞給SQL預處理語句的參數數量與SQL字符串中問號&#xff08;?&#xff09;占位符的數量不匹配。…

Vue3 學習教程,從入門到精通,Vue 3 安裝指南及語法知識點詳解(2)

Vue 3 安裝指南及語法知識點詳解 本文將詳細介紹 Vue 3 的所有安裝方式&#xff0c;并深入講解 Vue 3 的語法知識點。此外&#xff0c;還將提供一些綜合性案例&#xff0c;展示如何綜合運用 Vue 3 的各項功能。一、安裝 Vue 3 的所有方式 Vue 3 提供了多種安裝方式&#xff0c;…

C++基礎復習筆記

一、數組定義 在C中&#xff0c;數組初始化有多種方式&#xff0c;以下是常見的幾種方法&#xff1a; 默認初始化 數組元素未顯式初始化時&#xff0c;內置類型&#xff08;如int、float&#xff09;的元素值未定義&#xff08;垃圾值&#xff09;&#xff0c;類類型調用默認構…