原文鏈接:https://ieeexplore.ieee.org/abstract/document/10522953
1. 世界模型的發展
A. 世界模型的結構基礎
世界模型包含4個關鍵組件,以模擬人類連貫的思考和決策過程。
a)感知模塊使用如變分自編碼器(VAE)、掩膜自編碼器(MAE)或離散自編碼器(DAE)等編碼模塊,將環境輸入(如圖像、視頻、文本、控制指令等)處理并壓縮為更易于管理的格式。
b)記憶模塊用于記錄和管理過去、現在和預測的世界狀態及其相關代價或獎勵。
c)控制/行為模塊評估當前狀態和世界模型的預測,以決定實現目標(如最小化代價或最大化獎勵)的最優行為序列。該模塊與世界模型模塊區分開來,使用小參數集獨立訓練。
d)世界模型模塊估計當前世界狀態丟失的信息并預測未來的環境狀態。
模型預測的確定性和真實世界現象的不確定性之間的協調是一個挑戰,因此,可以使用溫度變量引入不確定性,或使用結構化框架(如循環狀態空間模型(RSSM)與聯合嵌入預測結構(JEPA)),以微調預測精度與靈活性的平衡。此外,使用Top-K采樣,以及從CNN模型轉換到Transformer模型(如Transformer狀態空間模型(TSSM)和時空Patchwise Transformer(STPT))通過將世界模型的預測與真實世界的可能發展對齊,能更好地近似真實世界的復雜程度和不確定性。
世界模型中最常用的核心結構是RSSM與JEPA。
1)循環狀態空間模型(RSSM) 在隱空間中實現純正向預測。
上圖c展示了潛在動態模型的3次步進。隨機變量(圈)和確定性變量(方塊)在模型結構內交互——實線表示生成過程,虛線表示推斷過程。
與無法捕捉多種潛在未來的、確定性初始狀態的RNN(圖a)和完全隨機、無信息保留能力的狀態空間模型(SSM,圖b)不同,RSSM將狀態分解為隨機性狀態和確定性狀態,有效利用確定性元素的預測穩定性和隨機性元素的自適應潛力。
記觀測和行為序列為 ( x 0 , a 1 , x 1 , a 2 , x 2 , ? , a T , x T ) (x_0,a_1,x_1,a_2,x_2,\cdots,a_T,x_T) (x0?,a1?,x1?,a2?,x2?,?,aT?,xT?)。觀測到 x t x_t xt?后,智能體進行行為 a t + 1 a_{t+1} at+1?,并接收下一步觀測 x t + 1 x_{t+1} xt+1?。RSSM將觀測和狀態轉移建模為下列生成過程:
p ( x 0 : T ∣ a 1 : T ) = ∫ ∏ t = 0 T p ( x t ∣ z ≤ t , a ≤ t ) p ( z t ∣ z < t , a ≤ t ) d z 0 : T p(x_{0:T}|a_{1:T})=\int\prod_{t=0}^{T}p(x_t|z_{\leq t},a_{\leq t})p(z_t|z_{<t},a_{\leq t})dz_{0:T} p(x0:T?∣a1:T?)=∫t=0∏T?p(xt?∣z≤t?,a≤t?)p(zt?∣z<t?,a≤t?)dz0:T?
其中 z 0 : T z_{0:T} z0:T?為隨機隱狀態。近似后驗定義為:
q ( z 0 : T ∣ x 0 : T , a 1 : T ) = ∏ t = 0 T q ( z t ∣ z < t , a ≤ t , x t ) q(z_{0:T}|x_{0:T},a_{1:T})=\prod_{t=0}^Tq(z_t|z_{<t},a_{\leq t},x_t) q(z0:T?∣x0:T?,a1:T?)=t=0∏T?q(zt?∣z<t?,a≤t?,xt?)
RSSM使用共享的GRU來將 z < t z_{<t} z<t?和 a ≤ t a_{\leq t} a≤t?壓縮為確定性編碼 h t h_t ht?:
h t = G R U ( h t ? 1 , M L P ( c o n c a t [ z t ? 1 , a t ] ) ) h_t=GRU(h_{t-1},MLP(concat[z_{t-1},a_t])) ht?=GRU(ht?1?,MLP(concat[zt?1?,at?]))
隨后,用于計算先驗、似然和后驗的充分統計量:
p ( z t ∣ z < t , a ≤ t ) = M L P ( h t ) p ( x t ∣ z ≤ t , a ≤ t ) = N ( x ^ t , 1 ) x ^ t = D e c o d e r ( c o n c a t [ h t , z t ] ) q ( z t ∣ z < t , a ≤ t , x t ) = M L P ( c o n c a t [ h t , e t ] ) e t = E n c o d e r ( x t ) p(z_t|z_{<t},a_{\leq t})=MLP(h_t)\\ p(x_t|z_{\leq t},a_{\leq t})=\mathcal N(\hat x_t,1)\\ \hat x_t=Decoder(concat[h_t,z_t])\\ q(z_t|z_{<t},a_{\leq t},x_t)=MLP(concat[h_t,e_t])\\ e_t=Encoder(x_t) p(zt?∣z<t?,a≤t?)=MLP(ht?)p(xt?∣z≤t?,a≤t?)=N(x^t?,1)x^t?=Decoder(concat[ht?,zt?])q(zt?∣z<t?,a≤t?,xt?)=MLP(concat[ht?,et?])et?=Encoder(xt?)
訓練目標是最大化證據下界(ELBO):
log ? p ( x 0 : T ∣ a 1 : T ) ≥ E q [ ∑ t = 0 T log ? p ( x t ∣ z ≤ t , a ≤ t ) ? L K L ( q ( z t ∣ z < t , a ≤ t , x t ) , p ( z t ∣ z < t , a ≤ t ) ) ] \log p(x_{0:T}|a_{1:T})\geq\mathbb E_q[\sum_{t=0}^T\log p(x_t|z_{\leq t},a_{\leq t})-\mathcal L_{KL}(q(z_t|z_{<t},a_{\leq t},x_t),p(z_t|z_{<t},a_{\leq t}))] logp(x0:T?∣a1:T?)≥Eq?[t=0∑T?logp(xt?∣z≤t?,a≤t?)?LKL?(q(zt?∣z<t?,a≤t?,xt?),p(zt?∣z<t?,a≤t?))]
2)聯合嵌入預測結構(JEPA) 關注表達空間而非直接且具體的預測。
如圖所示,JEPA通過雙編碼器將輸入 x x x和目標 y y y抽象為表達 s x , s y s_x,s_y sx?,sy?,并使用隱變量 z z z進行預測。其預測過程更簡單,且能保證結果的相關性和可靠性。
JEPA的核心是能量函數 E w ( x , y , z ; θ ) E_w(x,y,z;\theta) Ew?(x,y,z;θ),其捕捉了模型的預測誤差。這里 θ \theta θ表示模型參數。能量函數定義為
E w ( x , y , z ; θ ) = ∥ s y ? P r e d ( s x , z ; ? ) ∥ 2 2 + λ ∥ z ∥ 2 2 E_w(x,y,z;\theta)=\|s_y-Pred(s_x,z;\phi)\|_2^2+\lambda\|z\|_2^2 Ew?(x,y,z;θ)=∥sy??Pred(sx?,z;?)∥22?+λ∥z∥22?
其中,L2范數平方衡量了預測表達與目標表達 s y s_y sy?的歐式距離,即模型預測誤差;預測函數 P r e d Pred Pred將輸入表達 s x s_x sx?和隱變量 z z z映射到目標空間,其參數為 ? \phi ?。正則化項 λ ∥ z ∥ 2 2 \lambda\|z\|_2^2 λ∥z∥22?則懲罰模型的復雜性,以避免過擬合。
優化的目標是通過尋找 θ , ? , z \theta,\phi,z θ,?,z最小化能量函數 E w E_w Ew?,可表達為以數據分布為約束的復值拉格朗日優化問題:
L ( θ , ? , z ; x , y , α ) = E w ( x , y , z ; θ ) ? α ( h ( x , y , z ; θ , ? ) ? c ) L(\theta,\phi,z;x,y,\alpha)=E_w(x,y,z;\theta)-\alpha(h(x,y,z;\theta,\phi)-c) L(θ,?,z;x,y,α)=Ew?(x,y,z;θ)?α(h(x,y,z;θ,?)?c)
其中 L ( θ , ? , z ; x , y , α ) L(\theta,\phi,z;x,y,\alpha) L(θ,?,z;x,y,α)是拉格朗日方程, α \alpha α為拉格朗日乘子,強制滿足約束 h ( x , y , z ; θ , ? ) = c h(x,y,z;\theta,\phi)=c h(x,y,z;θ,?)=c; h ( x , y , z ; θ , ? ) h(x,y,z;\theta,\phi) h(x,y,z;θ,?)為約束函數,其參數為 θ \theta θ和 ? \phi ?, c c c為函數 h h h的目標值(常數)。
JEPA的訓練包含高階優化方法,考慮二階導數以保證收斂:
θ t + 1 = θ t ? η ? θ 2 L ( θ t , ? t , z t ; x , y , α t ) \theta_{t+1}=\theta_t-\eta\nabla_\theta^2L(\theta_t,\phi_t,z_t;x,y,\alpha_t) θt+1?=θt??η?θ2?L(θt?,?t?,zt?;x,y,αt?)
其中 θ t + 1 \theta_{t+1} θt+1?為更新后的參數向量, η \eta η為學習率; η ? θ 2 L ( θ t , ? t , z t ; x , y , α t ) \eta\nabla_\theta^2L(\theta_t,\phi_t,z_t;x,y,\alpha_t) η?θ2?L(θt?,?t?,zt?;x,y,αt?)為拉格朗日函數 L L L對 θ \theta θ二階偏導數的Hessian矩陣。
考慮到 z z z的高維特性和多模態分布的可能性,JPEA可采用變分近似方法處理后驗 p ( z ∣ x , y ; θ ) p(z|x,y;\theta) p(z∣x,y;θ),得到變分下界:
log ? p ( y ∣ x ; θ , ? ) ≥ E q ( z ∣ x ; ψ ) [ log ? p ( y ∣ x , z ; θ ; ? ) ] ? K L [ q ( z ∣ x ; ψ ) ∣ ∣ p ( z ∣ x ; θ ) ] \log p(y|x;\theta,\phi)\geq\mathbb E_{q(z|x;\psi)}[\log p(y|x,z;\theta;\phi)]-KL[q(z|x;\psi)||p(z|x;\theta)] logp(y∣x;θ,?)≥Eq(z∣x;ψ)?[logp(y∣x,z;θ;?)]?KL[q(z∣x;ψ)∣∣p(z∣x;θ)]
其中 log ? p ( y ∣ x ; θ , ? ) \log p(y|x;\theta,\phi) logp(y∣x;θ,?)為數據 y y y在給定 x x x和模型參數 θ , ? \theta,\phi θ,?時的對數似然, E q ( z ∣ x ; ψ ) [ ? ] \mathbb E_{q(z|x;\psi)}[\cdot] Eq(z∣x;ψ)?[?]為關于分布 q ( z ∣ x ; ψ ) q(z|x;\psi) q(z∣x;ψ)的期望, K L [ q ( z ∣ x ; ? ) ∣ ∣ p ( z ∣ x ; θ ) ] KL[q(z|x;\phi)||p(z|x;\theta)] KL[q(z∣x;?)∣∣p(z∣x;θ)]為變分分布 q ( z ∣ x ; ψ ) q(z|x;\psi) q(z∣x;ψ)和先驗分布 p ( z ∣ x ; θ ) p(z|x;\theta) p(z∣x;θ)的KL散度。
該不等式用于最大化ELBO,以近似真實后驗分布。
2. 自動駕駛中的世界模型
目前,自動駕駛中的世界模型主要關注場景生成與規劃控制。
A. 駕駛場景生成
自動駕駛中的數據獲取成本高(采集和標注),且需要考慮法律和安全。世界模型通過自監督學習,可利用大量無標簽數據來提高模型性能。使用世界模型生成駕駛場景可豐富訓練數據集,使自動駕駛系統具備應對罕見和復雜場景的魯棒性。
典型模型包括使用視覺信息的GAIA-1、DriveDreamer、WorldDreamer等。
- ADriver-I使用多模態大型語言模型(MLLM)和視頻隱擴散模型(VDM)。前者生成控制信號,后者以之作為提示,預測后續視頻輸出。
除了視覺信息外,自動駕駛場景還包括了大量的關鍵物理數據。
- MUVO使用激光雷達點云和視頻輸入,預測未來的視頻、點云和3D占用網格。其中3D占用網格可直接用于下游任務。
- OccWorld和Think2Drive直接使用3D占用信息作為系統輸入,來預測環境的演化并規劃車輛行為。
可見,世界模型正在逐步走向多模態方法。
B. 規劃與控制
典型模型包括MILE(基于模型的模仿學習)、SEM2等。
考慮到多數自動駕駛汽車有多個攝像機:
- Drive-WM是第一個多視圖世界模型。
- UniWorld使用多幀點云融合作為4D占用標簽,可進行運動預測和語義場景補全等任務。
- TrafficBots使用條件變分自編碼器(CVAE)學習每個智能體的個性。
C. 小結
場景生成任務不僅包括視頻生成,還包括了場景信息補全和3D占用預測等任務。
控制任務包括基于傳感器輸入的和基于提示詞的,等等。此外還可與場景生成任務結合,以提高自動駕駛系統的可解釋性。
比較不同世界模型的性能有較大挑戰,因為任務、驗證集和評估準則不同。
3. 挑戰與未來展望
A. 技術和計算挑戰
a)長期可擴展記憶整合。當代模型面臨著梯度消失或災難性遺忘等問題,嚴重限制了其長期記憶能力。Transformer雖然可通過自注意力訪問歷史數據,但其處理長序列時的可擴展性和速度有限。
考慮該問題的模型:TRANSDREAMER、S4WM。
未來的研究可能多管齊下,包括增強網絡容量、整合復雜的外部記憶模塊、探索迭代學習策略等。
b)仿真到真實世界的泛化。目前的仿真平臺仍不能完全模擬真實世界的不可預測性和多樣性。這種不一致性體現在物理屬性差異、傳感器噪聲、不可預見事件的發生上。
需要改進仿真技術,或開發對真實數據和仿真數據之間的差異具有魯棒性的模型;也可整合先進傳感融合技術、探索新的學習策略(如元學習或強化學習)來使世界模型能夠動態適應真實世界駕駛的復雜性。
c)理論和硬件突破。目前的世界模型更擅長生成任務而非純預測任務,這可能是模型無法完美模仿真實世界的演化(包括平衡確定性和隨機性)。
此外,通過傳感器和編碼器后,信息會損失很多細節。一方面,需要對多模態信息的無損采集和處理;另一方面,處理和恢復細節對存儲和計算能力提出了挑戰。
B. 倫理和安全挑戰
- 決策可解釋性。
- 隱私和數據完整性。
- 責任和標準。
C. 未來展望
- 連接人類直覺和AI精確性。世界模型會向著認知協同駕駛框架發展,將人類駕駛員的的直覺決策能力和AI的精度可靠性結合。
- 使車輛與城市生態協調。