25年2月來自華中理工和百度的論文“”The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey“。
駕駛世界模型 (DWM) 專注于預測駕駛過程中的場景演變,已成為實現自動駕駛一個有前途的范例。這些方法使自動駕駛系統能夠更好地感知、理解和與動態駕駛環境交互。本綜述全面概述 DWM 的最新進展。根據預測場景的模態對現有方法進行分類,并總結它們對自動駕駛的具體貢獻。此外,還回顧 DWM 研究范圍內針對不同任務的高影響力數據集和各種指標。最后,討論當前研究的潛在局限性并提出未來的方向。
世界模型旨在根據過去的觀察和行動預測未來的觀察 [Ha & Schmidhuber,2018]。在自動駕駛中,現實世界駕駛場景的廣闊視野和高度動態性帶來獨特的挑戰 [Gao et al.,2024a]。盡管如此,駕駛世界模型 (DWM) 通過促進準確的場景演變預測,在應對復雜環境中發揮著至關重要的作用。最近,DWM 因其在確保安全可靠的自動駕駛方面發揮的重要作用而受到越來越多的關注。
如圖所示,DWM 通常涉及預測場景演變,即根據歷史觀察生成未來場景。在此基礎上,大多數方法可以進一步控制場景演變以符合給定條件或輸出由觀察和預測產生的響應。由于自動駕駛需要處理多種數據類型,DWM 已導致預測不同模態場景的變型。一些方法利用 2D 圖像中的語義信息 [Hu et al., 2023; Wang et al., 2024b],而另一些方法則學習 3D 點云中的空間幾何和精確動態 [Zhang et al., 2024b; Yang et al., 2024c] 或占用情況 [Zheng et al., 2024a; Wang et al., 2024a]。此外,本文系統地歸類為無場景范式的一些方法,優先考慮潛狀態 [Li et al., 2024b; Li et al., 2024a] 或多智體行為 [Zhang et al., 2023; Hamdan and Gu ?ney, 2024],而不是屬于詳細場景的范式。
實現自動駕駛的道路上將面臨諸多挑戰,例如高昂的數據采集成本、動態環境的復雜性以及罕見??情況的管理等。DWM 可以通過預測未來狀態來改進規劃 [Yang et al., 2024b; Wang et al., 2024d]、使用多樣化的合成數據來豐富訓練數據集 [Zyrianov et al., 2024; Yang et al., 2024d],以及通過可擴展的預訓練來增強下游任務 [Gao et al., 2024a; Min et al., 2024],從而為這些問題提供切實可行的解決方案。這些發展凸顯 DWM 在該領域的多功能性和有效性。
駕駛世界模型 (DWM) 的預測場景涵蓋多種模態,包括圖像、點云和占用率,從而帶來獨特的優勢和挑戰。最近的進展越來越側重于利用互補的多傳感器數據來發揮各個模態的優勢,同時減輕其固有的局限性。此外,無場景范式探索潛空間內的預測或專注于對復雜的多智體交互進行建模。下表概述最近的方法:
2D 場景演化
駕駛世界模型 (DWM) 利用先進的生成技術(例如自回歸Transformer和擴散)來預測逼真的 2D 場景演化,同時確保物理合理性。
GAIA-1 [Hu et al., 2023] 率先將場景演化預測制定為下一個token預測任務,并利用擴散解碼器系統地捕獲駕駛場景中的時空動態和高級結構。相比之下,DriveDreamer [Wang et al., 2024b] 推進用于多模態控制的條件擴散框架,并將 DWM 范式擴展到合成數據生成。在這些基礎方法的基礎上,后續的 DWM 研究主要集中于提高場景演化預測的保真度、一致性和可控性。
生成場景的保真度,對于確保真實世界駕駛場景的物理模擬至關重要。Vista [Gao et al., 2024a] 采用穩定的視頻擴散并引入損失函數來捕捉動態行為,同時保持結構完整性,從而實現高分辨率和高保真度的場景生成。此外,它通過合并多個參考幀來確保合理的動態。
DWM 預測的場景演變,應準確反映 3D 世界,確保每個目標都具有合理的 3D 位置和空間關系,同時整個場景表現出空間連續性。通過分解聯合建模來預測以相鄰視圖為條件的中間視圖,Drive-WM [Wang et al., 2024d] 顯著提高視圖之間的一致性。此外,DrivePhysica [Yang et al., 2024d] 引入了 3D 邊框坐標條件,以增強對空間關系的理解,增強空間一致性并提高對遮擋結構的理解。另一方面,WoVoGen [Lu et al., 2024] 預測明確的世界體來指導多視角視頻生成,確保世界內和傳感器間的一致性。同樣,NeMo [Huang et al., 2024] 和 GEM [Hassan et al., 2024] 將 3D 預測任務納入其框架,而 BEVWorld [Zhang et al., 2024c] 通過集成多傳感器數據輸入擴展這些努力。
時間一致性在使 DWM 能夠有效捕捉場景的演變動態方面起著關鍵作用。確保預測序列中幀之間的連貫過渡對于反映現實場景演變至關重要。最近的進展通過架構創新解決了這一挑戰。例如,InfinityDrive [Guo et al., 2024] 引入一個多分辨率時空建模框架,可在訓練期間逐步擴展時間感受野。通過集成旨在保留長距離時間依賴性的記憶機制,這種方法得到了進一步增強。與此同時,DrivingWorld [Hu et al., 2024] 通過提出一套技術來解決自回歸方法中的時間連貫性問題,包括時間-覺察 token化、下一狀態預測、隨機 token 丟棄和平衡注意策略。這些創新共同顯著提高在動態場景理解中建模時間一致性的能力。
合理的 DWM 會在生成未來場景時適應特定要求。如上表所示。 控制條件大致分為兩類:1)低級條件,例如動作(自車輛信息)、軌跡(坐標或位移)和布局(目標位置),為自車輛運動和目標定位設定精確的規范。2)高級條件,例如文本(命令或描述)和目的地(車輛到達地點),不僅需要實現指定的目標,還需要創建合乎邏輯的中間步驟。一些研究有效地整合低級或高級控制條件來生成未來場景,產生合理的輸出響應,如駕駛動作、未來軌跡和文本。其中,GEM [Hassan et al., 2024] 在平衡兩種條件類型方面表現出色,制作的駕駛視頻嚴格遵循指定的軌跡,同時實現向期望位置的自然移動。相反,DriveDreamer-2 [Zhao et al., 2024b] 利用大語言模型從高級文本輸入中得出各種低級條件,從而顯著增強生成圖像的多樣性,并提供用戶友好的生成過程。注:控制條件和輸出響應也廣泛應用于 3D和無場景范式。
總之,DWM 采用生成技術來合成具有時空一致性和物理合理性的逼真 2D 駕駛場景。這些框架有效地提高照片級真實感、可控性和穩定性,從而能夠可靠地預測場景演變。
3D 場景演化
3D 數據表示本質上保留結構一致性、詳細的幾何信息和精確的空間關系,使預測 3D 場景演化成為駕駛世界模型 (DWM) 的重要任務。在實踐中,通常使用兩種主要類型的 3D 數據,即占用和點云。
占用場景演化。占用提供幾何一致的體建模和結構化空間編碼,這使得占用特別適合建模場景演化并被廣泛采用于各種方法中。
OccWorld [Zheng et al., 2024a] 使用時空Transformer從歷史觀察中生成未來場景和自我姿勢 token,并通過空間混合實現全局一致的場景預測。隨后,OccLLaMA [Wei et al., 2024] 集成多模態大語言模型作為核心架構,而 RenderWorld [Yan et al., 2024] 分別對空氣網格和非空氣網格進行token化,以進行細粒度的 3D 場景建模。基于擴散的方法進一步提高可控性和生成質量。OccSora [Wang et al., 2024a] 可以在給定任意軌跡的情況下預測 4D 占用場景演變。DOME [Gu et al., 2024] 采用類似 VAE 的連續token化器來保存復雜的空間信息。注意到占用率的高計算要求,最近的方法試圖提高效率。DFIT-OccWorld [Zhang et al., 2024a] 僅預測動態體素流,同時通過姿勢變換計算靜態體素。類似地,GaussianWorld [Zuo et al., 2024] 明確地在高斯空間中模擬場景演變,關注變化場景而不是重建整個場景。
由于無法直接從傳感器獲得占用率,因此從圖像中重建占用率至關重要。DWM 將此 3D 預測任務擴展到 4D,即時空預測。一種直接的方法是集成 Img2Occ 模塊,這可能會導致錯誤的累積。然而,最近的進展旨在直接從 2D 輸入推斷 3D 世界的時空演變,從而實現語義、3D 結構和時間動態的協同學習。DriveWorld [Min et al., 2024] 傳播靜態空間上下文,同時預測場景中的動態時間變化。通過從多視角視頻中學習時空表征,它實現了精確的占用預測。此外,Drive-OccWorld [Yang et al., 2024b] 將規劃器與 DWM 相結合,利用運動-覺察 BEV 序列作為中介,直接從多視角圖像中預測占用和流量。這種整合為規劃器提供豐富的先驗知識,從而提高規劃過程的安全性和準確性。
除了從圖像中重建占用外,一些方法還從點云中獲取占用偽標簽,從而實現自監督訓練。例如,UnO [Agro et al., 2024] 通過從未來的激光雷達掃描中采樣正例和負例來生成連續占用場,從而實現對點云的自監督學習。類似地,UniWorld [Min et al., 2023] 和 NeMo [Huang et al., 2024] 通過體素化點云來生成占用偽標簽。UniWorld 融合多幀點云作為偽標簽并學習時空動態,而 NeMo 進一步集成圖像預測和運動流模塊以增強體表征,提高規劃性能。
點云場景演化。點云通常由激光雷達傳感器捕獲,可提供 3D 環境的精確幾何表示。然而,它們的稀疏和非結構化性質對生成任務構成重大挑戰,使有效利用它們進行場景建模和預測變得復雜。Copilot4D [Zhang et al., 2024b] 采用 VQ-VAE token化器來解決復雜的觀察問題,并通過利用改進的離散擴散采用并行推理加速方法。此外,LidarDM [Zyrianov et al., 2024] 通過結合靜態場景和移動目標來生成布局-覺察的點云視頻。
視覺點云預測不是直接輸入點云,而是試圖僅使用歷史視覺圖像來預測未來的點云演變。ViDAR [Yang et al., 2024c] 提出將視覺點云預測作為一項可擴展的預訓練任務,并探索語義、3D 結構和時間動態的整合。最近,HERMES [Zhou et al., 2025] 應運而生,將視覺點云預測與語言任務相結合,以增強生成和場景理解。盡管 ViDAR 使用了更長的歷史范圍和先進的潛渲染模塊,但它的表現仍明顯優于 ViDAR。
多傳感器數據融合,已成為自動駕駛系統發展的關鍵趨勢,因為它能夠將二維數據的高分辨率細節與三維數據的精確空間幾何集成在一起。MUVO [Bog-doll et al., 2023] 將多模態數據組合成與傳感器無關的幾何表示,從而通過圖像、占用率和點云實現準確的場景建模和演化預測。同樣,BEVWorld [Zhang et al., 2024c] 將圖像和點云合并為統一的 BEV 表征,并通過擴散預測未來的表示,隨后使用基于渲染的方法重建多傳感器數據,從而實現自監督學習。相比之下,HoloDrive [Wu et al., 2024] 采用兩個獨立的模型并將它們對齊以聯合生成多攝像頭數據和 激光雷達數據,確保二維和三維空間之間的一致性。
總體而言,DWM 將生成技術擴展到 3D 場景演化,利用占用和結構化表示來確保空間一致性,同時集成生成技術進行動態預測。它們通過多傳感器融合增強對場景的理解,從而能夠更準確、更穩健地預測復雜的場景演化。
無場景范式
除了常用的圖像、點云和占用預測外,一些方法還探索沒有詳細場景的預測。例如,實時自動駕駛系統優先??考慮潛世界狀態轉換,而行為模擬框架則強調以智體為中心的運動動力學。本文系統地將這些歸類為無場景范式。
潛狀態。與原始感官數據相比,潛狀態提供一種有效的表示,可以無縫地集成到決策中并增強在不同駕駛環境中的泛化能力。基于強化學習的規劃器 [Li et al., 2024a; Zeng et al., 2024; Popov et al., 2024; Wang et al., 2025] 經常利用潛 DWM,它提供準確而密集的獎勵、高效的并行訓練和可解釋的輸出。監督學習也受益于預測潛狀態。例如,LatentDriver [Xiao et al., 2024] 將預測的潛狀態和可能的動作建模為混合分布,捕捉決策的隨機性,而 LAW [Li et al., 2024b] 利用自監督的潛特征來增強端到端驅動并提高效率。
多智體行為。多智體行為預測側重于預測場景中所有智體的運動。TrafficBots [Zhang et al., 2023] 探索機器人智體的行為真實性。根據其相應的目的地,每個智體都會學習獨特的個性并從 BEV 角度預測動作。同樣,CarFormer [Hamdan and Gu ?ney,2024] 將每個目標建模為自監督的 slot 表征,其中隱含駕駛所需的信息。相比之下,AdaptiveDriver [Vasudevan et al.,2024] 預測周圍智體的獨特行為模式,隨后展開相應的 DWM 來模擬他們的行為。
無場景范式超越 2D 和 3D 表征。潛狀態可提高效率和泛化能力,而基于多智體行為的模型,可捕獲交互以降低風險。這些方法共同提高自動駕駛系統的多功能性。
駕駛世界模型 (DWM) 是一種自監督的數據驅動方法,經過訓練可以預測未來場景的演變,其中一些方法只需要極少的注釋。對生成任務的廣泛研究使 DWM 能夠充當模擬器并生成數據。此外,DWM 可以通過直接參與決策過程和訓練流程來增強自動駕駛系統的功能。
模擬
自自動駕駛研究的早期階段以來,模擬一直是訓練和評估駕駛模型的關鍵工具,并取得重大成功 [Dosovitskiy,2017]。然而,傳統的模擬器面臨著一些挑戰,包括有限的多樣性以及模擬域與現實世界之間的差距。DWM 憑借其數據驅動的生成模擬功能,有可能解決這些挑戰。如圖 (a) 所示,DWM 可以根據各種輸入形式模擬駕駛過程,忠實地遵循所提供的指令。這些條件包括但不限于動作和字幕,使模擬器更加用戶友好,同時賦予其更大的自主權來生成精細的結構和多樣化的場景細節。
DWM 在保真度、一致性和可控性方面取得顯著進步,這對于可靠的現實世界模擬至關重要。 Vista [Gao et al., 2024a] 提供高保真度和高度可控的視頻模擬,從而實現動作評估。在相關開發中,GEM [Hassan et al., 2024] 進一步提高模擬質量,并能夠精確控制目標動態、軌跡和人體姿勢。同樣,一些研究試圖模擬 3D 空間中的駕駛場景演變 [Zyrianov et al., 2024; Wang et al., 2024a; Gu et al., 2024],并顯示出令人鼓舞的結果。除了視覺真實感之外,最近的研究還強調動作保真度評估,新提出的評估框架 ACT-Bench [Arai et al., 2024] 就是一個例證,它引入一個強大的基線框架,展示與動作指令的緊密一致性。作為補充,TrafficBots [Zhang et al., 2023] 研究機器人狀態的行為真實性,進一步豐富模擬領域。
基于強化學習的方法,尤其受益于基于 DWM 模擬的靈活性。通過在潛狀態空間中展開,Think2Drive [Li et al., 2024a] 無需與笨重的物理模擬器交互即可實現高效的并行訓練。隨后,Imagine-2-Drive [Garg and Krishna, 2024] 利用高保真 DWM 來模擬和評估多步軌跡,顯著提高規劃性能。
DWM 將高保真生成能力與可靠的可控性相結合,不僅可以彌合模擬域與現實世界域之間的差距,同時增強模擬場景的多樣性,還可以實現并行交互。這些進步極大地推動自動駕駛模擬的發展。
數據生成
與優先考慮忠實再現條件的模擬相比,數據生成強調數據的多樣性和保真度,旨在實現更廣泛、更全面的場景覆蓋,同時縮小與現實世界數據的差距。上圖 (b) 表明,DWM 可以使用相同的注釋生成多樣化的駕駛視頻,從而顯著提高數據注釋的多樣性。
DWM 已被證明可有效地利用合成數據擴充數據集 [Wang et al., 2024b; Zhao et al., 2024b; Zyrianov et al., 2024; Yang et al., 2024d]。例如,DrivePhysica 可以合成無限的高保真和多樣化的駕駛視頻,而 LidarDM 可以生成高質量的激光雷達數據。值得注意的是,HoloDrive [Wu et al., 2024] 展示合成對齊多模態數據的潛力。此類合成數據可促進下游任務(例如 3D 檢測),從而展示出 DWM 的可控性和高生成質量。雖然這些方法通常依賴于真實世界的注釋來合成數據,但最近的進展 [Zhao et al., 2024a; Ni et al., 2024] 還合成具有新軌跡的駕駛視頻,從而緩解真實世界數據集中的分布不平衡問題。
鑒于目前高質量自動駕駛數據集規模的限制,DWM 揭示利用合成技術獲取大量高質量駕駛數據的潛力,從而支持自動駕駛研究的進步。
預期駕駛
預期駕駛強調通過準確預測未來狀態來增強車輛的規劃能力。通過預測周圍智體的行為和環境動態,自我主動探索不同動作的結果,從而提高復雜駕駛場景中的安全性和適應性。
如上圖 ? 所示,典型的預期駕駛方法涉及利用 DWM 預測多種潛動作的結果。然后評估這些預測以優化最終行動。例如,Drive-WM [Wang et al., 2024d] 將 DWM 預測與獎勵函數相結合以選擇最佳軌跡,而 Drive-OccWorld 將 BEV 嵌入引入規劃器以進行進一步細化。同時,ADriver-I [Jia et al., 2023] 結合多模態大語言模型和視頻擴散模型,用于聯合預測視覺-動作(描述自-車信息的圖像和文本)對,顯示出長期規劃的潛力。一些方法進一步將預測和規劃整合到一個統一的模型中,在提供更大靈活性的同時實現顯著的性能 [Wei et al., 2024; Chen et al., 2024; Hu et al., 2024]。
鑒于準確的預測可以提高駕駛性能,另一方面,限制預測以與未來的觀察保持一致也被證明是有效的 [Li et al., 2024b; Popov et al., 2024]。此外,AdaWM [Wang et al., 2025] 使用預測狀態和未來狀態之間的差異來指導微調,提高對陌生環境的適應性。
預期駕駛的成功表明,DWM 不僅可以通過模擬和數據生成間接增強自動駕駛,還可以積極參與決策和優化過程,實現預測和規劃的綜合效果。
4D 預訓練
預訓練已在多種方法中得到實證驗證。然而,傳統的預訓練方法往往忽略 4D 動態,而這對于自動駕駛至關重要。DWM 的目標是預測場景演變,這本身就非常適合自監督學習和大規模預訓練。如上圖 (d) 所示,DWM 利用大量未標記的多模態數據進行 4D 預訓練,從而增強各種下游駕駛任務的性能。
大多數現有任務都強調以視覺為中心的預訓練,旨在通過從多視圖圖像數據中學習 4D 場景演變來捕捉空間和動態感知。為了利用大規模未標記的圖像點云對,UniWorld [Min et al., 2023] 從點云中生成占用偽標簽以進行 4D 預訓練。為了消除對偽標簽的依賴,ViDAR [Yang et al., 2024c] 引入一種基于視覺點云預測的新方法。通過提出潛渲染算子,學習 BEV 表征的判別性 3D 幾何,得以保留,從而確保與下游任務的無縫集成。此外,NeMo [Huang et al., 2024] 結合 RGB 重建和占用預測來學習 4D 體表征,以共同維護 3D 幾何和語義信息。為了捕捉時空動態,DriveWorld [Min et al., 2024] 分別處理時間動態和靜態場景。此外,還采用任務提示來適應各種下游任務。
最近的方法還探索以點云為中心的預訓練。 UnO [Agro et al., 2024] 通過預測連續的 4D 占用場(從未來點云生成的新型偽標簽)來學習幾何結構、動態和語義。相比之下,AD-L-JEPA [Zhu et al., 2025] 通過重建掩碼嵌入來執行預訓練,從而實現更簡單的實現和增強的學習表征。最后,BEVWorld [Zhang et al., 2024c] 探索對多傳感器數據的預訓練,將圖像和點云編碼為統一的 BEV 表征。
總的來說,DWM 通常通過自監督學習進行 4D 預訓練,捕捉時空動態,減少對注釋的依賴,并在廣泛的任務中實現性能改進,從而為自動駕駛的進步鋪平道路。
鑒于缺乏駕駛世界模型 (DWM) 的標準化基準,必須全面了解現有資源和評估方法,以推動該領域的進步。
自動駕駛的發展在很大程度上依賴于涵蓋多樣化和全面場景的高質量數據集。在下表中,回顧自動駕駛研究中影響最大的數據集,強調它們的規模和多樣性。值得注意的是,DrivingDojo [Wang et al., 2024c] 是專為訓練具有復雜駕駛動態的駕駛世界模型而設計的。
在自動駕駛的背景下,駕駛世界模型 (DWM) 主要使用基于視頻生成的方法進行訓練,并應用于各種與駕駛相關的任務。這些任務的多樣性使得單一指標難以全面評估所有研究中的模型性能。因此,該領域的研究人員根據所處理的特定任務和領域選擇專門的指標。下表概述廣泛使用的指標及其對應含義。
這些指標對各種 DWM 進行深入評估,指導進一步的研究。然而,某些方面,例如一致性和可控性,仍未得到充分探索。為了解決這些限制,一些研究提出新的指標。例如,為了評估可控性,一種廣泛采用的方法是將訓練有素的檢測器在生成數據上的輸出與相應條件進行比較 [Zhao et al., 2024a; Ni et al., 2024] 或使用同一檢測器對真值數據的預測 [Wang et al., 2024d; Hassan et al., 2024; Yang et al., 2024d]。此外,引入關鍵點匹配 (KPM) [Wang et al., 2024d; Lu et al., 2024] 和平均點-到-平面能量 [Zyrianov et al., 2024] 分別評估多攝像機視頻和 LiDAR 視頻的一致性。