端到端自動駕駛：挑戰與前沿

End-to-End Autonomous Driving: Challenges and Frontiers

自動駕駛研究社區已見證了越來越多采用端到端算法框架的方法的快速增長，這些方法利用原始傳感器輸入生成車輛的運動規劃，而不是專注于諸如檢測和運動預測等單獨任務。與模塊化流程相比，端到端系統在感知與規劃方面受益于聯合特征優化。這一領域的發展得益于大規模數據集的可用性、閉環評估機制的發展，以及自動駕駛算法在復雜場景中表現能力的日益增長需求。在本綜述中，我們對270余篇論文進行了全面分析，涵蓋了端到端自動駕駛的研究動機、發展路線、方法體系、面臨的挑戰以及未來趨勢。我們深入探討了多個關鍵挑戰，包括多模態、可解釋性、因果混淆、魯棒性和世界模型等。此外，我們還討論了基礎模型和視覺預訓練的最新進展，以及如何將這些技術整合到端到端駕駛框架中。

一、引言

傳統的自動駕駛系統采用模塊化設計策略，即將感知、預測和規劃等各個功能單獨開發并集成到車載系統中。其中，負責生成轉向與加速輸出的規劃或控制模塊，在決定駕駛體驗方面起著至關重要的作用。在模塊化流程中，最常見的規劃方法依賴于復雜的基于規則的設計，但這類方法往往難以應對現實道路中出現的大量復雜情況。因此，越來越多的研究趨勢開始利用大規模數據，嘗試以基于學習的規劃方法作為可行替代方案。

在這里插入圖片描述

我們將端到端的自動駕駛系統定義為一種完全可微分的程序，輸入為原始傳感器數據，輸出為路徑規劃結果和/或底層控制動作。如圖 (a)-(b) 所示，展示了經典方法與端到端方法的區別。傳統方法中，每個模塊的輸出（如目標邊界框和車輛軌跡）被直接輸入到下一個模塊中（虛線箭頭所示）；而端到端方法則在各模塊之間傳播特征表示（灰色實線箭頭）。優化目標可設定為例如規劃性能，整體損失通過反向傳播（紅色箭頭）進行最小化。任務在這一過程中以聯合方式進行全局優化。

在本綜述中，我們對這一新興領域進行了廣泛的回顧。上圖提供了我們工作的整體概覽。我們首先討論了端到端自動駕駛系統的研究動機與發展路線。端到端方法大致可分為模仿學習和強化學習兩類，我們簡要回顧了這兩種方法。接著，我們介紹了用于閉環和開環評估的數據集與基準測試。我們還總結了一系列關鍵挑戰，包括可解釋性、泛化能力、世界模型、因果混淆等問題。最后，我們探討了未來的發展趨勢，包括如何融合最新的數據引擎、大型基礎模型等技術成果。

需要注意的是，本綜述主要從理論角度展開。實際工程中的諸如版本控制、單元測試、數據服務器、數據清洗、軟硬件協同設計等內容，在端到端技術的部署中同樣扮演著關鍵角色。關于這些方面的最新實踐，目前公開信息較為有限。我們呼吁學術界和產業界在未來的交流中能更加開放，共同推動該領域的發展。

（一）端到端系統的動機

在經典的自動駕駛流程中，每個模型作為獨立的組件服務于特定任務（例如，紅綠燈檢測）。這種設計在可解釋性和調試便利性方面具有優勢。然而，也存在以下缺點：
（1）由于各模塊的優化目標不同，例如檢測模塊追求平均精度均值（mAP），而規劃模塊則關注駕駛的安全性和舒適性，整個系統可能無法朝著統一的目標——即最終的規劃/控制任務——進行優化。
（2）隨著流程的推進，各模塊產生的誤差可能會逐步累積，從而導致信息損失。
（3）此外，相較于一個端到端的神經網絡，這種多任務、多模型的部署方式涉及多個編碼器和信息傳遞系統，可能會增加計算負擔，并導致計算資源的次優使用。

與傳統方法相比，端到端的自動駕駛系統具有以下幾個優勢：
（1）最顯著的優勢在于，它將感知、預測和規劃整合為一個可以聯合訓練的模型，實現了整體簡化；
（2）整個系統，包括其中間表示，都是圍繞最終任務進行優化的；
（3）共享的主干網絡可提升計算效率；
（4）基于數據的優化方式，只需擴大訓練資源，就有可能提升系統性能。

需要注意的是，端到端范式并不意味著整個系統必須是一個只輸出規劃/控制結果的“黑盒”。它也可以像圖中(b) 所示那樣，包含中間表示和輸出，類似于傳統方法。事實上，一些最新的系統雖然采用了模塊化設計，但它們通過聯合優化各個組件，從而取得了更優的性能。

（二）路線圖

下圖展示了端到端自動駕駛領域關鍵成果的時間軸式發展路線圖，每一部分都代表了一個重要的范式轉變或性能提升。端到端自動駕駛的歷史可以追溯到 1988 年的 ALVINN 系統，其輸入來自攝像頭的兩個“視網膜”和激光測距儀，一個簡單的神經網絡輸出轉向命令。隨著 GPU 計算時代的到來，NVIDIA 設計了一個原型的端到端卷積神經網絡系統，重新喚起了這一構想。

在這里插入圖片描述

隨著深度神經網絡的發展，在模仿學習和強化學習方面都取得了顯著進展。LBC 等方法提出的策略蒸餾范式通過模仿表現良好的專家策略，大幅提升了閉環性能。為了增強模型的泛化能力，緩解專家策略與學習策略之間的偏差，一些工作在訓練過程中提出了聚合基于當前策略的數據。

2021 年前后是一個重要的轉折點。由于多種傳感器配置可以在合理的計算預算下實現，研究的重點轉向了融合更多模態信息以及采用先進架構（例如 Transformer）以捕捉全局上下文與具代表性的特征。例如 TransFuser 及其多個變體就是典型代表。結合對仿真環境的深入理解，這些設計在 CARLA 基準測試上帶來了顯著的性能提升。為了增強自動駕駛系統的可解釋性與安全性，一些方法引入了輔助模塊以更好地監督學習過程，或采用注意力可視化機制。近期的研究重點還包括生成安全關鍵場景數據、預訓練用于策略學習的基礎模型或主干網絡，以及倡導模塊化的端到端規劃理念。同時，新的 CARLA v2 和 nuPlan 基準測試也被提出，以進一步推動該領域的研究進展。

（三）與相關綜述的比較

我們希望澄清本綜述與先前相關綜述之間的區別。部分早期綜述在端到端系統方面涵蓋了與我們相似的內容，但它們未能覆蓋該領域近期的重要轉變所帶來的新基準和新方法，也較少關注前沿問題和面臨的挑戰。其他綜述則聚焦于該領域的某些具體主題，例如模仿學習或強化學習。相比之下，我們的綜述提供了該領域最新發展的信息，涵蓋了更廣泛的主題，并對關鍵挑戰進行了深入探討。

（四）貢獻

總結來說，本綜述有三個主要貢獻：

a）我們首次對端到端自動駕駛進行了全面分析，涵蓋了高層動機、方法論、基準測試等內容。我們主張不再僅僅優化單一模塊，而是從整體上設計算法框架，最終目標是實現安全且舒適的自動駕駛。
b）我們深入研究了當前方法所面臨的關鍵挑戰。在調研的 270多篇論文中，我們總結了主要方面，并進行了深入分析，包括泛化能力、語言引導學習、因果混淆等主題。
c）我們探討了如何融合大型基礎模型和數據引擎的廣泛影響。我們認為，這一研究方向及其所提供的大規模高質量數據將極大地推動該領域的發展。為了支持未來研究，我們還維護了一個活躍的代碼庫，持續更新相關文獻和開源項目。

二、方法

本節回顧了大多數現有端到端自動駕駛方法背后的基本原理。首先討論了使用模仿學習的方法，并詳細介紹了其中最常見的兩種子類別，即行為克隆和逆最優控制。其次總結了遵循強化學習范式的方法。

（一）模仿學習

模仿學習（Imitation learning，IL），又稱為示范學習（learning from demonstrations），通過模仿專家的行為來訓練智能體學習策略。IL 需要一個包含專家策略 $πβ\pi_\beta$ 收集的軌跡的數據集 $\{\xi_i\}$ ，其中每條軌跡是狀態-動作對的序列。IL 的目標是學習一個與 $πβ\pi_\beta$ 相匹配的智能體策略 $π\pi$ 。

策略 $π\pi$ 可以輸出規劃的軌跡或控制信號。早期的工作通常采用控制信號作為輸出，因為采集更為方便。然而，在不同時間步預測控制量可能導致不連續的操控行為，而且網絡本質上會專注于特定車輛的動力學，從而不利于泛化到其他車輛。另一類方法則預測航路點（waypoints），考慮了相對更長的時間范圍。與此同時，將預測的軌跡轉換為車輛跟蹤所需的控制信號需要額外的控制器，這并非易事，涉及車輛模型和控制算法。由于目前尚未觀察到這兩種方法在性能上的明顯差距，因此本綜述未對其進行顯式區分。

IL 中廣泛應用的一類方法是行為克隆（Behavior Cloning，BC），它將問題簡化為監督學習。另一類是逆最優控制（Inverse Optimal Control，IOC），也稱為逆強化學習（Inverse Reinforcement Learning，IRL），其通過專家示范學習獎勵函數。我們將在下文分別介紹這兩類方法。

1) 行為克隆（Behavior Cloning）：

在行為克隆中，通過在收集到的數據集上以監督學習的方式最小化規劃損失來使智能體的策略匹配專家策略：

$\mathbb{E}_{(s,a)} \, \ell(\pi_\theta(s), a)$

其中， $?(πθ(s),a)\ell(\pi_\theta(s), a)$ 是衡量智能體動作與專家動作之間差距的損失函數。

BC 的早期應用如 ALVINN 等采用端到端神經網絡從攝像頭輸入生成控制信號。后續的研究引入了多傳感器輸入、輔助任務和改進的專家設計，使基于 BC 的端到端駕駛模型可以處理更復雜的城市場景。

BC 的優點在于其簡潔高效，不需要 RL 中至關重要的人工獎勵函數設計。但也存在兩個典型問題：其一是在訓練中將每個狀態視為獨立同分布，從而導致協變量偏移（covariate shift）問題。為此，提出了一些基于策略的數據收集方法如 DAgger 來緩解該問題。其二是因果混淆（causal confusion），即模仿者利用輸入與輸出之間的錯誤相關性進行學習。這兩個問題將在第四章中進一步討論。

2) 逆最優控制（Inverse Optimal Control）：

傳統的 IOC 方法試圖從專家示范中學習未知的獎勵函數 $R (s, a)$ ，該獎勵函數通常表示為一組特征的線性組合。

生成對抗模仿學習（Generative Adversarial Imitation Learning，GAIL）是一類專門的 IOC 方法，通過對抗目標設計獎勵函數以區分專家策略和學習策略，類似于生成對抗網絡（GAN）的思想。近期還有一些工作提出結合感知輔助任務優化代價體積（cost volume）或代價函數（cost function）。由于代價是獎勵的另一種形式，因此我們將這些方法也歸為 IOC 類別。

我們定義成本學習框架如下：端到端方法學習一個合理的成本函數 $c(?)c(\cdot)$ ，并通過軌跡采樣器選出具有最小代價的軌跡 $τ?\tau^*$ ，如下圖所示。
在這里插入圖片描述

關于代價的設計，其表示可以包括鳥瞰圖（BEV）中的學習代價體積、由其他交通參與者未來動作計算的聯合能量，或者一組概率語義占據或自由空間圖層等。另一方面，軌跡通常來源于專家軌跡集或基于運動學模型的參數采樣。隨后采用最大間隔損失來鼓勵專家軌跡具有最小成本，而其他軌跡具有較高成本。

但成本學習方法也面臨挑戰，例如為了獲得更現實的代價，需要使用高精地圖、感知輔助任務和多種傳感器，增加了多模態多任務框架的數據集構建和訓練難度。盡管如此，這類方法顯著增強了端到端系統的安全性與可解釋性，我們認為其是一種具有現實應用前景的設計方式。

（二）強化學習

強化學習（Reinforcement Learning，RL）是一種通過試錯進行學習的方式。深度 Q 網絡（DQN）在 Atari 基準測試中實現人類水平控制的成功，使深度強化學習廣受關注。DQN 訓練一個稱為評論者（critic）或 Q 網絡的神經網絡，該網絡以當前狀態和動作作為輸入，預測該動作的折扣回報（discounted return）。策略則通過選擇具有最高預測回報的動作來隱式定義。

RL 需要一個允許執行潛在不安全動作的環境，以便收集新的數據（例如通過隨機動作）。此外，RL 的訓練所需數據遠多于 IL。因此，現代 RL 方法常常在多個環境中并行化數據收集。滿足這些要求在真實世界中具有很大挑戰，因此幾乎所有使用 RL 的駕駛研究僅在仿真中進行，大多數使用 DQN 的不同擴展版本。當前社區尚未在某一特定 RL 算法上達成共識。

RL 成功實現了在一條空街道上使用真實汽車進行車道跟隨的學習。盡管這一結果令人鼓舞，但值得注意的是，類似任務在三十年前已經通過 IL 完成。迄今為止，還沒有報告顯示使用 RL 進行端到端訓練的結果能與 IL 相競爭。這一失敗可能的原因在于，RL 獲得的梯度不足以訓練深度感知結構（如 ResNet），而 RL 成功的 Atari 等基準測試所使用的模型相對較淺，僅包含少量層。

RL 在與監督學習（Supervised Learning，SL）結合時，已被成功應用于端到端駕駛。隱式可供性方法使用 SL 對 CNN 編碼器進行預訓練（如語義分割任務），在第二階段中凍結該編碼器，并使用現代版本的 Q 學習在凍結編碼器生成的特征上訓練一個淺層策略頭。RL 還可以用于微調已通過 IL 預訓練的完整網絡。

如果網絡可以訪問模擬器的特權信息，RL 也可以有效應用。特權 RL 智能體可用于數據集構建。例如，Roach 在特權 BEV 語義地圖上訓練 RL 智能體，并使用策略自動收集數據集，從而訓練下游的 IL 智能體。WoR 使用 Q 函數和表格動態規劃為靜態數據集生成額外或改進的標簽。

當前該領域的挑戰之一是將仿真中的研究成果遷移到真實世界。在 RL 中，目標通過獎勵函數表示，許多算法要求獎勵函數是密集的，并在每個環境步驟提供反饋。目前的工作通常使用簡單的目標，如前進距離和碰撞規避。這些簡化的設計可能會鼓勵冒險行為。設計或學習更優的獎勵函數仍是一個未解決的問題。另一個研究方向是開發能夠處理稀疏獎勵的 RL 算法，從而直接優化相關指標。RL 可以有效結合世界模型，盡管這帶來了特定挑戰（4-3 節）。當前的 RL 駕駛解決方案仍大量依賴場景的低維表示，該問題將在 4-2節中進一步討論。

三、基準評估

自動駕駛系統需要進行全面評估以確保其安全性。為實現這一目標，研究人員必須使用合適的數據集、仿真器、評估指標和硬件對這些系統進行基準測試。本節將端到端自動駕駛系統的評估方法劃分為三類：（1）真實世界評估，（2）仿真中的在線或閉環評估，以及（3）駕駛數據集上的離線或開環評估。我們重點關注可擴展且具有原則性的在線仿真設置，并為完整性總結真實世界與離線評估方法。

類型	是否實時（在線）	是否有反饋閉環	是否控制車輛	應用模塊	場景
離線評估	? 否	? 否	? 否	感知、預測	數據包測試
開環仿真	?/? 皆可	? 否	? 否	感知、預測、部分規劃	場景播放+響應測試
在線仿真	? 是	?/? 可有閉環	? 可控制	任意模塊	調試開發
閉環仿真	?/? 皆可	? 是	? 是	全棧聯調	系統驗證

（一）真實世界評估

早期對自動駕駛的基準測試主要依賴于真實世界評估。值得注意的是，DARPA 發起了一系列比賽以推動自動駕駛的發展。第一次比賽設有 100 萬美元獎金，要求參賽車輛在沒有人為干預的情況下完成穿越莫哈韋沙漠的 240 公里路線，但沒有團隊成功完成。最終系列賽事“DARPA 城市挑戰賽”要求車輛在一個模擬城市環境中行駛 96 公里，遵守交通法規并避開障礙物。這些比賽推動了自動駕駛領域的重要進展，例如激光雷達傳感器的應用。

秉承這一精神，密歇根大學建立了 MCity，這是一個大型的受控真實世界環境，旨在支持自動駕駛車輛的測試。然而，由于缺乏足夠的數據和車輛，這類學術平臺尚未被廣泛應用于端到端系統的測試。相比之下，擁有部署無人駕駛車隊資源的工業界可以依靠真實世界評估來基準測試其算法的改進。

（二）在線/閉環仿真

在現實世界中測試自動駕駛系統的成本高昂且存在風險。為應對這一挑戰，仿真成為一個可行的替代方案。仿真器支持快速原型開發和測試，能快速迭代新想法，并以低成本提供多樣化場景用于單元測試。此外，仿真器還提供精確測量性能的工具。然而，它們的主要缺點在于，仿真環境中獲得的結果不一定能泛化到真實世界（詳見第4-1節）。

閉環評估涉及構建一個高度逼真的仿真環境，用于部署自動駕駛系統并測量其性能。系統需在安全行駛的同時，朝著指定目標地點導航。開發此類仿真器通常涉及四個主要子任務：參數初始化、交通仿真、傳感器仿真和車輛動力學仿真。以下是對這些子任務的簡要描述，并總結了當前可用于閉環評估的開源仿真器。

1）參數初始化

仿真的優勢之一是能高度控制環境，如天氣、地圖、3D 資產及交通場景中物體的布局等低層次屬性。然而，參數眾多導致設計復雜。目前的仿真器主要采用兩種方式：

程序生成：傳統方式由 3D 藝術家和工程師手動調整參數，這種方式可擴展性差。近年來，一些仿真屬性可通過概率分布采樣生成，即程序生成。這類算法結合規則、啟發式和隨機性，用于創建多樣化的道路網絡、交通模式、光照條件及物體布局。盡管相比純手工設計更高效，但仍需大量預定義參數和算法來控制生成的穩定性，這一過程既耗時又需大量專業知識。
數據驅動：數據驅動的初始化方式旨在通過學習得到所需參數。一種簡單方式是直接從真實駕駛日志中采樣，如提取道路地圖和交通模式。這種方法能捕捉真實世界中的自然變異性，使仿真更貼近現實。但可能無法覆蓋那些對于測試自動駕駛系統魯棒性至關重要的罕見場景。可通過優化初始參數來增強這類場景的代表性。另一種先進方法是生成建模，用機器學習算法學習真實數據的結構和分布，從而生成類似但全新的仿真場景。

2）交通仿真

交通仿真涉及在環境中生成并定位虛擬實體，使其具有逼真的運動行為。這些實體包括汽車、摩托車、自行車和行人等。仿真器需考慮速度、加速度、制動、障礙及其他實體行為的影響，并定期更新交通信號燈狀態以模擬真實城市交通。

基于規則：使用預定義規則來生成交通實體的運動。其中最典型的是 IDM（智能駕駛員模型），它基于當前速度、前車速度及期望安全距離計算車輛加速度。雖然簡單廣泛，但在復雜城市環境中模擬真實交互常顯不足。
數據驅動：人類的交通行為高度復雜且具互動性，例如變道、匯入、緊急停車等。數據驅動方式通過學習真實駕駛數據來建模這類行為，能夠捕捉更細致的行為特征，但需大量標注數據用于訓練。

3）傳感器仿真

傳感器仿真對于端到端自動駕駛系統評估至關重要。其任務是在仿真中生成相應的原始傳感器數據，如攝像頭圖像或 LiDAR 點云，需考慮噪聲和遮擋以真實評估系統。

基于圖形渲染：借助 3D 場景與實體模型，通過傳感器的物理成像過程近似生成數據，例如攝像頭圖像中的遮擋、陰影和反射。這種方法受限于 3D 模型質量和物理建模的近似，圖像真實度有限，且計算代價大，不易并行處理。
數據驅動：基于真實傳感器數據構建仿真，常用的方法包括 NeRF（神經輻射場）和 3D Gaussian Splatting，可從學得的幾何與外觀表示中生成新視角圖像。這些方法在視覺上更真實，但存在渲染耗時長或每個場景需單獨訓練的問題。另一方向是領域自適應，利用深度學習（如 GAN）減少真實數據與圖形仿真數據之間的差距。

4）車輛動力學仿真

最后一個方面是確保仿真車輛的運動符合物理規律。目前大多數開源仿真器使用簡化模型，如獨輪車模型或自行車模型。然而，為實現仿真到現實的無縫遷移，更準確的物理建模是必需的。例如，CARLA 使用多體系統表示車輛，將其建模為四輪彈簧質量系統。

5）基準測試
在這里插入圖片描述

我們在上表中簡要總結了目前可用的端到端駕駛基準測試。2019 年 CARLA 的初始基準被幾乎完美解決。隨后推出的 NoCrash 基準測試要求在某個城鎮和特定天氣條件下訓練，并在新城鎮和新天氣中測試泛化能力。Town05 基準在所有城鎮上訓練，保留 Town05 測試；LAV 保留 Town02 和 Town05 測試。Roach 測試 3 個在訓練中見過的城鎮，但不包括安全關鍵場景。Longest6 使用 6 個測試城鎮。Leaderboard v2 服務更加嚴格，評估路線保密，路線平均超過 8 公里，場景豐富度更高。

nuPlan 仿真器目前可通過 NAVSIM 項目用于評估端到端系統。此外還有兩個使用數據驅動初始化方法的基準（見第3-2節）。Val14 基準使用 nuPlan 驗證集；2023 年 nuPlan 挑戰的官方 leaderboard 使用私人測試集，但目前已不再對外開放提交。

（三）離線/開環評估

開放式評估主要用于衡量系統在預先記錄的專家駕駛行為上的表現。該方法需要評估數據集包含以下內容：（1）傳感器讀數、（2）目標位置、（3）與之對應的未來駕駛軌跡，通常由人類駕駛員生成。系統以傳感器輸入和目標位置為輸入，通過將其預測的未來軌跡與駕駛日志中的軌跡進行比較來評估性能。評估指標包括預測軌跡與真實人類軌跡的接近程度，以及與其他交通參與者發生碰撞的概率等輔助指標。

開放式評估的優點在于不需要仿真器，便可借助真實交通與傳感器數據輕松實現。然而，它的主要缺點是無法評估系統在實際部署過程中所面臨的測試分布上的表現。在測試過程中，自動駕駛系統可能會偏離專家的駕駛軌跡，因此驗證系統從偏離狀態中恢復的能力至關重要（見第4-1 節）。

此外，在多模態場景下，僅使用預測軌跡與記錄軌跡之間的距離作為評估指標也并不理想。例如，在匯入轉彎車道的情況下，無論是立即并入還是稍后并入都可能是合理的選擇，但開放式評估會懲罰數據中未出現的那一個選項。因此，除了碰撞概率與預測誤差，一些研究還提出了其他評估指標，以覆蓋交通違規、前進進度與駕駛舒適性等更全面的維度。

該評估方法需要包含豐富駕駛軌跡的數據集作為支撐。最常用的數據集包括 nuScenes、Argoverse、Waymo 和 nuPlan。這些數據集均涵蓋大量真實世界駕駛路徑，具備不同程度的挑戰性。

然而，由于前述局限性，開放式評估的結果并不能提供系統在閉環控制中駕駛行為改進的確鑿證據。因此，未來研究中若條件允許，建議優先采用更真實的閉環基準測試。

四、挑戰

根據圖 1 中展示的各個主題，接下來我們將逐一介紹當前面臨的挑戰、相關工作或潛在的解決方案、風險以及機會。我們討論處理不同輸入模態所面臨的挑戰；隨后探討高效策略學習所需的視覺抽象問題。接下來，我們介紹幾種學習范式，包括世界模型學習、多任務框架以及策略蒸餾。

最后，我們將討論一系列阻礙端到端自動駕駛系統安全性與可靠性的共性問題，包括可解釋性、安全保障、因果混淆，以及魯棒性問題。

（一）感知與輸入模態的兩難問題

1）感知與多傳感器融合

感知：盡管早期研究成功地利用單目攝像頭實現了自動跟隨車道，但這種單一輸入模態無法應對復雜場景。因此，如下圖所示，近年來的自動駕駛車輛引入了多種傳感器。特別是，來自攝像頭的 RGB 圖像能夠復現人類感知世界的方式，提供豐富的語義信息；激光雷達或雙目攝像頭提供精確的三維空間感知能力。新興傳感器如毫米波雷達和事件相機在捕捉物體相對運動方面表現突出。此外，車速計和慣性測量單元（IMU）提供的車輛狀態信息，以及導航指令，也是引導自動駕駛系統的重要輸入。然而，不同傳感器存在視角、數據分布和成本上的巨大差異，如何合理設計傳感器布局并有效融合各類傳感器仍是挑戰。

在這里插入圖片描述

多傳感器融合在感知相關領域（如目標檢測和語義分割）中被廣泛研究，通常分為早期融合、中期融合和后期融合三類。端到端自動駕駛算法也探索了類似的融合策略。

早期融合在輸入進入共享特征提取網絡前就對傳感器數據進行拼接，其中拼接是最常見的融合方式。為解決視角差異，一些工作將點云投影到圖像上，或反向操作（即為激光雷達點預測語義標簽）。
后期融合將來自不同模態的多個結果進行組合，由于性能較差，在自動駕駛中較少討論。
中期融合則是在網絡內部對分別編碼的輸入在特征層進行融合。直接拼接在此處也很常見。近年來，一些工作使用 Transformer 來建模多模態特征之間的交互。Transformer 中的注意力機制在匯聚不同傳感器上下文信息方面表現出色，從而提升了端到端駕駛的安全性。

受感知任務中 BEV 表示的啟發，將多模態數據統一建模在鳥瞰圖空間中被證明是有益的。端到端駕駛還需關注與策略相關的上下文信息并舍棄無關細節，相關內容將在第4-2節中進一步討論。此外，Transformer 中的自注意力機制雖然連接所有 token，但計算開銷巨大，并不總能提取到有用信息。感知領域中一些先進的基于 Transformer 的融合機制對端到端駕駛任務具有潛在應用前景。

2）語言作為輸入

人類在駕駛時會結合視覺感知和內在知識，從而形成具有因果性的行為。在與自動駕駛相關的具身智能（Embodied AI）等領域，將自然語言作為細粒度的知識和指令以控制視覺運動代理取得了顯著進展。然而，與機器人任務相比，駕駛任務本身更為直接，無需任務拆解，同時室外環境更為復雜，動態體眾多但錨定物稀少。

為將語言知識引入駕駛，一些數據集被提出以衡量室外語義定位和視覺語言導航能力。例如，HAD 數據集引入了人類給車輛的建議，并添加了視覺對齊任務；Sriram 等人將自然語言指令轉化為高層次行為；還有一些工作則直接實現了語言文本的定位；CLIP-MC 和 LM-Nav 使用 CLIP 提取語言和圖像中的知識與特征。

最近，隨著大語言模型（LLMs）的快速發展，一些工作將感知到的場景編碼為 token，并將其輸入到 LLM 中用于控制預測或文本解釋。研究者還將駕駛任務建模為問答問題，并構建了相應的評估基準。這些研究強調，LLMs 有望處理復雜指令并具備跨數據域泛化能力，這與機器人領域的優勢相似。

不過，在道路駕駛中使用 LLMs 目前仍面臨挑戰，例如推理時間長、數值準確率低和輸出不穩定等問題。潛在的解決方案包括將 LLM 部署在云端，僅在復雜場景中調用，或僅用于高層次行為預測任務。

（二）對視覺抽象的依賴

端到端自動駕駛系統大致包含兩個階段：首先將狀態編碼為潛在的特征表示，然后再利用中間特征解碼出駕駛策略。在城市駕駛中，輸入狀態（即周圍環境和自車狀態）相比于常見的策略學習基準（如電子游戲）更加多樣且高維，這可能導致表示與策略制定所需關注區域之間的不對齊。因此，設計“良好”的中間感知表示，或者先通過代理任務預訓練視覺編碼器是非常有益的。這可以讓網絡有效提取對駕駛有用的信息，從而促進后續的策略學習階段。此外，這也有助于提高強化學習方法的樣本效率。

1）表示設計

樸素的表示是通過各種骨干網絡提取的。經典的卷積神經網絡（CNN）仍占據主導地位，具有平移等變性和高效率的優勢。使用深度信息預訓練的 CNN 顯著提升了感知和下游任務的性能。相比之下，基于 Transformer 的特征提取器在感知任務中展現了良好的擴展能力，但尚未廣泛應用于端到端自動駕駛中。

針對駕駛特定的表示，研究人員引入了鳥瞰圖（Bird’s-Eye-View, BEV）概念，將不同的傳感器模態和時間信息融合在一個統一的三維空間中。這種表示也便于適配各種下游任務。此外，還發展了基于柵格的三維占據表示，以捕捉不規則物體，并在路徑規劃中用于避障。然而，相比于 BEV 方法，稠密表示會帶來巨大的計算開銷。

另一個尚未解決的問題是地圖的表示。傳統自動駕駛依賴高精地圖（HD Maps），但由于其高昂的獲取成本，出現了各種在線建圖方法，例如 BEV 分割、向量化車道線、中心線及其拓撲結構、以及車道段。然而，目前尚未驗證哪種表示形式最適合端到端系統。

盡管不同的表示設計為后續的決策過程提供了多種可能性，但也帶來了挑戰，因為整個系統的兩個部分需要協同設計。此外，考慮到一些簡單但有效的方法通過擴大訓練資源規模表現出良好性能，目前是否有必要使用諸如地圖等顯式表示仍存在不確定性。

2）表示學習

表示學習通常引入某種歸納偏置或先驗信息。學習到的表示中不可避免地存在信息瓶頸，而與決策無關的冗余上下文可能被移除。

一些早期方法直接使用預訓練網絡生成的語義分割掩碼作為后續策略訓練的輸入表示。SESR 方法進一步通過變分自編碼器（VAE）將分割掩碼編碼為類別解耦的表示。在一些方法中，預測的可供性指標（如紅綠燈狀態、與車道中心的偏移、與前車的距離）被用作策略學習的表示。

鑒于語義分割等表示方式可能人為地引入瓶頸并導致有用信息的損失，部分研究選擇將預訓練任務中得到的中間特征作為強化學習的有效表示。例如，有研究使用 VAE 的潛在特征并結合分割圖與深度圖邊界的注意力圖，突出重要區域。TARP 利用一系列先前任務的數據，執行不同的任務相關預測，從而獲得有用的表示。還有研究通過逼近 $π\pi$ -仿射度量來學習潛在表示，該度量由獎勵差異和動態模型的輸出差異組成。ACO 在對比學習結構中引入轉向角分類來學習判別性特征。

最近，PPGeo 提出結合運動預測與深度估計，在未經標定的駕駛視頻上以自監督方式學習有效表示。ViDAR 則使用原始圖像-點云對，通過點云預測任務預訓練視覺編碼器。這些工作表明，基于大規模無標簽數據的自監督表示學習在策略學習中具有潛力，并值得未來進一步探索。

（三）基于模型的強化學習中世界建模的復雜性

除了更好地抽象感知表示的能力之外，對于端到端模型來說，能夠對未來做出合理預測以執行安全操作也是至關重要的。在本節中，我們主要討論當前基于模型的策略學習工作所面臨的挑戰，其中世界模型為策略模型提供顯式的未來預測。

深度強化學習通常面臨樣本效率低的問題，在自動駕駛中這一點尤為突出。基于模型的強化學習（Model-Based Reinforcement Learning, MBRL）為提升樣本效率提供了一種有前景的方向，其核心思想是允許智能體與學習得到的世界模型交互，而不是與真實環境交互。MBRL 方法構建了一個顯式的世界（環境）模型，該模型由轉移動態和獎勵函數組成。在自動駕駛中，這一點尤其有用，因為像 CARLA 這樣的仿真器運行速度相對較慢。

然而，建模一個高度動態的環境是非常具有挑戰性的。為簡化問題，有研究將轉移動態因子化為非反應式世界模型和簡單的自行車運動學模型。也有工作采用概率時序潛變量模型作為世界模型。為應對學習到的世界模型可能存在的不準確性，有方法在訓練策略網絡時使用 dropout 正則化以估計不確定性成本；也有方法采用多個世界模型的集合來進行不確定性估計，并據此對虛擬軌跡進行截斷與調整。

受 Dreamer 啟發，ISO-Dream 將視覺動態分解為可控與不可控的狀態，并在解耦后的狀態上訓練策略模型。
值得注意的是，在原始圖像空間中學習世界模型對于自動駕駛來說并不容易。諸如紅綠燈這樣的重要小細節，在預測圖像中很容易被遺漏。為了解決這一問題，GenAD 和 DriveWM 引入了當前流行的擴散模型技術。MILE 在 BEV 分割空間中進行類似 Dreamer 的世界模型學習，并將其作為模仿學習的輔助任務。SEM2 同樣擴展了 Dreamer 的結構，輸入為 BEV 地圖，并使用強化學習進行訓練。除了將學習到的世界模型直接用于 MBRL 外，DeRL 還結合了無模型的 actor-critic 框架與世界模型，通過融合兩個模型對動作或狀態的自我評估進行決策。

在端到端自動駕駛中進行世界模型學習是一個新興且極具潛力的方向，因為它顯著降低了強化學習的樣本復雜度，同時理解世界本身對于駕駛是有益的。然而，由于駕駛環境本身極其復雜和動態化，仍需進一步研究以明確應建模哪些內容，以及如何有效地構建世界模型。

（四）對多任務學習的依賴

多任務學習（Multi-task Learning, MTL）是指基于共享表示，通過多個獨立輸出頭共同完成若干相關任務。MTL 的優勢包括降低計算成本、共享相關的領域知識，以及利用任務之間的關系提升模型的泛化能力。因此，MTL 非常適用于端到端自動駕駛場景，其中最終的策略預測需要對環境有全面的理解。然而，如何組合最合適的輔助任務，以及如何合理設置各任務的損失權重以獲得最佳性能，是一個具有挑戰性的問題。

與常見的視覺任務中稠密預測之間高度相關不同，端到端自動駕駛中的輸出通常是稀疏信號。這種稀疏的監督信號使得編碼器在提取決策所需的有效信息時更加困難。對于圖像輸入，語義分割和深度估計等輔助任務在端到端自動駕駛模型中被廣泛采用。語義分割有助于模型獲得對場景的高層次理解；深度估計使模型能夠捕捉環境的三維幾何結構，從而更好地估算與關鍵物體的距離。

除了作用于圖像的輔助任務，三維目標檢測對處理激光雷達輸入的編碼器也具有重要價值。隨著鳥瞰圖（BEV）成為自動駕駛中的主流表示方式，許多模型引入了 BEV 分割任務，用于在 BEV 空間中聚合特征。

此外，除了這些視覺任務，一些模型還預測視覺可供性信息，例如交通燈狀態、與對向車道的距離等。這類信息同樣可以為策略學習提供有價值的監督。

然而，在真實應用中，構建包含多種類型且高度對齊的高質量標注的大規模數據集并非易事。而當前模型對多任務學習的依賴，使得這一問題仍是現實部署中的重大挑戰。

（五）專家策略和策略蒸餾的低效問題

模仿學習（Imitation Learning），或其主要子類行為克隆（Behavior Cloning），本質上是監督學習，通過模仿專家行為來訓練模型，因此相關方法通常遵循“教師-學生”（Teacher-Student）范式。該范式下存在兩個主要挑戰：

(1) 教師（如 CARLA 提供的手工設計的專家自動駕駛系統）盡管能夠訪問周圍車輛和地圖的真實狀態，但并不是完美的駕駛員；

(2) 學生模型僅依賴傳感器輸入，并以錄制的教師輸出為監督信號，需同時從頭學習感知特征和策略。

一些研究提出將學習過程劃分為兩個階段，即先訓練一個更強大的教師網絡，再將策略蒸餾到學生模型中。具體來說，有方法首先讓一個具有特權的智能體在可訪問環境狀態的前提下學習如何行動，然后讓感知-運動學生智能體在輸出層模仿該特權智能體的行為。以更緊湊的 BEV 表示作為輸入的特權智能體，相比原始專家具有更強的泛化能力和監督能力。

除了只對規劃結果進行監督，也有工作在特征層面進行知識蒸餾。例如，FMNet 利用分割模型和光流模型作為輔助教師來引導特征訓練；SAM 在教師和學生網絡之間加入了 $L_2$ 特征損失；CaT 則在 BEV 空間中對齊特征；WoR 學習一個基于模型的動作-價值函數，并利用其監督視覺-運動策略；Roach 利用強化學習訓練出更強的特權專家，從而突破了行為克隆的性能上限，并融合了多個蒸餾目標，包括動作分布、值函數/獎勵以及潛在特征。

通過強化學習專家的強大能力，TCP 在僅使用單攝像頭輸入的條件下，在 CARLA 排行榜上達到了新的 SOTA 水平。DriveAdapter 則訓練一個僅依賴感知的學生模型，并通過特征對齊目標學習適配器模塊。這種解耦式范式既充分利用了教師的知識，又提升了學生的訓練效率。

盡管已經投入大量精力設計魯棒的專家模型，并在多個層面轉移知識，教師-學生范式仍然面臨蒸餾效率低的問題。例如，特權智能體可以訪問紅綠燈等真實狀態信息，而這些在圖像中是小物體，很難蒸餾出對應的有效特征，導致視覺-運動學生模型與其特權教師仍存在顯著性能差距。這種差距還可能引發學生模型的因果混淆問題。因此，未來值得進一步探索如何借鑒機器學習中更通用的知識蒸餾方法，以盡可能縮小教師與學生之間的性能差距。

（六）缺乏可解釋性

可解釋性在自動駕駛中扮演著至關重要的角色。它不僅幫助工程師更好地調試系統，還從社會角度提供性能保障，并促進公眾的接受度。實現端到端駕駛模型的可解釋性尤其重要且具有挑戰性，因為這類模型通常被視為“黑箱”。

對于已訓練好的模型，可以使用一些事后可解釋人工智能（X-AI）技術來生成顯著性圖。顯著性圖突出模型在規劃決策中主要依賴的輸入圖像區域。然而，這類方法提供的信息有限，其有效性和可信度也較難評估。因此，我們更關注在模型設計階段就直接增強可解釋性的端到端框架。下面介紹幾種常見的可解釋性方法。

注意力可視化：注意力機制天然具有一定的可解釋性。有研究通過學習注意力權重，對中間特征圖中的重要信息進行聚合。注意力權重也可用于自適應組合來自不同目標區域或固定網格的 ROI pooled 特征。NEAT 模型通過迭代方式聚合特征以預測注意力權重，并不斷優化聚合特征。近年來，Transformer 中的注意力模塊被用于更好地融合多模態輸入，其生成的注意力圖可以顯示模型在做出駕駛決策時關注的關鍵區域。在 PlanT 中，注意力層處理來自不同車輛的特征，提供了模型動作的可解釋線索。雖然與顯著性圖類似，注意力圖可以提供直觀的關注線索，但其忠實性和實用性仍然有限。

可解釋任務：許多基于模仿學習的研究通過將潛在特征表示解碼為語義分割、深度估計、目標檢測、可供性預測、運動預測、注視點估計等附加信息，從而增強可解釋性。這些信息雖可被人類理解，但在大多數情況下只是作為輔助任務，并未顯式參與最終決策。也有部分研究將這些輸出用于決策安全檢查，但其作用仍有限。

規則整合與代價學習：基于代價函數學習的方法與傳統模塊化系統相似，因此具有一定的可解釋性。有研究結合檢測與運動預測結果構建代價體積，也有研究將語義占據圖與舒適性及交通規則約束結合，用于代價函數建模。此外，諸如概率占據、時序運動場、自由空間等表示也被用于對采樣軌跡進行評分。有研究還顯式整合了人類經驗與預定義規則（如安全性、舒適性、交通規則與路徑）用于軌跡評分，從而提升系統的魯棒性與安全性。

語言可解釋性：為了讓人類更好地理解系統，使用自然語言是一種直觀方式。有研究構建了駕駛視頻/圖像與解釋文本對齊的數據集，并提出同時輸出控制信號與語言解釋的端到端模型。BEEF 將預測軌跡與中間感知特征融合，用于生成駕駛決策的理由。ADAPT 提出基于 Transformer 的網絡，同時估計動作、敘述與推理過程。近期也有研究利用多模態大模型（LLMs/VLMs）為駕駛決策提供解釋，展現了跨模態解釋的潛力。

不確定性建模：不確定性提供了一種定量方式，用于解釋深度學習模型輸出的可靠性，幫助設計者與用戶識別高風險場景以便改進或人工介入。在深度學習中，不確定性通常分為兩類：隨機性不確定性（Aleatoric）與認知性不確定性（Epistemic）。前者來自任務本身的固有噪聲，后者源于訓練數據不足或模型容量受限。

有方法在模型中引入隨機正則化，通過多次前向傳播采樣來度量不確定性，但這種方式不適合實時場景。另一些研究則通過專家模型集成的方式估計認知性不確定性，從而實現更安全的規劃。

對于隨機性不確定性，有研究直接預測駕駛動作的方差，將其作為模型輸出的一部分。規劃器可以基于這些不確定性選擇方差最小的動作，或根據不確定性對多個動作加權組合，最終輸出更穩定的決策。目前，不確定性的利用仍多依賴于硬編碼規則，未來仍需進一步探索如何在自動駕駛中更好地建模與利用不確定性。

（七）缺乏安全保障

在真實世界場景中部署自動駕駛系統時，確保安全是最重要的。然而，端到端框架基于學習的方法本質上缺乏傳統基于規則方法所具備的精確數學安全性保證。盡管如此，需要指出的是，模塊化駕駛系統已經在其運動規劃或速度預測模塊中引入了一些特定的安全約束或優化策略，以強化系統的安全性。這些機制有潛力被改編為端到端模型的后處理步驟或安全檢查，從而為其提供額外的安全保障。此外，如第4-6節中所討論的中間可解釋性預測結果，例如目標檢測和運動預測，也可以被用于后處理流程中，以增強系統的整體安全性。

（八）因果混淆

駕駛是一項具有時間連續性的任務，過去的運動狀態往往是預測下一步動作的可靠依據。然而，使用多幀訓練的方法可能會過度依賴這一“捷徑”，從而在實際部署時出現嚴重的失敗。這一問題在某些研究中被稱為“模仿者問題（copycat problem）”，是因果混淆（causal confusion）的一種表現，即獲取了更多信息反而導致性能下降。

因果混淆在模仿學習中已是一個持續近二十年的挑戰。LeCun 等人是最早報道這一現象的研究者之一。他們在預測轉向角時僅使用單幀圖像輸入，以避免這種過度推斷。雖然這種方法較為簡單，但在當前最先進的模仿學習方法中仍然被廣泛采用。不幸的是，單幀輸入難以提取周圍參與者的運動信息。另一個因果混淆的來源是速度信息。例如，當車輛在紅燈前等待時，長時間內其速度為零，操作為剎車，這種強相關性會被模型捕捉，直到紅燈變綠后才會被打破。

為了解決多幀輸入引起的因果混淆問題，已有多種方法被提出。在一項研究中，作者通過引入對抗訓練模型來預測自車歷史動作，從而從瓶頸特征中去除虛假的時間相關性。雖然這種最小-最大優化方法在 MuJoCo 環境中表現良好，但在基于視覺的復雜駕駛場景中難以擴展。OREO 方法將圖像映射為表示語義對象的離散編碼，并對具有相同編碼的單元施加隨機丟棄，緩解了 Atari 游戲中的混淆問題。在端到端駕駛中，ChauffeurNet 采用了自車過去的運動軌跡作為中間 BEV 抽象，并在訓練時以 50% 的概率進行丟棄。Wen 等人提出在訓練損失中提高關鍵幀（即決策發生變化的幀）的權重，因為這些幀不能通過對過去的外推預測。PrimeNet 通過集成策略提升關鍵幀表現，即將單幀模型的預測作為多幀模型的附加輸入。Chuang 等人也采用類似方法，但用動作殘差而非動作本身來監督多幀網絡。此外，采用僅使用 LiDAR 歷史（輔以單幀圖像）并將點云重新對齊到統一坐標系的方式，也可繞過因果混淆問題。這種方法消除了自車運動影響，但保留了其他車輛的歷史狀態信息，已被多項研究采用，盡管初衷并非為了解決該問題。

然而，這些方法大多是在為研究因果混淆問題而特意簡化的環境中驗證的。是否能在第3-2節提到的最先進評測設置中實現性能提升，仍是一個有待解決的開放問題。

（九）缺乏魯棒性

在這里插入圖片描述

1）長尾分布問題：長尾分布問題的一個重要方面是數據集不平衡，即少數類別占據了大多數樣本，如圖 (a) 所示。這給模型在多樣化環境中的泛化能力帶來了巨大挑戰。針對該問題，已有多種數據處理方法被提出，例如過采樣、欠采樣和數據增強等。此外，基于權重的策略也被廣泛應用。

在端到端自動駕駛中，長尾分布問題尤為嚴重。大多數駕駛數據都是重復且無趣的，例如持續多幀的車道跟隨。而具有挑戰性且對安全至關重要的場景卻極為罕見，且種類繁多，出于安全原因在現實中難以復現。為此，一些研究通過手工設計的模擬場景生成多樣化數據。LBC 利用特權代理基于不同導航指令生成想象中的監督信號。LAV 引入了非自車體的軌跡來提升訓練數據的多樣性。有研究提出使用模擬框架結合重要性采樣策略以加速對稀有事件概率的評估。

另一個研究方向是通過對抗攻擊以數據驅動方式生成關鍵安全場景。例如，有方法采用貝葉斯優化生成對抗性場景；也有方法將駕駛情景表示為構建塊的聯合分布，并使用策略梯度方法生成高風險場景；AdvSim 則在保持物理合理性的前提下，通過擾動交通參與體的軌跡制造失敗；KING 使用可微運動學模型的梯度優化算法來產生關鍵擾動。

總體來看，有效生成符合現實且覆蓋長尾分布的關鍵安全場景仍是一大挑戰。雖然許多工作聚焦于仿真中的對抗性場景，但充分挖掘現實世界中的關鍵數據并將其遷移到仿真環境中同樣重要。此外，構建系統化、嚴謹、全面且真實的測試框架，對于評估端到端自動駕駛系統在長尾分布關鍵情境下的表現至關重要。

2）協變量偏移問題：如第2-1節所述，行為克隆方法面臨的一個關鍵挑戰是協變量偏移問題。專家策略產生的狀態分布與訓練后策略產生的狀態分布存在差異，這會導致在測試環境中，特別是遇到與訓練中不同的其他交通參與體反應時，錯誤會不斷累積。這可能導致模型進入專家數據分布之外的狀態，從而引發嚴重錯誤。圖 (b) 展示了這一問題。

DAgger（Dataset Aggregation）是該問題的常用解決方案。它是一種迭代訓練方法，在每次迭代中，當前策略用于收集新數據，并由專家對訪問到的狀態進行標注，從而增強數據集中關于如何從次優狀態中恢復的樣本。然后使用擴充后的數據集進行訓練，并重復該過程。但 DAgger 的一個缺點是需要能夠在線訪問的專家。

在端到端自動駕駛中，DAgger 被用于與基于 MPC 的專家結合使用。為了降低頻繁查詢專家的成本，SafeDAgger 通過學習一個安全策略來估計當前策略與專家策略之間的偏差，僅在偏差較大時才查詢專家。MetaDAgger 則結合元學習，從多個環境中聚合數據。LBC 使用 DAgger 并對損失較高的數據進行更高頻次的重采樣。DARB 提出多個機制（基于任務、策略或策略與專家聯合）以更好地利用失敗或與安全相關的樣本。

3）領域適應問題：領域適應是一種遷移學習形式，其中特定任務在源域和目標域保持一致，但兩者的分布不同。這里我們討論源域有標簽而目標域無標簽或標簽稀少的場景。

如圖（c）所示，自動駕駛任務中的領域適應包含以下幾類情況：

仿真到真實：訓練所用仿真器與部署的真實世界之間存在巨大差異；
地理區域遷移：不同地理位置導致的環境外觀差異；
天氣遷移：由于雨、霧、雪等天氣變化引起的傳感器輸入變化；
晝夜變化：圖像亮度的變化；
傳感器遷移：例如分辨率或安裝位置不同導致的傳感器差異。

上述情況往往相互交織。通常，領域不變特征學習通過圖像轉換器與判別器將兩種域的圖像映射到共同的潛在空間或分割圖等表征。LUSR 和 UAIL 分別采用循環一致性變分自編碼器（VAE）和生成對抗網絡（GAN）將圖像投影到包含域特定和域通用部分的潛在表征空間中。SESR 從語義分割圖中提取類別解耦編碼以縮小仿真與真實之間的差距。領域隨機化是一種簡單有效的仿真到真實方法，通過在訓練階段隨機化渲染與物理設置，使模型在訓練時就能覆蓋現實世界的變化。這種方法已被應用于端到端自動駕駛中的強化學習策略訓練。

目前，仿真到現實的圖像映射與領域不變特征學習是研究重點。其他領域遷移問題多通過構建多樣化的大規模數據集來應對。但當前方法主要集中在圖像模態的視覺差異，隨著 LiDAR 成為越來越主流的輸入模態，亟需為其設計專門的適應方法。此外，還應注意仿真器中交通參與體行為與現實世界的差異。將真實世界數據融入仿真，例如通過 NeRF 技術，也是一個有前景的方向。

五、未來趨勢

考慮到前文討論的挑戰與機遇，我們列出了一些未來研究的重要方向，這些方向可能在該領域產生更廣泛的影響。

（一）零樣本與小樣本學習

自動駕駛模型最終不可避免地會遇到超出其訓練數據分布的真實世界場景。這就引出了一個問題：我們能否在目標域中成功地適應模型，即使該域中幾乎沒有或完全沒有標注數據。為端到端駕駛任務正式定義這一問題，并引入零樣本/小樣本學習領域的技術，是實現這一目標的關鍵步驟。

（二）模塊化的端到端規劃

模塊化的端到端規劃框架在優化多個子模塊的同時，以最終的規劃任務為優先目標，具備如第4-6節所述的可解釋性優勢。這一理念在近期文獻中被廣泛倡導，并被部分行業解決方案（如 Tesla、Wayve 等）所采納。在設計這些可微分的感知模塊時，出現了一些關鍵問題，例如：在目標檢測中是否有必要使用 3D 邊界框，靜態場景感知中應選擇 BEV 分割還是車道拓撲，以及在模塊數據有限的情況下采用何種訓練策略等。

（三）數據引擎

對于自動駕駛而言，大規模和高質量的數據始終至關重要。構建一個具備自動標注流程的數據引擎，將極大地促進數據與模型的迭代發展。面向自動駕駛，尤其是模塊化端到端規劃系統，數據引擎需要實現高質量感知標注的自動化流程，借助大型感知模型輔助完成。此外，它還應支持困難/邊緣案例的挖掘、場景生成與編輯，以支撐第3-2節所述的數據驅動評估，并推動數據多樣性與模型泛化能力的提升（見第4-1節）。一個完善的數據引擎將使自動駕駛模型持續獲得性能改進。