文獻總結：TPAMI端到端自動駕駛綜述——End-to-End Autonomous Driving: Challenges and Frontiers

端到端自動駕駛綜述

1. 文章基本信息
2. 背景介紹
3. 端到端自動駕駛主要使用方法
- 3. 1 模仿學習
- 3.2 強化學習
4. 測試基準
- 4.1 真實世界評估
- 4.2 在線/閉環仿真測試
- 4.3 離線/開環測試評價
5. 端到端自動駕駛面臨的挑戰
- 5.1 多模態輸入
- 5.2 對視覺表征的依賴
- 5.3 基于模型的強化學習的世界模型復雜性
- 5.4 對多任務學習的依賴
- 5.5 專家模型與策略蒸餾低效
- 5.6 缺乏可解釋性
- 5.7 缺乏安全保障
- 5.8 因果混淆
- 5.9 缺乏魯棒性
6. 未來研究方向
- 6.1 零樣本與小樣本學習
- 6.2 模塊化端到端規劃
- 6.3 數據引擎
- 6.4 基礎模型
總結

1. 文章基本信息

標題	End-to-End Autonomous Driving: Challenges and Frontiers
期刊	IEEE Transcations on Pattern Analysis and Machine Intelligence (IF=20.4)
作者	Li Chen；Penghao Wu；Kashyap Chitta；Bernhard Jaeger；Andreas Geiger；Hongyang Li
主要單位	Shanghai AI Laboratory；University of Hong Kong
關鍵詞	Autonomous driving; end-to-end system design; policy learning; simulation
日期	收稿日期: 24 June 2023；接收日期: 22 July 2024
文章鏈接	https://arxiv.org/abs/2306.16927
項目地址	https://github.com/OpenDriveLab/End-to-end-Autonomous-Driving

在這里插入圖片描述

摘要: 自動駕駛社區見證了端到端自動駕駛算法的快速發展，這種利用原始攝像頭輸入生成車輛運動規劃的方法，代替了集中于單一任務（檢測、運動規劃）的方法。與模塊化流程相比，端到端系統受益于感知和規劃的聯合特征優化。由于大規模數據集、閉環測試和自動駕駛在挑戰場景有效性需求的增加，端到端自動駕駛領域正在呈現一種快速發展的趨勢。在這篇綜述中，作者提供了超過270篇文獻的全面分析，涵蓋端到端自動駕駛領域的動機、路線、方法論、挑戰和未來發展趨勢等多個方面。本文深入探討了其中的幾個挑戰，包括多模態、可解釋性、因果混淆、魯棒性和世界模型等等。此外，本文還討論了基礎模型和預訓練視覺模型的運用，以及如何在端到端自動駕駛框架中協調這些技術。

2. 背景介紹

傳統的自動駕駛系統采用模塊化的設計策略，這使得自動駕駛系統的感知、預測、規劃等功能是單獨發展的，最后再整合到自車上。規劃或控制模塊負責生成方向和加速度輸出，在決定駕駛體驗方面扮演了一個重要的角色。模塊化自動駕駛中大部分規劃方法是采用復雜的基于規則的設置方法，在面對實際路況時顯得效率低下。因此，采用大規模數據和基于學習的規劃成為了發展的可能。

本文定義的端到端自動駕駛系統是指采用原始傳感器數據作為輸入，采用規劃或底層控制作為輸出的系統。下圖證明了經典算法和端到端框架的區別：

模塊化的自動駕駛算法：每個子模塊生成對應輸出，并輸入到下一個任務中。如圖中所示，感知模塊生成3D目標檢測框，傳入到軌跡預測模塊，生成周圍車輛的預測軌跡，并轉入到規劃模塊，生成最終的自車規劃。
端到端自動駕駛算法：輸入傳感器的圖片，通過特征流一步步傳到規劃，在規劃模塊計算損失，再通過反向傳播將損失函數梯度傳遞給每一個子模塊，以優化各模塊的權重。這里只在規劃模塊計算損失值，不在其他模塊產生損失計算。

在這里插入圖片描述
下圖展示了本綜述的大綱，通過總結最近文獻對端到端自動駕駛的方法、基準、挑戰、未來趨勢進行了總結。端到端自動駕駛優點：

將多個模塊融合到一個模型中進行聯合訓練，減少訓練步驟
整個系統面向最終任務來優化，增強模型使用性
共享主干網絡提升計算效率
數據驅動優化，來提升系統潛力

下圖按時間順序整理了端到端自動駕駛算法的關鍵事件：
在這里插入圖片描述

最早的端到端自動駕駛可以追溯到1988年的ALVINN，其輸入是來自攝像頭的兩個 “視網膜” 圖像以及激光測距儀的數據，通過一個簡單的神經網絡生成方向的輸出。
2016年，NVIDIA設計了一款端到端的卷積神經網絡原型系統，在GPU計算這一時代重新確立了端到端自動駕駛的理念。隨著深度神經網絡的發展，模仿學習和強化學習在端到端自動駕駛中都取得了顯著進展。
2019年，LBC提出了策略蒸餾范式，通過模仿表現良好的專家，顯著提高了端到端自動駕駛在閉環測試下的性能。
2021年，在合理的計算預算范圍內，各種傳感器配置可用，學者們的注意力集中在納入更多的模態和先進的架構（如Transformer）上，來捕捉全局上下文和代表性特征，該時期的代表作是TransFuser。結合對模擬環境的更多理解，這些先進設計在CARLA基準測試中顯著提升了性能。為了提高自動駕駛系統的可解釋性和安全性，該時期的方法引入了各種輔助模塊、以更好地監督學習過程或利用注意力可視化技術。
2022年，學者們考慮到測試過程中存在很多數據分布不平衡的問題，于是考慮生成安全關鍵場景數據。同時，具有挑戰性的新基準測試CARLA v2成功引入到該領域。
2023年，出現了模塊化的端到端自動駕駛，旨在提高模型的可解釋性，同時，nuPlan也被引入做新基準測試中。

3. 端到端自動駕駛主要使用方法

在這里插入圖片描述
📷 圖 3. 端到端自動駕駛方法概述。本圖展示了三種流行的范式，包括兩種模仿學習框架（行為克隆和逆最優控制），以及在線強化學習。

3. 1 模仿學習

模仿學習（imitation learning, IL），也稱為從示范中學習，它訓練一個智能體通過模仿專家的行為來學習策略。模仿學習需要一個數據集 $D=\{ \xi_{i} \}$ ，其中包含根據專家策略 $\pi_{\beta}$ 收集的軌跡，每條軌跡都是一系列狀態 - 動作對。模仿學習的目標是學習一個與 $\pi_{\beta}$ 相匹配的智能體策略 $\pi$ 。

1）行為克隆（Behavior cloning, BC）：在行為克隆中，通過在收集的數據集上進行監督學習，最小化規劃損失，從而使智能體的策略與專家的策略相匹配： $\mathbb{E}_{(s, a)} \ell(\pi_{\theta}(s), a)$ 。這里， $\ell(\pi_{\theta}(s), a)$ 表示一個損失函數，用于衡量智能體動作與專家動作之間的差異。

2）逆最優控制（Inverse optimal control）：傳統的逆最優控制算法從專家演示中學習未知的獎勵函數 $R (s, a)$ ，其中專家的獎勵函數可以表示為特征的線性組合。然而，在連續的、高維的自動駕駛場景中，獎勵的定義是隱含的，且難以優化。

3.2 強化學習

強化學習（Reinforcement learning, RL）是一個通過試錯進行學習的領域。深度Q網絡（Deep Q networks, DQN）在雅達利（Atari）基準測試中成功實現了人類水平的控制，這使得深度強化學習得到了廣泛應用。DQN訓練一個名為評論家（或Q網絡）的神經網絡，該網絡以當前狀態和一個動作為輸入，并預測該動作的折扣回報。然后，通過選擇預測回報最高的動作來隱式定義策略。

4. 測試基準

4.1 真實世界評估

早期對自動駕駛進行基準測試的嘗試涉及到真實世界評估。值得注意的是，美國國防高級研究計劃局（DARPA）發起了一系列比賽來推動自動駕駛技術的發展。第一場比賽為能自主導航穿越莫哈韋沙漠240公里路線的團隊提供100萬美元獎金，但沒有團隊成功完成。最后一場系列賽事——DARPA城市挑戰賽，要求車輛在96公里的模擬城鎮路線中行駛，同時遵守交通規則并避開障礙物。這些比賽促進了自動駕駛領域的重要發展，例如激光雷達傳感器的應用。受此啟發，密歇根大學建立了MCity，這是一個大型的可控真實世界環境，旨在方便進行自動駕駛汽車的測試。然而，由于缺乏數據和車輛，這類學術項目并未在端到端系統中得到廣泛應用。相比之下，有資源部署無人駕駛車隊的企業可以依靠真實世界評估來衡量其算法的改進效果。
在這里插入圖片描述
圖片來源：聊聊無人駕駛汽車的發展歷史(三）——DARPA無人駕駛挑戰賽

4.2 在線/閉環仿真測試

閉環評估涉及構建一個能緊密模擬現實世界駕駛環境的仿真環境。評估工作包括在模擬環境中部署駕駛系統，并衡量其性能。該系統必須在駛向指定目標位置的過程中，安全地在車流中行駛。開發這類模擬器主要涉及四項子任務：參數初始化、交通模擬、傳感器模擬和車輛動力學模擬。我們將在下面簡要介紹這些子任務，隨后總結目前可用于閉環基準測試的開源模擬器。

1）參數初始化：模擬具有高度可控環境的優勢，可控的內容包括天氣、地圖、三維資產，以及諸如交通場景中物體布局之類的底層屬性。盡管功能強大，但這些參數的數量眾多，從而帶來了一個具有挑戰性的設計問題。目前的模擬器通過兩種方式來解決這一問題：程序生成與數據驅動。

2）交通模擬：交通模擬涉及在環境中生成虛擬實體并為其定位，同時讓它們具有逼真的運動狀態。這些實體通常包括車輛（如汽車、摩托車、自行車等）和行人。交通模擬器必須考慮速度、加速度、制動、障礙物以及其他實體的行為所產生的影響。此外，必須定期更新交通信號燈的狀態，以模擬真實的城市駕駛情況。目前有兩種流行的交通模擬方法：基于規則的方法和數據驅動的方法。

3）傳感器模擬：對于評估端到端自動駕駛系統而言，傳感器模擬至關重要。這包括生成模擬的原始傳感器數據，比如駕駛系統在模擬器中從不同視角接收到的攝像頭圖像或激光雷達掃描數據。這一過程需要考慮噪聲和遮擋情況，以便對自動駕駛系統進行真實的評估。關于傳感器模擬，主要有以下兩大思路分支：基于圖形的和數據驅動的。

4）車輛動力學模擬：駕駛模擬的最后一個方面是要確保模擬車輛的運動符合物理上的合理性。大多數現有的公開可用模擬器使用高度簡化的車輛模型，例如獨輪車模型或自行車模型。然而，為了使算法能夠順利地從模擬環境轉移到現實世界中，納入更精確的車輛動力學物理建模至關重要。例如，CARLA采用了多體系統方法，將車輛表示為由四個車輪支撐的多個彈性質量塊的組合。

5）目前主要的兩個測試模擬器為CARLA和nuPlan，部分測試場景已經被現有算法很好的解決，所以這些模擬器的維護方也推出了一些比較用挑戰性的場景，涉及泛化性、unseen scenes等

📊用于自動駕駛閉環評估且帶有活躍基準測試的開源模擬器
在這里插入圖片描述

4.3 離線/開環測試評價

開環評估主要是根據預先記錄的專家駕駛行為來評估一個系統的性能。這種方法需要評估數據集，其中包括
（1）傳感器讀數
（2）目標位置，
（3）相應的未來駕駛軌跡

以傳感器輸入和目標位置作為輸入，通過將系統預測的未來軌跡與駕駛記錄中的軌跡進行比較來衡量性能。系統的評估依據是其軌跡預測與人類真實情況的匹配程度，以及其他輔助指標，比如與其他智能體發生碰撞的概率。

開環評估的優點在于，使用真實的交通和傳感器數據很容易采集，因為它不需要模擬器。然而，其關鍵缺點是它無法衡量系統在實際部署測試中所遇到的真實分布情況下的性能。在測試過程中，駕駛系統可能會偏離專家的駕駛路徑，而驗證系統從這種偏離中恢復的能力是至關重要的。

此外，在多模式場景中，預測軌跡與記錄軌跡之間的距離并不是一個理想的衡量指標。例如，在并入轉彎車道的情況下，立即并入或稍后并入這兩種選擇都可能是合理的，但開環評估會對數據中未觀察到的那種選擇進行扣分。因此，除了衡量碰撞概率和預測誤差之外，還提出了一些指標來更全面地涵蓋交通違規、行駛進展以及駕駛舒適性等方面。

5. 端到端自動駕駛面臨的挑戰

5.1 多模態輸入

1）感知與多傳感器融合。盡管早期的研究成果通過單目攝像頭成功實現了車道跟隨功能，但這種單一的輸入模態無法應對復雜的場景。因此，對于如今的自動駕駛汽車，已經引入了圖4中所示的各種傳感器。特別是，來自攝像頭的RGB圖像能夠復現人類感知世界的方式，具有豐富的語義細節；激光雷達或立體攝像頭則能提供精確的三維空間信息。像毫米波雷達和事件相機這樣的新興傳感器在捕捉物體的相對運動方面表現出色。此外，來自速度計和慣性測量單元（IMU）的車輛狀態信息，以及導航指令，也是引導駕駛系統的其他輸入信息。然而，不同的傳感器具有不同的視角、數據分布，并且價格差異巨大，這就給有效地設計傳感器布局以及將它們融合起來以實現自動駕駛中的互補帶來了挑戰。

2）語言作為輸入：人類駕駛時既依靠視覺感知，也依靠內在知識，二者共同構成了因果行為。在與自動駕駛相關的領域，比如具身人工智能中，將自然語言作為細粒度的知識和指令來控制視覺運動智能體方面，已經取得了顯著進展。然而，與機器人應用相比，駕駛任務更為直接，無需進行任務分解，而且戶外環境要復雜得多，存在高度動態的智能體，但可供作為參照的明顯標志物卻很少。
在這里插入圖片描述
📷 圖4展示了輸入模態和融合策略的示例。我們以點云和圖像為例來描述各種融合策略。（不同模態）具有鮮明的特征，這給有效的傳感器融合帶來了挑戰。

5.2 對視覺表征的依賴

端到端自動駕駛系統大致分為兩個階段：將狀態編碼為潛在特征表示，然后利用中間特征對駕駛策略進行解碼。在城市駕駛中，與諸如電子游戲這類常見的策略學習基準相比，輸入狀態，即周圍環境和自身狀態，要更加多樣化且維度更高，這可能會導致表征與制定策略所需的關注區域之間不匹配。因此，設計 “優質” 的中間感知表征，或者首先使用代理任務對視覺編碼器進行預訓練是有幫助的。這能使網絡有效地提取對駕駛有用的信息，從而為后續的策略制定階段提供便利。此外，這還可以提高強化學習方法的樣本效率。

1）表征設計：簡單的表征是通過各種主干網絡提取的。經典的卷積神經網絡（CNN）仍然占據主導地位，它在平移等變性和高效性方面具有優勢。經過深度預訓練的卷積神經網絡顯著提升了感知能力和下游任務的性能。相比之下，基于Transformer的特征提取器在感知任務中展現出了強大的可擴展性，但尚未在端到端駕駛領域被廣泛采用。對于駕駛特定的表征，研究人員引入了鳥瞰圖（BEV）的概念，在統一的三維空間內融合不同的傳感器模態和時間信息。這也便于對下游任務進行適配。此外，基于網格的三維占據（occupancy）表示法被開發出來用于捕捉不規則物體，并在規劃過程中用于避免碰撞。然而，與鳥瞰圖方法相比，這種密集的表征會帶來巨大的計算成本。

在這里插入圖片描述

2）表征學習：表征學習通常會納入某些歸納偏置或先驗信息。在學習得到的表征中不可避免地存在可能的信息瓶頸，并且與決策無關的冗余上下文信息可能會被剔除。從大規模無標簽數據中進行自監督表征學習以用于策略學習是很有前景的，值得在未來進一步探索。

5.3 基于模型的強化學習的世界模型復雜性

深度強化學習通常存在樣本復雜度高的問題，這一問題在自動駕駛領域尤為突出。基于模型的強化學習（model-based reinforcement learning, MBRL）提供了一個很有前景的方向，它允許智能體與學習到的世界模型進行交互，而非與真實環境交互，以此來提高樣本效率。基于模型的強化學習方法采用一個明確的世界（環境）模型，該模型由轉移動力學和獎勵函數組成。這在自動駕駛中特別有用，因為像CARLA這樣的模擬器運行相對較慢。

針對端到端自動駕駛的世界模型學習是一個新興且極具潛力的方向，因為它能大幅降低強化學習的樣本復雜度，并且對世界的理解有助于駕駛。然而，由于駕駛環境高度復雜且動態多變，仍需進一步研究來確定哪些內容需要建模，以及如何有效地對世界進行建模。

5.4 對多任務學習的依賴

多任務學習（MTL）是指基于一種共享表征，通過不同的任務頭來聯合執行多項相關任務。多任務學習具有諸多優勢，比如降低計算成本、共享相關領域知識，以及能夠利用任務之間的關系來提升模型的泛化能力。因此，多任務學習非常適合端到端的駕駛場景，在這種場景中，最終的策略預測需要對環境有全面的理解。然而，如何選擇輔助任務的最佳組合，以及如何對損失進行恰當的加權以實現最佳性能，是一個重大挑戰。

5.5 專家模型與策略蒸餾低效

由于模仿學習，或者其主要的子類別——行為克隆，僅僅是模仿專家行為的監督學習，相應的方法通常遵循“teacher-student”范式。這里存在兩個主要挑戰：（1）“teature”，例如由CARLA提供的人工設計的專家自動駕駛程序，盡管能夠獲取周圍智能體的真實狀態和地圖信息，但并非是完美的駕駛者。（2）“student”僅通過記錄的帶有傳感器輸入的輸出來接受監督，這要求他們同時從零開始提取感知特征并學習策略。

盡管人們付出了巨大努力來設計一個強大的專家模型，并在不同層面上進行知識遷移，但“teacher-student”范式仍然存在知識蒸餾效率低下的問題。例如，擁有特殊信息的智能體能夠獲取交通信號燈的真實狀態，而交通信號燈在圖像中是小目標物體，因此很難提煉出相應的特征。結果是，視覺運動智能體與擁有特殊信息的智能體相比，表現出較大的性能差距。這也可能會給“student”智能體帶來因果關系上的混淆。值得探索的是，如何從機器學習中的通用蒸餾方法中獲得更多啟發，以縮小這種差距。
在這里插入圖片描述
📷 圖5. 策略蒸餾。(a) 特權智能體通過獲取特權真實信息來學習穩健的策略。圖中專家用虛線標注，表明如果特權智能體通過強化學習進行訓練，專家并非必需。(b) 感覺運動智能體通過特征蒸餾和輸出模仿兩種方式來模仿特權智能體。

5.6 缺乏可解釋性

可解釋性在自動駕駛領域中起著至關重要的作用。它能讓工程師更好地調試系統，從社會層面為系統性能提供保障，并且有助于提高公眾對自動駕駛的接受度。對于通常被稱為“黑箱”的端到端駕駛模型而言，實現其可解釋性不僅更為關鍵，而且極具挑戰性。下圖展示了用于端到端自動駕駛的集中方法，包括注意力可視化、引入可解釋化任務、融合規則和成本的學習、基于自然語言的學習和不確定性建模。
在這里插入圖片描述
📷圖6. 不同可解釋性形式的總結。它們有助于人們理解端到端模型的決策過程以及輸出的可靠性。

5.7 缺乏安全保障

在現實世界場景中部署自動駕駛系統時，確保安全至關重要。然而，與傳統的基于規則的方法不同，端到端框架基于學習的本質使得其在安全性方面從根本上缺乏精確的數學推導證明。然而，需要注意的是，模塊化駕駛系統已經在其運動規劃或速度預測模塊中納入了特定的與安全相關的約束條件或優化措施，以確保安全性。這些機制有可能經過調整后作為后處理步驟或安全檢查集成到端到端模型中，從而提供額外的安全保障。

5.8 因果混淆

近二十年來，模仿學習中的因果關系混淆一直是一個長期存在的挑戰。最早報道這種現象的是勒昆（LeCun）等人。他們使用單個輸入幀來進行轉向預測，以避免出現這種外推情況。盡管這種方法比較簡單，但在當前最先進的模仿學習（IL）方法中，它仍是一種首選的解決方案。遺憾的是，使用單個幀很難提取周圍行為體的運動情況。因果關系混淆的另一個來源是速度測量。圖7展示了一輛在紅燈前等待的汽車的例子。這輛汽車的動作與其速度可能高度相關，因為在很多幀畫面中，它的速度為零且動作是剎車。只有當交通信號燈從紅燈變為綠燈時，這種相關性才會被打破。
在這里插入圖片描述
📷 圖7. 因果混淆。汽車當前的行為與速度或汽車過去的軌跡等低維虛假特征密切相關。端到端模型可能會依賴這些特征，從而導致因果混淆。

5.9 缺乏魯棒性

1）長尾分布：長尾分布問題的一個重要方面是數據集不均衡，即少數類別占據了大多數，如圖8（a）所示。這對模型推廣到多樣化環境構成了巨大挑戰。各種方法通過數據處理來緩解這一問題，包括過采樣、欠采樣以及數據增強。此外，基于加權的方法也被廣泛使用。

2）協變量偏移：正如在模仿學習中所討論的，行為克隆面臨的一個重要挑戰是協變量偏移。專家策略下的狀態分布與經過訓練的智能體策略下的狀態分布有所不同，這就導致當將經過訓練的智能體部署到未曾見過的測試環境中，或者當其他智能體的反應與訓練時不同時，會產生復合誤差。這可能會使經過訓練的智能體處于專家訓練分布之外的狀態，從而導致嚴重的失敗。圖8（b）展示了一個相關示例。

3）域適應：域適應（DA）是一種遷移學習，其中目標任務與源任務相同，但域不同。在此，我們討論這樣的場景：源域有可用的標簽，而目標域沒有標簽或者只有少量可用的標簽。
在這里插入圖片描述
📷 圖8. 穩健性方面的挑戰。與數據集分布差異相關的主要泛化問題有三個，即長尾分布與普通情況、專家演示與測試場景，以及位置、天氣等方面的領域轉移。

6. 未來研究方向

6.1 零樣本與小樣本學習

自動駕駛模型最終不可避免地會遇到超出訓練數據分布范圍的現實世界場景。這就引出了一個問題：我們是否能夠成功地讓模型適應一個未曾見過的目標領域，而在這個領域中只有有限的標記數據，甚至沒有標記數據。對于端到端駕駛領域而言，將這一任務形式化，并融入來自零樣本/少樣本學習文獻中的技術，是實現這一目標的關鍵步驟。

6.2 模塊化端到端規劃

模塊化端到端規劃框架在優化多個模塊的同時，將最終的規劃任務置于優先地位，這種框架具有可解釋性的優勢。最近的文獻都提倡這種框架，并且某些行業解決方案（如特斯拉、Wayve等）也融入了類似的理念。在設計這些可微感知模塊時，會出現一些關于損失函數選擇的問題，比如在目標檢測中三維邊界框的必要性，在靜態場景感知中，是選擇鳥瞰圖（BEV）分割還是車道拓撲結構，或者是在模塊數據有限的情況下的訓練策略等問題。

6.3 數據引擎

大規模且高質量的數據對于自動駕駛的重要性，怎么強調都不為過。建立一個配備自動標注流水線的數據引擎，能夠極大地推動數據和模型的迭代發展。用于自動駕駛的數據引擎，尤其是模塊化端到端規劃系統，需要借助大型感知模型，以自動化的方式簡化高質量感知標簽的標注流程。它還應該支持挖掘困難/極端情況、場景生成和編輯，以便進行數據驅動評估，并提高數據的多樣性以及模型的泛化能力。一個數據引擎將使自動駕駛模型能夠持續地改進。

6.4 基礎模型

近期，在語言領域和視覺領域的基礎模型方面取得的進展已經證明，大規模的數據和模型容量能夠釋放人工智能在高級推理任務中的巨大潛力。微調或提示學習的范式、以自監督重建或對比對等形式的優化方法，都適用于端到端的駕駛領域。然而，我們認為直接將大型語言模型（LLMs）應用于駕駛可能會存在問題。自動駕駛智能體的輸出需要穩定且準確的測量結果，而語言模型的生成式輸出旨在表現得像人類一樣，卻并不太在意其準確性。開發一個“基礎”駕駛模型的可行解決方案是訓練一個世界模型，該模型能夠在二維、三維或潛在空間中預測環境合理的未來狀況。為了在諸如規劃等下游任務中表現良好，對于該模型而言，需要優化的目標必須足夠完善，不能僅僅局限于幀級別的感知。

總結

? Research Question
本文主要提出并回答了下面三個研究問題：

端到端自動駕駛主要的技術路線是什么？
目前端到端自動駕駛面臨著什么樣的困難與挑戰？
未來可能的發展方向是什么？

總結: 本文通過文獻綜述的方式，梳理了目前端到端自動駕駛常用的一些技術路線及方法：模仿學習與強化學習。同時，詳細地總結了端到端自動駕駛面臨著的挑戰，包括傳感器輸入模態、視覺表征、可解釋性、因果混淆、數據泛化性與魯棒性等。并且指明了未來可能的4個發展方向，包括端到端自動駕駛中的零樣本與小樣本學習、模塊化端到端規劃、數據引擎以及基礎模型的運用。