自動駕駛技術從實驗室的算法驗證走向大規模量產應用,是一場充滿挑戰的征程。這段征程的核心驅動力,不僅是芯片和傳感器的升級,更是一場關于數據的“喂養”競賽——從簡單的像素標注到多模態大模型的理解,數據需求的演變悄然推動著自動駕駛的每一次跨越。
早期依靠攝像頭的輔助駕駛(2010~)
一切始于一顆 720p 的單目攝像頭。汽車企業通過 TuSimple、KITTI 等開源數據集,教會車輛識別車道線和行人,此時的算法像一名“新手司機”:檢測到障礙物就剎車,偏離車道則微調方向。但問題顯而易見——雨雪天氣下攝像頭容易失效,復雜路況的泛化能力幾乎為零。這個階段的技術主要應用于輔助駕駛 L0 和 L1 等。數據需求以及對應的開源數據集主要為車道線識別(如 TuSimple)、可行駛區域檢測(如 KITTI Road)、障礙物目標檢測(如 BDD100K)和語義分割(如 Cityscapes),標注方式多為折線或邊界框。
零起點解讀——自動駕駛科普講座之早期依靠攝像頭的輔助駕駛
多傳感器時代(2015~)
激光雷達和毫米波雷達的加入,讓車輛“看”得更遠、更準,通過多傳感器融合,實現了 3D 目標檢測和跨模態追蹤。點云數據標注要求車輛不僅識別障礙物,還需標注 3D 包圍盒的方位、尺寸和運動狀態。此時的自動駕駛已能應對城市道路的變道輔助(L2)和高速導航(L3),但感知階段的融合方式不夠簡潔,且硬件成本高昂和復雜的多傳感器對齊問題,讓量產成為難題。
零起點解讀——自動駕駛科普講座之多傳感器時代
BEV 融合感知(2022~)
BEV(鳥瞰視角)融合感知技術核心在于將多傳感器數據統一投影到俯視網格中,解決了多模態數據融合的難題。純視覺派(8 顆攝像頭)和激光雷達派殊途同歸:幾何精度與語義理解得以兼得,避免了直接在原始數據或高層輸出上融合帶來的對齊困難與信息丟失。這一階段的數據利用效率大幅提升,同一段視頻可同時訓練車道線識別、路徑規劃等多個任務。數據采集和標注需求雖未變化,但 BEV 讓低成本方案成為可能。
零起點解讀——自動駕駛科普講座之BEV融合感知
OCC 占據網格(2023~)
傳統 3D 包圍框只能告訴車輛“前方有車”,而 OCC 占據網格技術通過動態目標追蹤和 4D 靜態分割,實現了體素級的場景重建。簡單來說,車輛能判斷“這輛車的右后方是否被遮擋”。數據加工需融合動態物體軌跡與高精地圖重建,標注每一幀的占據狀態。這一技術正在攻克匝道匯流、夜間鬼探頭等極端場景,為 L4 級自動駕駛鋪路,從“看見”到“理解”,提升駕駛安全。
零起點解讀——自動駕駛科普講座之OCC占據網格
在線高精地圖(2023~)
傳統自動駕駛系統依賴 HD 地圖提供厘米級定位和豐富的語義信息,然而 HD 地圖的高昂制圖、更新與維護成本,以及對新區域的覆蓋難題,限制了大規模部署和異地遷移。清華 MARS 實驗室通過車載傳感器實時構建車道拓撲(如 OpenLaneV2 數據集),替代昂貴的高精地圖采購。這類數據需標注車道中心線、道路要素、拓撲關系,甚至支持“紅綠燈右轉后并線”的復雜指令解析。
零起點解讀——自動駕駛科普講座之在線高精地圖
端到端模型(2024~)
端到端模型拋棄了模塊化設計,直接輸入傳感器數據輸出控制信號,這對極端場景泛化能力與安全可驗證性提出更高要求,訓練數據需求量與計算成本劇增。如特斯拉 FSD v12 的底層邏輯,是將 100 萬段真實駕駛視頻壓縮到神經網絡中,讓車輛像人類一樣“直覺駕駛”。這種模式無需人工標注車道線,但依賴海量駕駛行為數據(尤其是極端場景),并通過“影子模式”持續收集用戶數據。
零起點解讀——自動駕駛科普講座之端到端
多模態大模型(2025~)
VLM VLA 這一階段通常也被宣傳為端到端。訓練這類模型需將視頻、控制信號與語言描述精準對齊。其技術特點在于端到端控制輸出、多模態融合等,不僅生成控制命令,還能輸出語言解釋。未來的車輛不僅是執行者,更是具備推理能力的“伙伴”,甚至能解釋決策邏輯。但 VLA 的標注成本高且需具備專業背景的標注員,標注一致性難保證,如何將模擬遷移到現場場景也尚待解決。
零起點解讀——自動駕駛科普講座之多模態大模型
自動駕駛的終局,或許不取決于傳感器的數量或算法的復雜度,而在于誰能更高效地將路況轉化為數據,再將數據沉淀為通用智能。當一輛車能理解“晚高峰右轉道的加塞潛規則”,或是讀懂山區暴雨中的模糊標線時,這場技術革命才真正從實驗室走進人類社會。
點擊了解更多自動駕駛科普講座:
零起點解讀——數據堂自動駕駛科普講座