《VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision》2024年12月發表,來自Cruise和美國東北大學的論文。
人類駕駛員依靠常識推理來駕馭多樣化和動態的現實世界場景。現有的端到端(E2E)自動駕駛(AD)模型通常經過優化,以模擬數據中觀察到的駕駛模式,而不捕獲底層推理過程。這種限制限制了他們處理具有挑戰性的駕駛場景的能力。為了縮小這一差距,我們提出了VLM-AD,這是一種利用視覺語言模型(VLM)作為教師的方法,通過提供包含非結構化推理信息和結構化動作標簽的額外監督來加強培訓。這種監督增強了模型學習更豐富的特征表示的能力,這些特征表示捕捉了駕駛模式背后的基本原理。重要的是,我們的方法在推理過程中不需要VLM,使其適用于實時部署。當與最先進的方法集成時,VLM-AD在nuScenes數據集上的規劃精度和碰撞率方面取得了顯著提高。
?
研究背景與問題
現有的端到端(E2E)自動駕駛模型通過模仿數據中的駕駛模式進行優化,但缺乏人類駕駛員在復雜場景中的常識推理能力,導致在長尾事件(如罕見交通場景)中表現不佳。傳統方法依賴人工標注的軌跡數據,但標注成本高且難以捕捉隱含的推理邏輯;而直接集成大語言模型(LLM)或視覺語言模型(VLM)的方法則需要大量微調,且推理時依賴大模型,計算開銷大。
核心貢獻
提出?VLM-AD?方法,通過以下創新點解決上述問題:
?
-
VLM作為教師模型:
-
在訓練階段,利用VLM(如GPT-4)自動生成非結構化推理文本(如“當前動作”“未來預測”“推理邏輯”)和結構化動作標簽(如“直行”“左轉”)。
-
將未來軌跡投影到前視圖像中,解決VLM對時序信息理解不足的問題。
-
-
輔助任務設計:
-
特征對齊任務:通過交叉注意力機制,將模型特征與VLM生成的文本特征對齊。
-
動作分類任務:直接預測結構化動作標簽。
-
通過多任務學習聯合優化,提升模型對駕駛邏輯的理解。
-
-
無需推理時依賴VLM:僅在訓練階段使用VLM生成標注,實際部署時無需大模型,保證實時性。
方法細節
?
-
數據標注流程:
-
輸入:前視圖像 + 投影的未來軌跡(解決時序問題)。
-
標注生成:
-
自由文本(Q1):通過開放式問題(如“當前動作是什么?”“未來會做什么?”“推理邏輯?”)生成非結構化文本。
-
結構化動作(Q2):從預定義動作列表(如“直行”“左轉”)中選擇標簽。
-
-
標注編碼:使用CLIP將文本轉為特征向量,動作標簽轉為one-hot編碼。
-
-
模型架構:
-
輔助任務頭:
-
特征對齊頭:通過多頭交叉注意力(MHCA)將模型特征與文本特征對齊,使用溫度參數控制特征分布平滑度。
-
動作分類頭:直接預測結構化動作,使用交叉熵損失優化。
-
-
損失函數:加權結合特征對齊損失(LalignLalign?)和動作分類損失(LactionLaction?)。
-
實驗結果
-
性能提升:
-
在nuScenes數據集上,VLM-AD顯著降低了規劃誤差(L2誤差降低14.6%-33.3%)和碰撞率(降低38.7%-57.4%)。
-
集成到UniAD和VAD模型后,均優于基線方法和對比方法(如VLP)。
-
-
消融實驗:
-
子問題貢獻:推理問題(Q1-3)對性能提升最大,說明推理邏輯是關鍵。
-
特征對齊方法:提出的溫度歸一化方法優于MSE、KL散度等傳統對齊方式。
-
模型設計:使用MHCA塊和CLIP編碼效果最佳。
-
-
可視化分析:
-
VLM-AD生成的軌跡更平滑且符合道路結構,而基線模型(如UniAD)軌跡抖動較大。
-
動作預測頭提供了可解釋性(如正確輸出“直行”而非錯誤轉向指令)。
-
局限性及未來方向
-
標注質量依賴VLM:
-
VLM可能誤判動作(如將右轉誤標為左轉)或環境狀態(如混淆交通燈與行人燈)。
-
改進方向:設計更精細的提示(Prompt)或引入多模態輸入(如激光雷達)。
-
-
數據集多樣性不足:
-
nuScenes數據集中97%的樣本為“直行”,限制了模型對復雜動作的學習。
-
改進方向:引入更多長尾場景數據或合成數據增強。
-
-
實時性挑戰:
-
當前方法在訓練階段需調用VLM生成標注,未來可探索輕量化VLM或離線標注加速流程。
-
總結
VLM-AD通過VLM生成的推理監督信號,顯著提升了端到端自動駕駛模型的規劃能力和魯棒性,同時避免了推理時的高計算開銷。其核心價值在于:
-
低成本標注:利用VLM自動生成高質量監督信號,減少對人工標注的依賴。
-
可解釋性:通過動作分類頭提供人類可理解的決策邏輯。
-
通用性:可靈活集成到現有E2E框架(如UniAD、VAD),具有廣泛適用性。
未來工作可進一步優化VLM標注的準確性,并結合多模態感知提升復雜場景的泛化能力。
如果此文章對您有所幫助,那就請點個贊吧,收藏+關注 那就更棒啦,十分感謝!!!?