1.前言
2025年被稱為“VLA上車元年”,以視覺語言動作模型(Vision-Language-Action Model, VLA)為核心的技術范式正在重塑智能駕駛行業。VLA不僅融合了視覺語言模型(VLM)的感知能力和端到端模型的決策能力,更引入了“思維鏈”技術,實現了全局上下文理解與類人推理能力,革命性技術的落地將推動智能駕駛從“功能時代”邁向“體驗時代”,并可能在未來兩年內改寫智能駕駛市場的競爭格局。2025年的智能駕駛:VLA上車元年
視覺語言動作模型(VLA)由 DeepMind 在 2023 年首次提出,應用于機器人領域,通過視覺與語言輸入生成物理世界可執行的動作。VLA 模型被視為視覺語言模型(VLM)與端到端(End-to-End, E2E)技術的結合體,核心特性:
- 多模態感知與決策:能夠基于視覺與語言信息進行實時感知,通過“思維鏈”技術構建類人邏輯,推理復雜場景下的最優駕駛決策。
- 全局上下文理解:能夠理解長達數十秒的全局路況信息,這對于施工工區、潮汐車道等復雜場景尤為重要。
- 系統透明性與可解釋性:推理過程全程可求導,能夠通過車載顯示向用戶解釋駕駛邏輯,增強用戶信任感。
隨著城區NOA(Navigate on Autopilot)的普及,用戶對智能駕駛體驗的需求從“能用”轉向“好用”。傳統VLM或端到端方案雖然在感知與決策方面有了顯著提升,但在復雜路況下仍存在局限:
- 短視化問題:現有系統通常只能應對7秒內的路況推理,而在突發情況(如交通指揮手勢)中表現不足。
- 缺乏解釋能力:用戶對“為什么這么開”的需求未被充分滿足,導致體驗層面信任不足。
- 決策全局性不足:面對動態復雜場景,傳統方案難以統籌多重變量并實現安全優化。
2. 技術分析
谷歌在2024年11月份發表了一篇文章EMMA:面向自動駕駛的端到端多模態模型(EMMA: End-to-End Multimodal Model for Autonomous Driving),是比較典型的自動駕駛VLA模型,我們接下來分析其技術路線和模型設計。
論文地址:[2410.23262] EMMA: End-to-End Multimodal Model for Autonomous Driving
代碼地址:https://github.com/taco-group/OpenEMMA/tree/main(第三方復現,谷歌未開源)
復現論文地址:https://arxiv.org/pdf/2412.15208
2.1 摘要
目前大語言模型較為成熟,因此無論是VLM或者VLA模型都是以大語言模型為基礎的。MLLMs 擁有兩大優勢:一是訓練數據來自大規模互聯網,擁有廣泛的“世界知識”;二是具備強大的推理能力(如 CoT chain-of-thought),這是現有駕駛模型難以具備的。EMMA 基于多模態大語言模型構建,能夠直接將原始攝像頭傳感器數據映射為多種駕駛相關輸出,包括規劃軌跡、感知目標以及道路圖結構等。為了最大程度利用預訓練大語言模型的“世界知識”,EMMA 將所有非傳感器輸入(例如導航指令和自車狀態)以及輸出(如未來軌跡和三維坐標)統一表示為自然語言文本。通過將駕駛任務轉化為視覺問答(VQA)問題,EMMA 能夠在保留 Gemini 原有能力的基礎上進行端到端的多任務駕駛決策。微調后,EMMA 能夠生成未來軌跡、目標檢測結果、道路結構等輸出,并展現出可解釋性和多任務能力。
從上圖可以看出,EMMA的輸入包括:
-
高層指令(Router Command):例如 "左轉"、"直行" 等導航目的。
-
自車歷史狀態(Ego Vehicle History):以BEV格式的歷史軌跡點表示。
-
環視攝像頭圖像(Surround-view Camera Videos):多視角圖像輸入。
輸出包括:
- 未來自車軌跡(Ego Trajectory Prediction):用于運動規劃,可轉為實際控制命令。
- 推理解釋(Rationale Text):模型在做決策前生成的邏輯解釋,包括場景描述、關鍵對象、對象行為和駕駛決策。
- 其他模塊能力:3D目標檢測、道路圖估計、場景問答(如“前方是否臨時封閉?”)
模型的輸入輸出除了圖像外,全部以自然語言文本格式生成,輸入圖像是單幀多攝像頭組合,EMMA 沒有使用相機的外參(extrinsics)或內參(intrinsics),也沒有構建BEV特征圖,而是通過大模型對上下文建模能力間接學習到的。這里感覺不太合適,因為不同的攝像頭參數、車輛參數會導致圖像不一致,簡單點可以將攝像頭的內外參作為prompt輸入給模型,論文中的一些prompt參考形式如下:
這是來自前視攝像頭的圖像。該攝像頭的參數如下:
- 內參矩陣 fx=1000, fy=1000, cx=640, cy=360;
- 相對于車輛坐標的位置為 (1.2m, 0.0m, 1.5m),方向為無旋轉。
請根據該圖像判斷當前場景。
自車在過去3幀的狀態為:
時刻-3:位置 (0.00, 0.00),速度 0.0 m/s,加速度 0.0 m/s2
時刻-2:位置 (1.50, 0.00),速度 5.0 m/s,加速度 1.0 m/s2
時刻-1:位置 (3.00, 0.10),速度 6.0 m/s,加速度 1.0 m/s2
導航提示:
- 當前處于城市快速路段,限速為100 km/h;
- 前方約300米有一個匝道口,將并入主路,請保持當前車速;
- 并線后繼續直行,約1公里后準備右轉下高速。
2.2 技術架構
EMMA 是建立在 Gemini 大模型之上,論文中提到使用的是Gemini 1.0 Nano-1(未開源),模型大小為1.8B左右。如果項復現論文,可以嘗試前面提到的OpenEMMA中使用的開源模型,如LLaVA-1.6-Mistral-7B、LLaMA-3.2-11B-Vision、Qwen2-VL-7B等。這些模型采用相似的范式:首先是將圖像進行編碼,如CNN、ViT、CLIP-ViT(使用最為廣泛,CLIP在大量圖文對上訓練),然后將圖像編碼特征通過MLP或者Q-Former映射到語言模型空間中的token,論文中采用了簡單的MLP進行映射,然后結合圖像特征token和文本token輸入到LLM模型,LLM模型最終以文本的形式輸出各個任務的結果,其數學公式可以表達為:
O = G(T, V)
其中:
G:Gemini 模型
T:自然語言提示(prompts)
V:圖像或視頻
O:自然語言輸出
其結果輸出均為文本,參考格式如下。在訓練過程中,需要提供3D目標以及拓撲參數作為真值。另外,作為推理的R1-R4也是通過自動化方法構建標簽。例如R1中場景描述可以通過數據記錄log提取,R2通過感知模型獲取,R3、R4通過記錄的未來行駛軌跡對車輛行為進行描述,如前方車輛減速停止,前方紅綠燈自車停車等待。
車輛 (12.50, -1.20, 1.10, 長4.2, 寬1.8, 高1.6, 朝向0.3rad)
行人 (9.20, 3.10, 0.0, 長0.8, 寬0.6, 高1.7, 朝向0.0)
將 T 個未來軌跡點 (xt, yt) 轉成浮點文本:
未來軌跡為:
(3.00, 0.15), (5.80, 0.35), (8.50, 0.50), ...
R1 場景描述(天氣、道路類型、交通)R2 關鍵物體(帶坐標)R3 物體行為(靜止、移動方向等)R4 駕駛決策(保持低速、剎車等)R1: 天氣晴朗,道路為雙向兩車道,有人行道。
R2: 行人 [9.2, 3.1],車輛 [12.5, -1.2]
R3: 行人正準備過馬路,車輛正在加速前行
R4: 我應該減速觀察,準備停車
2.3 實驗結果
實驗1:預測未來 ego 軌跡
- WOMD 上,EMMA 與 MotionLM、Wayformer 相當,在前 5s 內表現更優(ADE 1~5s)
- nuScenes 上,EMMA 在 self-supervised 方法中表現最好,甚至超過部分 supervised 方法(比如 DriveVLM-Dual)
實驗2:Chain-of-Thought 推理與數據擴
CoT 推理結構包括:
- R1: 場景描述
- R2: 關鍵目標位置
- R3: 目標行為描述
- R4: Meta driving decision
結果:
CoT 總體提升:+6.7%
R3(meta decision)+3.0%,R2(critical objects)+1.5%
R1 對性能中性,但提升了可解釋性
實驗3:感知任務實驗(3D 目標檢測、地圖估計、場景理解)
感知任務:
3D Object Detection:在 WOD 上,與 BEVFormer、MV-FCOS3D++ 對比
Road Graph Estimation:預測 BEV 中的 lane graph polyline
Scene Understanding:識別是否有臨時路障(如施工區、障礙物)
3D 檢測結果(LET-Metric):
EMMA+ 相比 BEVFormer:
車輛 precision 提升 16.3%
pedestrian recall 與 MV-FCOS3D++ 持平
Road Graph:
動態采樣、ego 對齊、shuffle target、加 padding、加分隔符等設計都顯著提高性能
動態采樣最重要:提升 40%~90% 精度
Scene understanding:
單任務 fine-tune 表現優于人類 baseline
2.4 結論
EMMA 在 nuScenes 數據集上的運動規劃任務中實現了當前先進的性能,在 Waymo Open Motion Dataset(WOMD)上也取得了有競爭力的結果。同時,EMMA 在 Waymo Open Dataset(WOD)中也展現出較強的相機主導的 3D 目標檢測能力。同時還發現,將 EMMA 共同訓練在規劃軌跡、目標檢測和道路圖任務上,可以在所有這三個領域帶來性能提升,凸顯了其作為通用模型在自動駕駛應用中的潛力。然而,EMMA 也存在一些局限性:它僅能處理少量圖像幀、未集成準確的 3D 傳感器如激光雷達或雷達,且計算開銷較大。