自動駕駛VLA模型技術解析與模型設計

1.前言

2025年被稱為“VLA上車元年”，以視覺語言動作模型（Vision-Language-Action Model, VLA）為核心的技術范式正在重塑智能駕駛行業。VLA不僅融合了視覺語言模型（VLM）的感知能力和端到端模型的決策能力，更引入了“思維鏈”技術，實現了全局上下文理解與類人推理能力，革命性技術的落地將推動智能駕駛從“功能時代”邁向“體驗時代”，并可能在未來兩年內改寫智能駕駛市場的競爭格局。2025年的智能駕駛：VLA上車元年

視覺語言動作模型（VLA）由 DeepMind 在 2023 年首次提出，應用于機器人領域，通過視覺與語言輸入生成物理世界可執行的動作。VLA 模型被視為視覺語言模型（VLM）與端到端（End-to-End, E2E）技術的結合體，核心特性：

多模態感知與決策：能夠基于視覺與語言信息進行實時感知，通過“思維鏈”技術構建類人邏輯，推理復雜場景下的最優駕駛決策。
全局上下文理解：能夠理解長達數十秒的全局路況信息，這對于施工工區、潮汐車道等復雜場景尤為重要。
系統透明性與可解釋性：推理過程全程可求導，能夠通過車載顯示向用戶解釋駕駛邏輯，增強用戶信任感。

隨著城區NOA（Navigate on Autopilot）的普及，用戶對智能駕駛體驗的需求從“能用”轉向“好用”。傳統VLM或端到端方案雖然在感知與決策方面有了顯著提升，但在復雜路況下仍存在局限：

短視化問題：現有系統通常只能應對7秒內的路況推理，而在突發情況（如交通指揮手勢）中表現不足。
缺乏解釋能力：用戶對“為什么這么開”的需求未被充分滿足，導致體驗層面信任不足。
決策全局性不足：面對動態復雜場景，傳統方案難以統籌多重變量并實現安全優化。

2. 技術分析

谷歌在2024年11月份發表了一篇文章EMMA：面向自動駕駛的端到端多模態模型（EMMA: End-to-End Multimodal Model for Autonomous Driving），是比較典型的自動駕駛VLA模型，我們接下來分析其技術路線和模型設計。

論文地址：[2410.23262] EMMA: End-to-End Multimodal Model for Autonomous Driving

代碼地址：https://github.com/taco-group/OpenEMMA/tree/main（第三方復現，谷歌未開源）

復現論文地址：https://arxiv.org/pdf/2412.15208

2.1 摘要

目前大語言模型較為成熟，因此無論是VLM或者VLA模型都是以大語言模型為基礎的。MLLMs 擁有兩大優勢：一是訓練數據來自大規模互聯網，擁有廣泛的“世界知識”；二是具備強大的推理能力（如 CoT chain-of-thought），這是現有駕駛模型難以具備的。EMMA 基于多模態大語言模型構建，能夠直接將原始攝像頭傳感器數據映射為多種駕駛相關輸出，包括規劃軌跡、感知目標以及道路圖結構等。為了最大程度利用預訓練大語言模型的“世界知識”，EMMA 將所有非傳感器輸入（例如導航指令和自車狀態）以及輸出（如未來軌跡和三維坐標）統一表示為自然語言文本。通過將駕駛任務轉化為視覺問答（VQA）問題，EMMA 能夠在保留 Gemini 原有能力的基礎上進行端到端的多任務駕駛決策。微調后，EMMA 能夠生成未來軌跡、目標檢測結果、道路結構等輸出，并展現出可解釋性和多任務能力。

從上圖可以看出，EMMA的輸入包括：

高層指令（Router Command）：例如 "左轉"、"直行" 等導航目的。
自車歷史狀態（Ego Vehicle History）：以BEV格式的歷史軌跡點表示。
環視攝像頭圖像（Surround-view Camera Videos）：多視角圖像輸入。

輸出包括：

未來自車軌跡（Ego Trajectory Prediction）：用于運動規劃，可轉為實際控制命令。
推理解釋（Rationale Text）：模型在做決策前生成的邏輯解釋，包括場景描述、關鍵對象、對象行為和駕駛決策。
其他模塊能力：3D目標檢測、道路圖估計、場景問答（如“前方是否臨時封閉？”）

模型的輸入輸出除了圖像外，全部以自然語言文本格式生成，輸入圖像是單幀多攝像頭組合，EMMA 沒有使用相機的外參（extrinsics）或內參（intrinsics），也沒有構建BEV特征圖，而是通過大模型對上下文建模能力間接學習到的。這里感覺不太合適，因為不同的攝像頭參數、車輛參數會導致圖像不一致，簡單點可以將攝像頭的內外參作為prompt輸入給模型，論文中的一些prompt參考形式如下：

這是來自前視攝像頭的圖像。該攝像頭的參數如下：
- 內參矩陣 fx=1000, fy=1000, cx=640, cy=360；
- 相對于車輛坐標的位置為 (1.2m, 0.0m, 1.5m)，方向為無旋轉。
請根據該圖像判斷當前場景。

自車在過去3幀的狀態為：
時刻-3：位置 (0.00, 0.00)，速度 0.0 m/s，加速度 0.0 m/s2
時刻-2：位置 (1.50, 0.00)，速度 5.0 m/s，加速度 1.0 m/s2
時刻-1：位置 (3.00, 0.10)，速度 6.0 m/s，加速度 1.0 m/s2

導航提示：
- 當前處于城市快速路段，限速為100 km/h；
- 前方約300米有一個匝道口，將并入主路，請保持當前車速；
- 并線后繼續直行，約1公里后準備右轉下高速。

2.2 技術架構

EMMA 是建立在 Gemini 大模型之上，論文中提到使用的是Gemini 1.0 Nano-1（未開源），模型大小為1.8B左右。如果項復現論文，可以嘗試前面提到的OpenEMMA中使用的開源模型，如LLaVA-1.6-Mistral-7B、LLaMA-3.2-11B-Vision、Qwen2-VL-7B等。這些模型采用相似的范式：首先是將圖像進行編碼，如CNN、ViT、CLIP-ViT（使用最為廣泛，CLIP在大量圖文對上訓練），然后將圖像編碼特征通過MLP或者Q-Former映射到語言模型空間中的token，論文中采用了簡單的MLP進行映射，然后結合圖像特征token和文本token輸入到LLM模型，LLM模型最終以文本的形式輸出各個任務的結果，其數學公式可以表達為：

O = G(T, V)

其中：

G：Gemini 模型

T：自然語言提示（prompts）

V：圖像或視頻

O：自然語言輸出

其結果輸出均為文本，參考格式如下。在訓練過程中，需要提供3D目標以及拓撲參數作為真值。另外，作為推理的R1-R4也是通過自動化方法構建標簽。例如R1中場景描述可以通過數據記錄log提取，R2通過感知模型獲取，R3、R4通過記錄的未來行駛軌跡對車輛行為進行描述，如前方車輛減速停止，前方紅綠燈自車停車等待。

車輛 (12.50, -1.20, 1.10, 長4.2, 寬1.8, 高1.6, 朝向0.3rad)  
行人 (9.20, 3.10, 0.0, 長0.8, 寬0.6, 高1.7, 朝向0.0)

將 T 個未來軌跡點 (xt, yt) 轉成浮點文本：
未來軌跡為：  
(3.00, 0.15), (5.80, 0.35), (8.50, 0.50), ...

R1 場景描述（天氣、道路類型、交通）R2 關鍵物體（帶坐標）R3 物體行為（靜止、移動方向等）R4 駕駛決策（保持低速、剎車等）R1: 天氣晴朗，道路為雙向兩車道，有人行道。  
R2: 行人 [9.2, 3.1]，車輛 [12.5, -1.2]  
R3: 行人正準備過馬路，車輛正在加速前行  
R4: 我應該減速觀察，準備停車

2.3 實驗結果

實驗1：預測未來 ego 軌跡

WOMD 上，EMMA 與 MotionLM、Wayformer 相當，在前 5s 內表現更優（ADE 1~5s）
nuScenes 上，EMMA 在 self-supervised 方法中表現最好，甚至超過部分 supervised 方法（比如 DriveVLM-Dual）

實驗2：Chain-of-Thought 推理與數據擴

CoT 推理結構包括：

R1: 場景描述
R2: 關鍵目標位置
R3: 目標行為描述
R4: Meta driving decision

結果：
CoT 總體提升：+6.7%

R3（meta decision）+3.0%，R2（critical objects）+1.5%

R1 對性能中性，但提升了可解釋性

實驗3：感知任務實驗（3D 目標檢測、地圖估計、場景理解）
感知任務：
3D Object Detection：在 WOD 上，與 BEVFormer、MV-FCOS3D++ 對比

Road Graph Estimation：預測 BEV 中的 lane graph polyline

Scene Understanding：識別是否有臨時路障（如施工區、障礙物）

3D 檢測結果（LET-Metric）：
EMMA+ 相比 BEVFormer：

車輛 precision 提升 16.3%

pedestrian recall 與 MV-FCOS3D++ 持平

Road Graph：
動態采樣、ego 對齊、shuffle target、加 padding、加分隔符等設計都顯著提高性能

動態采樣最重要：提升 40%~90% 精度

Scene understanding：
單任務 fine-tune 表現優于人類 baseline

2.4 結論

EMMA 在 nuScenes 數據集上的運動規劃任務中實現了當前先進的性能，在 Waymo Open Motion Dataset（WOMD）上也取得了有競爭力的結果。同時，EMMA 在 Waymo Open Dataset（WOD）中也展現出較強的相機主導的 3D 目標檢測能力。同時還發現，將 EMMA 共同訓練在規劃軌跡、目標檢測和道路圖任務上，可以在所有這三個領域帶來性能提升，凸顯了其作為通用模型在自動駕駛應用中的潛力。然而，EMMA 也存在一些局限性：它僅能處理少量圖像幀、未集成準確的 3D 傳感器如激光雷達或雷達，且計算開銷較大。