自動駕駛VLA模型技術解析與模型設計

1.前言

2025年被稱為“VLA上車元年”,以視覺語言動作模型(Vision-Language-Action Model, VLA)為核心的技術范式正在重塑智能駕駛行業。VLA不僅融合了視覺語言模型(VLM)的感知能力和端到端模型的決策能力,更引入了“思維鏈”技術,實現了全局上下文理解與類人推理能力,革命性技術的落地將推動智能駕駛從“功能時代”邁向“體驗時代”,并可能在未來兩年內改寫智能駕駛市場的競爭格局。2025年的智能駕駛:VLA上車元年

視覺語言動作模型(VLA)由 DeepMind 在 2023 年首次提出,應用于機器人領域,通過視覺與語言輸入生成物理世界可執行的動作。VLA 模型被視為視覺語言模型(VLM)與端到端(End-to-End, E2E)技術的結合體,核心特性:

  • 多模態感知與決策:能夠基于視覺與語言信息進行實時感知,通過“思維鏈”技術構建類人邏輯,推理復雜場景下的最優駕駛決策。
  • 全局上下文理解:能夠理解長達數十秒的全局路況信息,這對于施工工區、潮汐車道等復雜場景尤為重要。
  • 系統透明性與可解釋性:推理過程全程可求導,能夠通過車載顯示向用戶解釋駕駛邏輯,增強用戶信任感。

隨著城區NOA(Navigate on Autopilot)的普及,用戶對智能駕駛體驗的需求從“能用”轉向“好用”。傳統VLM或端到端方案雖然在感知與決策方面有了顯著提升,但在復雜路況下仍存在局限:

  • 短視化問題:現有系統通常只能應對7秒內的路況推理,而在突發情況(如交通指揮手勢)中表現不足。
  • 缺乏解釋能力:用戶對“為什么這么開”的需求未被充分滿足,導致體驗層面信任不足。
  • 決策全局性不足:面對動態復雜場景,傳統方案難以統籌多重變量并實現安全優化。

2. 技術分析

谷歌在2024年11月份發表了一篇文章EMMA:面向自動駕駛的端到端多模態模型(EMMA: End-to-End Multimodal Model for Autonomous Driving),是比較典型的自動駕駛VLA模型,我們接下來分析其技術路線和模型設計。

論文地址:[2410.23262] EMMA: End-to-End Multimodal Model for Autonomous Driving

代碼地址:https://github.com/taco-group/OpenEMMA/tree/main(第三方復現,谷歌未開源)

復現論文地址:https://arxiv.org/pdf/2412.15208

2.1 摘要

目前大語言模型較為成熟,因此無論是VLM或者VLA模型都是以大語言模型為基礎的。MLLMs 擁有兩大優勢:一是訓練數據來自大規模互聯網,擁有廣泛的“世界知識”;二是具備強大的推理能力(如 CoT chain-of-thought),這是現有駕駛模型難以具備的。EMMA 基于多模態大語言模型構建,能夠直接將原始攝像頭傳感器數據映射為多種駕駛相關輸出,包括規劃軌跡、感知目標以及道路圖結構等。為了最大程度利用預訓練大語言模型的“世界知識”,EMMA 將所有非傳感器輸入(例如導航指令和自車狀態)以及輸出(如未來軌跡和三維坐標)統一表示為自然語言文本。通過將駕駛任務轉化為視覺問答(VQA)問題,EMMA 能夠在保留 Gemini 原有能力的基礎上進行端到端的多任務駕駛決策。微調后,EMMA 能夠生成未來軌跡、目標檢測結果、道路結構等輸出,并展現出可解釋性和多任務能力。

從上圖可以看出,EMMA的輸入包括:

  • 高層指令(Router Command):例如 "左轉"、"直行" 等導航目的。

  • 自車歷史狀態(Ego Vehicle History):以BEV格式的歷史軌跡點表示。

  • 環視攝像頭圖像(Surround-view Camera Videos):多視角圖像輸入。

輸出包括:

  • 未來自車軌跡(Ego Trajectory Prediction):用于運動規劃,可轉為實際控制命令。
  • 推理解釋(Rationale Text):模型在做決策前生成的邏輯解釋,包括場景描述、關鍵對象、對象行為和駕駛決策。
  • 其他模塊能力:3D目標檢測、道路圖估計、場景問答(如“前方是否臨時封閉?”)

模型的輸入輸出除了圖像外,全部以自然語言文本格式生成,輸入圖像是單幀多攝像頭組合,EMMA 沒有使用相機的外參(extrinsics)或內參(intrinsics),也沒有構建BEV特征圖,而是通過大模型對上下文建模能力間接學習到的。這里感覺不太合適,因為不同的攝像頭參數、車輛參數會導致圖像不一致,簡單點可以將攝像頭的內外參作為prompt輸入給模型,論文中的一些prompt參考形式如下:

這是來自前視攝像頭的圖像。該攝像頭的參數如下:
- 內參矩陣 fx=1000, fy=1000, cx=640, cy=360;
- 相對于車輛坐標的位置為 (1.2m, 0.0m, 1.5m),方向為無旋轉。
請根據該圖像判斷當前場景。
自車在過去3幀的狀態為:
時刻-3:位置 (0.00, 0.00),速度 0.0 m/s,加速度 0.0 m/s2
時刻-2:位置 (1.50, 0.00),速度 5.0 m/s,加速度 1.0 m/s2
時刻-1:位置 (3.00, 0.10),速度 6.0 m/s,加速度 1.0 m/s2
導航提示:
- 當前處于城市快速路段,限速為100 km/h;
- 前方約300米有一個匝道口,將并入主路,請保持當前車速;
- 并線后繼續直行,約1公里后準備右轉下高速。

2.2 技術架構

EMMA 是建立在 Gemini 大模型之上,論文中提到使用的是Gemini 1.0 Nano-1(未開源),模型大小為1.8B左右。如果項復現論文,可以嘗試前面提到的OpenEMMA中使用的開源模型,如LLaVA-1.6-Mistral-7B、LLaMA-3.2-11B-Vision、Qwen2-VL-7B等。這些模型采用相似的范式:首先是將圖像進行編碼,如CNN、ViT、CLIP-ViT(使用最為廣泛,CLIP在大量圖文對上訓練),然后將圖像編碼特征通過MLP或者Q-Former映射到語言模型空間中的token,論文中采用了簡單的MLP進行映射,然后結合圖像特征token和文本token輸入到LLM模型,LLM模型最終以文本的形式輸出各個任務的結果,其數學公式可以表達為:

O = G(T, V)

其中:

G:Gemini 模型

T:自然語言提示(prompts)

V:圖像或視頻

O:自然語言輸出

其結果輸出均為文本,參考格式如下。在訓練過程中,需要提供3D目標以及拓撲參數作為真值。另外,作為推理的R1-R4也是通過自動化方法構建標簽。例如R1中場景描述可以通過數據記錄log提取,R2通過感知模型獲取,R3、R4通過記錄的未來行駛軌跡對車輛行為進行描述,如前方車輛減速停止,前方紅綠燈自車停車等待。

車輛 (12.50, -1.20, 1.10, 長4.2, 寬1.8, 高1.6, 朝向0.3rad)  
行人 (9.20, 3.10, 0.0, 長0.8, 寬0.6, 高1.7, 朝向0.0)
將 T 個未來軌跡點 (xt, yt) 轉成浮點文本:
未來軌跡為:  
(3.00, 0.15), (5.80, 0.35), (8.50, 0.50), ...
R1 場景描述(天氣、道路類型、交通)R2 關鍵物體(帶坐標)R3 物體行為(靜止、移動方向等)R4 駕駛決策(保持低速、剎車等)R1: 天氣晴朗,道路為雙向兩車道,有人行道。  
R2: 行人 [9.2, 3.1],車輛 [12.5, -1.2]  
R3: 行人正準備過馬路,車輛正在加速前行  
R4: 我應該減速觀察,準備停車  

2.3 實驗結果

實驗1:預測未來 ego 軌跡

  • WOMD 上,EMMA 與 MotionLM、Wayformer 相當,在前 5s 內表現更優(ADE 1~5s)
  • nuScenes 上,EMMA 在 self-supervised 方法中表現最好,甚至超過部分 supervised 方法(比如 DriveVLM-Dual)

實驗2:Chain-of-Thought 推理與數據擴

CoT 推理結構包括:

  • R1: 場景描述
  • R2: 關鍵目標位置
  • R3: 目標行為描述
  • R4: Meta driving decision

結果:
CoT 總體提升:+6.7%

R3(meta decision)+3.0%,R2(critical objects)+1.5%

R1 對性能中性,但提升了可解釋性

實驗3:感知任務實驗(3D 目標檢測、地圖估計、場景理解)
感知任務:
3D Object Detection:在 WOD 上,與 BEVFormer、MV-FCOS3D++ 對比

Road Graph Estimation:預測 BEV 中的 lane graph polyline

Scene Understanding:識別是否有臨時路障(如施工區、障礙物)

3D 檢測結果(LET-Metric):
EMMA+ 相比 BEVFormer:

車輛 precision 提升 16.3%

pedestrian recall 與 MV-FCOS3D++ 持平

Road Graph:
動態采樣、ego 對齊、shuffle target、加 padding、加分隔符等設計都顯著提高性能

動態采樣最重要:提升 40%~90% 精度

Scene understanding:
單任務 fine-tune 表現優于人類 baseline

2.4 結論

EMMA 在 nuScenes 數據集上的運動規劃任務中實現了當前先進的性能,在 Waymo Open Motion Dataset(WOMD)上也取得了有競爭力的結果。同時,EMMA 在 Waymo Open Dataset(WOD)中也展現出較強的相機主導的 3D 目標檢測能力。同時還發現,將 EMMA 共同訓練在規劃軌跡、目標檢測和道路圖任務上,可以在所有這三個領域帶來性能提升,凸顯了其作為通用模型在自動駕駛應用中的潛力。然而,EMMA 也存在一些局限性:它僅能處理少量圖像幀、未集成準確的 3D 傳感器如激光雷達或雷達,且計算開銷較大。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/74682.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/74682.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/74682.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

UDP套接字編程(代碼)

什么是socket套接字編程? 通過Ip地址 端口號這種方式定位一臺主機,這樣的方式我們就叫做socket套接字。 Udp Socket 接口介紹 這些案列我們使用的接口基本都是一樣的,所以在這里我先把接口介紹完,具體的細節后面在說明。 創…

汽車行業可信數據空間研究探索

近期,相關老師在新能源汽車國家大數據聯盟微課堂發表了題為“汽車行業可信數據空間研究探索”的演講,主要包括可信數據空間的概念內涵、汽車行業可信數據空間的發展現狀、數據流通場景和技術需求研究、汽車行業可信數據空間的場景建設建議四個方面展開。…

圓弧插補相關算法匯總(C++和ST源代碼)

運動控制需要了解相關的插補概念,在閱讀本篇博客之前需要了解相關的準備知識,常用鏈接如下: SMART PLC直線插補詳解-CSDN博客文章瀏覽閱讀2.1k次,點贊2次,收藏4次。本文介紹了SMART PLC中軸組對象的概念,詳細講解了直線插補的原理和指令使用,包括SMART PLC從V2.7版本開…

Entity Framework框架

深入理解C#中的Entity Framework框架:從理論到實踐 在C#開發中,與數據庫交互是幾乎所有應用程序的核心需求之一。Entity Framework (EF) 作為微軟官方推出的ORM框架,極大地簡化了數據庫操作。本文將帶您深入理解EF框架的核心概念&#xff0c…

C++11QT復習 (五)

文章目錄 **Day6-2 成員訪問運算符重載(2025.03.25)****1. 復習****2. 成員訪問運算符重載****2.1 箭頭運算符 (->) 重載****(1) 語法** **2.2 解引用運算符 (*) 重載****(1) 語法** **3. 代碼分析****3.1 代碼結構****3.2 代碼解析****(1) Data 類**…

簡歷含金量的描述和注意事項!

背景 最近,在公司負責后端相關面試,簡歷看了不下 50 份,面試 10,純手碼 2000 多字,說說我對簡歷的看法,希望給大家一點啟發。 教育經歷 在眾多求職面試中,我發現多數求職者容易忽視教育背景的…

cellnet框架概述

cellnet框架是一個?高性能、組件化、多協議支持?的開源服務器網絡庫,專注于游戲服務器、分布式的多進程通信等場景的開發。 一、核心特性 ?支持多個主流協議,包括TCP、UDP、HTTP、WebSocket。并且抽象底層協議差異,統一網絡連接管理?。 …

【加密社】如何創建自己的幣圈工具站

需要準備的工作 1.域名 2.服務器 周末的時候主要弄了快訊這方面的代碼 我這里用的是星球日報的api,也可以訂閱他們的rss,這部分在github上是開源的 https://github.com/ODAILY 我這里用的是WordPressonenav主題,然后用小工具在主頁展示&am…

Docker學習筆記(十一)宿主機無法鏈接宿主機問題處理

故障排查優先級排序 服務狀態 → 2. 端口監聽 → 3. 防火墻 → 4. 權限配置 → 5. 網絡路由 (按此順序可覆蓋95%的常見問題?15) mysql鏡像啟動命令: docker run -p 3306:3306 --restartalways --name mysqlv8 -e MYSQL_ROOT_PASSWORDCd…

力扣:回溯算法

組合I class Solution {List<List<Integer>> result new ArrayList(); // 所有結果集List<Integer> list new ArrayList(); // 當前結果集public List<List<Integer>> combine(int n, int k) {dfs(n, k, 1);return result;}public void dfs(i…

華為HCIE鴻蒙應用開發認證靠譜嗎?

在萬物互聯時代&#xff0c;智能終端設備的多樣性與協同需求催生了操作系統的革新。華為HarmonyOS&#xff08;鴻蒙系統&#xff09;憑借其分布式架構與全場景能力&#xff0c;正成為打破設備邊界、重塑用戶體驗的核心技術底座。HCIE鴻蒙應用開發認證作為華為認證體系的頂級資質…

23種設計模式-原型(Prototype)設計模式

原型設計模式 &#x1f6a9;什么是原型設計模式&#xff1f;&#x1f6a9;原型設計模式的特點&#x1f6a9;原型設計模式的結構&#x1f6a9;原型設計模式的優缺點&#x1f6a9;原型設計模式的Java實現&#x1f6a9;代碼總結&#x1f6a9;總結 &#x1f6a9;什么是原型設計模式…

Oracle-rman restore遭遇RMAN-03002與ORA-19563

文章目錄 在原DB上檢查是否有重復的文件名&#xff1a;查看rman恢復的日志修正重名部分重新執行rman恢復結論&#xff1a; 在 RMAN 恢復過程中&#xff0c;遇到RMAN-03002連同ORA-19563:錯誤。 操作是將 Oracle 10.0.5的數據庫備份從 RMAN備份恢復到另一臺測試主機的同一個目錄…

運維網絡排查工具介紹與使用

作為一名運維工程師&#xff0c;日常工作中最令人頭疼的莫過于各種網絡故障。在過去一年半的運維生涯中&#xff0c;我積累了豐富的網絡故障排查經驗&#xff0c;今天就來和大家分享一下如何運用抓包工具&#xff08;Wireshark、tcpdump&#xff09;和網絡排查工具&#xff08;…

解決vscode終端和本地終端python版本不一致的問題

&#x1f33f; 問題描述 本地終端&#xff1a; vscode終端&#xff1a; 別被這個給騙了&#xff0c;繼續往下看&#xff1a; 難怪我導入一些包的時候老提示找不到&#xff0c;在本地終端就不會這樣&#xff0c;于是我嚴重懷疑vscode中的python版本和終端不一樣&#xff0c…

Sublime全局搜索快捷鍵Ctrl+Shift+F不能使用解決

問題描述&#xff1a; 在安裝好Sublime后&#xff0c;我們使用快捷鍵進行全局搜索&#xff0c;發現沒有反應&#xff0c;但是中文輸入變成了繁體。 解決方案&#xff1a; 如截圖&#xff0c;在關閉簡繁切換的快捷鍵或者換成其他的就行

海康HTTP監聽報警事件數據

http監聽接收報警事件數據 海康獲取設備報警事件數據兩種方式&#xff1a; 1、sdk 布防監聽報警事件數據,服務端布防。&#xff08;前面文章有示例&#xff09; 2、http監聽接收報警事件數據&#xff0c;設備直接推送。 http監聽接收報警事件數據&#xff0c;服務端可以使用n…

Python----計算機視覺處理(Opencv:圖像邊緣檢測:非極大值抑制,雙閾值篩選)

一、 高斯濾波 邊緣檢測本身屬于銳化操作&#xff0c;對噪點比較敏感&#xff0c;所以需要進行平滑處理。這里使用的是一個5*5的高斯 核對圖像進行消除噪聲。 二、計算圖像的梯度和方向 三、非極大值抑制 在得到每個邊緣的方向之后&#xff0c;其實把它們連起來邊緣檢測就算完了…

Maven工具學習使用(四)——倉庫

倉庫分類 對于Mavne來說,倉庫只分為兩類:本地倉庫和遠程倉庫。當Maven根據坐標查詢尋找構件的時候,它首先會查看本地倉庫,如果本地倉庫存在此構件,則直接使用;如果本地倉庫不存在此構件,或者需要查看是否有更新的構件版本,Maven就會去遠程倉庫查找,發現需要的構件之后…

Axure PR 9.0(發音:Ack-sure)原型圖工具入門教程:鏈接交互

文章目錄 引言Axure? RP 9I Axure RP9入門介紹元件庫對兩個元件進行連接頁面:導航視圖、概要母版交互II 鏈接交互從A頁面跳轉到B頁面返回之前的頁面see also引言 【 產品原型圖】核心價值和實際應用場景:可視化需求,統一團隊理解 https://blog.csdn.net/z929118967/articl…