🔥 什么是 VLA?為什么突然火了?
在自動駕駛圈子里,最近一個詞特別火:VLA。它不是某個新車的型號,也不是某家公司的新品牌,而是一種全新的智能架構,被稱為“自動駕駛的大腦2.0”。
🧠 VLA 是什么?
VLA 是?Vision-Language-Action?的縮寫,翻譯過來就是“視覺-語言-動作”模型。它的核心理念是:讓自動駕駛系統像人一樣,看得懂、聽得懂、做得對。
- Vision(視覺):通過攝像頭等傳感器“看”到路況、紅綠燈、行人等;
- Language(語言):理解人類的自然語言指令,比如“前方路口左轉”;
- Action(動作):根據理解做出駕駛決策,比如加速、剎車、變道。
這就像是給車裝上了一個“多模態大腦”,不再是傳統那種“感知-預測-規劃-控制”的流水線式處理,而是一體化決策。
🧬?它的前一代是什么?
VLA 的“前身”主要有兩個:
- 模塊化架構:傳統自動駕駛系統將任務拆分為多個模塊(感知、定位、預測、規劃、控制),每個模塊獨立開發、調試、優化。
- 端到端 + VLM 架構:即視覺語言模型(VLM)+ 控制器的組合,VLM 負責理解場景和語言,控制器負責執行動作,但兩者仍是分離的。
VLA 可以理解為是“端到端2.0”,它不僅能看圖做決策,還能聽懂話、理解語境,甚至能解釋自己為什么這么做。
🚀 為什么現在突然火了?
- 技術成熟:Google DeepMind 推出的 RT-2、Wayve 的 LINGO 系列模型,驗證了 VLA 架構在機器人和自動駕駛中的可行性。
- 算力到位:NVIDIA Thor、Orin 等高性能芯片讓車端部署大模型成為可能。
- 產業共振:車企不再滿足于“能開”,而是追求“像人一樣開”,VLA 正好契合這一趨勢。
- 機器人熱潮:VLA 架構不僅適用于車,也適用于人形機器人,車企造車+造機器人成為新方向。
💬 舉個例子更好懂!
假設你坐在一輛搭載 VLA 的車上,對它說:“前面紅綠燈左轉,注意避讓行人。”
傳統系統可能需要多個模塊協同處理這個指令,而 VLA 模型可以直接理解你的話,結合攝像頭畫面,判斷紅綠燈狀態、行人位置,然后做出左轉決策——就像一個老司機一樣。
🛣? VLA 在自動駕駛中怎么工作?
🎮 輸入輸出:從“看”和“聽”到“動”
VLA 模型的輸入和輸出非常直觀:
- 輸入:
- 攝像頭拍到的圖像(視覺)
- 用戶的語音或文字指令(語言)
- 輸出:
- 控制車輛的動作指令(如加速、剎車、轉向)
你說:“前方紅綠燈左轉。”
車看到:紅綠燈、路口、行人、車道線
模型輸出:減速 → 打左轉燈 → 左轉 → 加速
整個過程不再依賴傳統的“感知 → 預測 → 規劃 → 控制”四步走,而是一步到位,直接從“理解場景+語言”生成“動作”。
🧩 模型結構簡析:一體化的“大腦”
VLA 模型通常由以下幾個部分組成:
- 視覺編碼器(Vision Encoder):將攝像頭圖像轉化為模型能理解的特征向量。
- 語言編碼器(Language Encoder):將語音或文字指令轉化為語義向量。
- 融合模塊(Fusion Module):將視覺和語言信息融合,形成對當前場景的“理解”。
- 動作解碼器(Action Decoder):根據理解生成駕駛動作,如轉向角、加速度等。
這個結構的最大優勢是:信息流是統一的,不再割裂,模型可以同時考慮“我看到了什么”和“你讓我干什么”。
🧪 示例場景:VLA 是怎么“開車”的?
場景 | 用戶指令 | 視覺輸入 | 模型輸出 |
---|---|---|---|
城區路口 | “前方紅綠燈左轉” | 紅燈、路口、車道線 | 減速 → 等紅燈 → 左轉 |
高速變道 | “超車后回到右側車道” | 前車慢、右側有空位 | 加速 → 左變道 → 超車 → 右變道 |
停車場 | “找個空位停下” | 停車線、空車位 | 減速 → 調整方向 → 停車 |
這些動作不再是靠規則硬編碼,而是模型“理解”后自主決策,更像人類司機的思維方式。
🏎? 誰在用 VLA?車企們為什么集體下注?
在過去一年,自動駕駛行業經歷了從“模塊化”到“端到端”的技術躍遷,但很快又遇到了瓶頸。于是,VLA(視覺-語言-動作)模型成為新一代“智駕大腦”的熱門選擇。理想、小鵬、華為、蔚來,甚至供應商元戎啟行,都在積極布局。
🇨🇳 車企的 VLA 戰略
🚗 理想:MindVLA,從“懂你”開始
- 架構亮點:融合空間智能(3D場景重建)與語言智能,支持語音指令動態決策
- 硬件支持:NVIDIA Thor芯片(1000TOPS算力)+ 激光雷達 + 4D毫米波雷達
- 應用場景:無地圖城區NOA、語音控車、復雜場景掉頭、找電梯口停車
- 代表車型:理想 i8(2025年7月發布)
理想的策略是:用 VLA 打造“家庭友好型”智能駕駛體驗,強調溫柔、理解和安全。
🚗 小鵬:VLA-OL,算力驅動創新
- 架構亮點:基于圖靈芯片的超大規模 VLA 模型,采用在線強化學習(OL)訓練
- 部署方式:云端訓練 → 蒸餾壓縮 → 車端部署
- 代表車型:小鵬 G7 Ultra(搭載3顆圖靈芯片,2200TOPS算力)
- 特色功能:語音控車、文字引導牌識別、異形障礙物識別
小鵬的策略是:用強算力和快速迭代,打造“科技嘗鮮型”智駕體驗。
🚗 華為:乾崑ADS 3.0,混合架構探索
- 架構特點:規則引擎 + AI混合架構,尚未完全采用 VLA,但具備語言理解能力
- 優勢:多傳感器融合、冗余設計強、安全性高
- 代表車型:問界M9、智界S7 等
- 發展方向:正在向 VLA 架構靠攏,強調“通用智能”
華為的策略是:以安全為核心,逐步引入 VLA 元素,穩扎穩打。
🚗 蔚來:世界模型路線,暫未明確采用 VLA
- 架構方向:基于 NWM(世界模型)進行場景理解與規劃
- 優勢:強調“認知智能”,適用于復雜城市場景
- 代表車型:蔚來 ET7、ES6 等
- 發展趨勢:可能與 VLA 架構融合,但尚未公開明確采用
蔚來的策略是:探索認知層面的智能駕駛,與 VLA 有潛在融合空間。
🚗 特斯拉:FSD Beta 是 VLA 嗎?
- 架構特點:端到端視覺模型,尚未引入語言理解模塊
- 算力平臺:自研 Dojo 超算平臺
- 代表系統:FSD Beta(Full Self Driving)
- 爭議點:是否屬于 VLA 架構?
特斯拉目前仍以“純視覺端到端”為主,尚未公開采用語言模型,因此不屬于典型的 VLA 架構。但其 Dojo 平臺和數據閉環能力,為未來轉向 VLA 提供了可能。
🤝 為什么車企都在押注 VLA?
- 突破端到端黑盒瓶頸:語言模型引入后,模型可解釋性和語義理解能力大幅提升。
- 提升用戶體驗:支持語音控車、語義導航、復雜場景識別,更貼近人類駕駛習慣。
- 算力與硬件到位:NVIDIA Thor、圖靈芯片等新平臺讓車端部署 VLA 成為可能。
- 機器人協同發展:VLA 架構也適用于人形機器人,車企造車+造機器人成為新趨勢。
🫧 是技術革命,還是又一輪“智駕泡沫”?
VLA 的出現確實令人興奮,它讓自動駕駛系統更像人類司機,能“看懂、聽懂、做對”。但在熱潮之下,我們也需要冷靜思考:它真的準備好大規模落地了嗎?還是又一次“PPT領先世界”?
? 支持者觀點:VLA 是自動駕駛的未來
架構統一,系統更簡潔
不再需要多個模塊協同,減少系統耦合,降低維護成本。語義理解能力強
能聽懂“前方紅綠燈左轉”,而不是靠規則判斷紅綠燈狀態。泛化能力更強
訓練一次模型,可以適配不同城市、不同場景,甚至不同平臺(車、機器人、無人機)。可解釋性提升
通過語言模型的“思維鏈”機制,能解釋為什么做出某個決策,提升用戶信任。機器人協同發展
同一套架構可用于人形機器人,車企可以“一魚多吃”。
? 質疑者聲音:VLA 仍在“實驗室階段”
數據缺口嚴重
真正的“視覺-語言-動作”三模態數據集極其稀缺,現有數據多為模擬或弱標注。訓練成本高昂
訓練一個高質量的 VLA 模型需要數千萬級別的 GPU 時長,非頭部企業難以承受。部署門檻高
即使訓練好了,車端部署也面臨算力、功耗、延遲等挑戰。安全驗證難
端到端模型在長尾場景下的穩定性仍未充分驗證,缺乏可控性。商業落地尚早
目前僅在高端車型、城區NOA中試點,距離大規模普及還有距離。
📊 當前落地情況
車企 | 是否部署 VLA | 應用范圍 | 是否支持語音控車 | 是否支持無圖NOA |
---|---|---|---|---|
理想 | ? MindVLA | 城區NOA、泊車 | ? | ? |
小鵬 | ? VLA-OL | 城區NOA | ? | ? |
華為 | ?? 混合架構 | 高速+城區NOH | 部分支持 | ? |
蔚來 | ? 世界模型 | 城區NOA | ? | ?(部分) |
特斯拉 | ? 端到端視覺 | 全場景FSD | ? | ?(北美) |
🧭 如何理性看待 VLA?
- 它不是萬能鑰匙,但確實是通往“具身智能”的關鍵路徑;
- 它不是馬上落地的產品,但已經在高端車型中試水;
- 它不是泡沫,但也不該被神化。
就像深度學習剛興起時一樣,VLA 也需要時間、數據和工程積累,才能真正改變行業。
🔮 VLA 是終點,還是起點?
🤖 通用智能的橋梁:車與機器人共用“大腦”
VLA 的最大潛力之一是:跨平臺遷移能力。
- 🚗 在車上,它可以理解路況、語音指令,做出駕駛決策;
- 🦿 在機器人上,它可以理解環境、任務指令,完成搬運、導航等動作;
- 🚁 在無人機上,它可以識別目標、執行飛行任務。
這意味著,未來車企不只是造車,而是造“具身智能體”。VLA 成為通用智能的底座,打通車、機器人、無人機的智能生態。
🧱 技術挑戰仍然嚴峻
盡管前景廣闊,但 VLA 要真正落地,還面臨不少挑戰:
- 數據問題:三模態數據集稀缺,尤其是真實駕駛場景下的語言指令與動作配對。
- 訓練成本:大模型訓練需要巨量算力與資金,非頭部企業難以承受。
- 部署難度:車端算力、功耗、延遲等問題仍需優化。
- 安全與法規:端到端模型的安全驗證機制尚不成熟,法規滯后。
- 用戶教育:用戶如何理解、信任、使用 VLA 驅動的智駕系統?
? 對開發者/從業者的建議
如果你是自動駕駛或機器人領域的開發者、產品經理、研究者,以下幾點可能值得關注:
- 🔍?關注數據閉環能力:誰能掌握真實三模態數據,誰就有訓練優勢。
- 🧠?理解模型推理機制:VLA 的“思維鏈”與“注意力機制”是關鍵。
- 🛠??重視部署工程化:不僅要訓練得好,還要部署得穩。
- 📚?持續學習跨模態技術:視覺、語言、動作的融合是未來趨勢。
- 🤝?關注產業協同:車企、芯片商、算法公司之間的協作將決定落地速度。
VLA 是自動駕駛系統的一次范式轉變,它讓車不只是“能動”,而是“能懂”。
但要真正實現“像人一樣開車”,我們還需要更多的數據、更強的算力、更成熟的工程能力——以及時間。