VLA：自動駕駛的“新大腦”？

🔥 什么是 VLA？為什么突然火了？

在自動駕駛圈子里，最近一個詞特別火：VLA。它不是某個新車的型號，也不是某家公司的新品牌，而是一種全新的智能架構，被稱為“自動駕駛的大腦2.0”。

🧠 VLA 是什么？

VLA 是?Vision-Language-Action?的縮寫，翻譯過來就是“視覺-語言-動作”模型。它的核心理念是：讓自動駕駛系統像人一樣，看得懂、聽得懂、做得對。

Vision（視覺）：通過攝像頭等傳感器“看”到路況、紅綠燈、行人等；
Language（語言）：理解人類的自然語言指令，比如“前方路口左轉”；
Action（動作）：根據理解做出駕駛決策，比如加速、剎車、變道。

這就像是給車裝上了一個“多模態大腦”，不再是傳統那種“感知-預測-規劃-控制”的流水線式處理，而是一體化決策。

🧬?它的前一代是什么？

VLA 的“前身”主要有兩個：

模塊化架構：傳統自動駕駛系統將任務拆分為多個模塊（感知、定位、預測、規劃、控制），每個模塊獨立開發、調試、優化。
端到端 + VLM 架構：即視覺語言模型（VLM）+ 控制器的組合，VLM 負責理解場景和語言，控制器負責執行動作，但兩者仍是分離的。

VLA 可以理解為是“端到端2.0”，它不僅能看圖做決策，還能聽懂話、理解語境，甚至能解釋自己為什么這么做。

🚀 為什么現在突然火了？

技術成熟：Google DeepMind 推出的 RT-2、Wayve 的 LINGO 系列模型，驗證了 VLA 架構在機器人和自動駕駛中的可行性。
算力到位：NVIDIA Thor、Orin 等高性能芯片讓車端部署大模型成為可能。
產業共振：車企不再滿足于“能開”，而是追求“像人一樣開”，VLA 正好契合這一趨勢。
機器人熱潮：VLA 架構不僅適用于車，也適用于人形機器人，車企造車+造機器人成為新方向。

💬 舉個例子更好懂！

假設你坐在一輛搭載 VLA 的車上，對它說：“前面紅綠燈左轉，注意避讓行人。”

傳統系統可能需要多個模塊協同處理這個指令，而 VLA 模型可以直接理解你的話，結合攝像頭畫面，判斷紅綠燈狀態、行人位置，然后做出左轉決策——就像一個老司機一樣。

🛣? VLA 在自動駕駛中怎么工作？

🎮 輸入輸出：從“看”和“聽”到“動”

VLA 模型的輸入和輸出非常直觀：

輸入：
- 攝像頭拍到的圖像（視覺）
- 用戶的語音或文字指令（語言）
輸出：
- 控制車輛的動作指令（如加速、剎車、轉向）

你說：“前方紅綠燈左轉。”
車看到：紅綠燈、路口、行人、車道線
模型輸出：減速 → 打左轉燈 → 左轉 → 加速

整個過程不再依賴傳統的“感知 → 預測 → 規劃 → 控制”四步走，而是一步到位，直接從“理解場景+語言”生成“動作”。

🧩 模型結構簡析：一體化的“大腦”

VLA 模型通常由以下幾個部分組成：

視覺編碼器（Vision Encoder）：將攝像頭圖像轉化為模型能理解的特征向量。
語言編碼器（Language Encoder）：將語音或文字指令轉化為語義向量。
融合模塊（Fusion Module）：將視覺和語言信息融合，形成對當前場景的“理解”。
動作解碼器（Action Decoder）：根據理解生成駕駛動作，如轉向角、加速度等。

這個結構的最大優勢是：信息流是統一的，不再割裂，模型可以同時考慮“我看到了什么”和“你讓我干什么”。

🧪 示例場景：VLA 是怎么“開車”的？

場景	用戶指令	視覺輸入	模型輸出
城區路口	“前方紅綠燈左轉”	紅燈、路口、車道線	減速 → 等紅燈 → 左轉
高速變道	“超車后回到右側車道”	前車慢、右側有空位	加速 → 左變道 → 超車 → 右變道
停車場	“找個空位停下”	停車線、空車位	減速 → 調整方向 → 停車

這些動作不再是靠規則硬編碼，而是模型“理解”后自主決策，更像人類司機的思維方式。

🏎? 誰在用 VLA？車企們為什么集體下注？

在過去一年，自動駕駛行業經歷了從“模塊化”到“端到端”的技術躍遷，但很快又遇到了瓶頸。于是，VLA（視覺-語言-動作）模型成為新一代“智駕大腦”的熱門選擇。理想、小鵬、華為、蔚來，甚至供應商元戎啟行，都在積極布局。

🇨🇳 車企的 VLA 戰略

🚗 理想：MindVLA，從“懂你”開始

架構亮點：融合空間智能（3D場景重建）與語言智能，支持語音指令動態決策
硬件支持：NVIDIA Thor芯片（1000TOPS算力）+ 激光雷達 + 4D毫米波雷達
應用場景：無地圖城區NOA、語音控車、復雜場景掉頭、找電梯口停車
代表車型：理想 i8（2025年7月發布）

理想的策略是：用 VLA 打造“家庭友好型”智能駕駛體驗，強調溫柔、理解和安全。

🚗 小鵬：VLA-OL，算力驅動創新

架構亮點：基于圖靈芯片的超大規模 VLA 模型，采用在線強化學習（OL）訓練
部署方式：云端訓練 → 蒸餾壓縮 → 車端部署
代表車型：小鵬 G7 Ultra（搭載3顆圖靈芯片，2200TOPS算力）
特色功能：語音控車、文字引導牌識別、異形障礙物識別

小鵬的策略是：用強算力和快速迭代，打造“科技嘗鮮型”智駕體驗。

🚗 華為：乾崑ADS 3.0，混合架構探索

架構特點：規則引擎 + AI混合架構，尚未完全采用 VLA，但具備語言理解能力
優勢：多傳感器融合、冗余設計強、安全性高
代表車型：問界M9、智界S7 等
發展方向：正在向 VLA 架構靠攏，強調“通用智能”

華為的策略是：以安全為核心，逐步引入 VLA 元素，穩扎穩打。

🚗 蔚來：世界模型路線，暫未明確采用 VLA

架構方向：基于 NWM（世界模型）進行場景理解與規劃
優勢：強調“認知智能”，適用于復雜城市場景
代表車型：蔚來 ET7、ES6 等
發展趨勢：可能與 VLA 架構融合，但尚未公開明確采用

蔚來的策略是：探索認知層面的智能駕駛，與 VLA 有潛在融合空間。

🚗 特斯拉：FSD Beta 是 VLA 嗎？

架構特點：端到端視覺模型，尚未引入語言理解模塊
算力平臺：自研 Dojo 超算平臺
代表系統：FSD Beta（Full Self Driving）
爭議點：是否屬于 VLA 架構？

特斯拉目前仍以“純視覺端到端”為主，尚未公開采用語言模型，因此不屬于典型的 VLA 架構。但其 Dojo 平臺和數據閉環能力，為未來轉向 VLA 提供了可能。

🤝 為什么車企都在押注 VLA？

突破端到端黑盒瓶頸：語言模型引入后，模型可解釋性和語義理解能力大幅提升。
提升用戶體驗：支持語音控車、語義導航、復雜場景識別，更貼近人類駕駛習慣。
算力與硬件到位：NVIDIA Thor、圖靈芯片等新平臺讓車端部署 VLA 成為可能。
機器人協同發展：VLA 架構也適用于人形機器人，車企造車+造機器人成為新趨勢。

🫧 是技術革命，還是又一輪“智駕泡沫”？

VLA 的出現確實令人興奮，它讓自動駕駛系統更像人類司機，能“看懂、聽懂、做對”。但在熱潮之下，我們也需要冷靜思考：它真的準備好大規模落地了嗎？還是又一次“PPT領先世界”？

? 支持者觀點：VLA 是自動駕駛的未來

架構統一，系統更簡潔
不再需要多個模塊協同，減少系統耦合，降低維護成本。
語義理解能力強
能聽懂“前方紅綠燈左轉”，而不是靠規則判斷紅綠燈狀態。
泛化能力更強
訓練一次模型，可以適配不同城市、不同場景，甚至不同平臺（車、機器人、無人機）。
可解釋性提升
通過語言模型的“思維鏈”機制，能解釋為什么做出某個決策，提升用戶信任。
機器人協同發展
同一套架構可用于人形機器人，車企可以“一魚多吃”。

? 質疑者聲音：VLA 仍在“實驗室階段”

數據缺口嚴重
真正的“視覺-語言-動作”三模態數據集極其稀缺，現有數據多為模擬或弱標注。
訓練成本高昂
訓練一個高質量的 VLA 模型需要數千萬級別的 GPU 時長，非頭部企業難以承受。
部署門檻高
即使訓練好了，車端部署也面臨算力、功耗、延遲等挑戰。
安全驗證難
端到端模型在長尾場景下的穩定性仍未充分驗證，缺乏可控性。
商業落地尚早
目前僅在高端車型、城區NOA中試點，距離大規模普及還有距離。

📊 當前落地情況

車企	是否部署 VLA	應用范圍	是否支持語音控車	是否支持無圖NOA
理想	? MindVLA	城區NOA、泊車	?	?
小鵬	? VLA-OL	城區NOA	?	?
華為	?? 混合架構	高速+城區NOH	部分支持	?
蔚來	? 世界模型	城區NOA	?	?（部分）
特斯拉	? 端到端視覺	全場景FSD	?	?（北美）