小鵬汽車在 VLA(視覺 - 語言 - 動作)算法領域的最新進展和模型結構細節,體現了其在端到端智駕系統和車端大模型部署上的技術突破。以下是基于 2025 年 9 月最新公開信息的深度解析:
一、最新進展:全場景 VLA 系統量產落地與跨代升級
- 首次 OTA 全量推送與功能強化
2025 年 9 月 9 日,小鵬 G7 Ultra 車型完成全球首個全場景 VLA 系統的 OTA 全量推送,核心升級包括:
- 專家級風險預判:在無保護轉向、盲區路口等場景中,通過時空推理提前規劃防御性策略。例如,系統可預判對向車輛可能的搶道行為,提前調整車速并預留安全距離,實現 “無感避險”。
- 行業首創人機共駕模式:當 NGP(導航輔助駕駛)激活且時速低于 130km/h 時,駕駛員可通過輕轉方向盤或踩加速踏板介入駕駛,系統在 0.5 秒內無縫恢復 NGP,支持低速跟車、匝道匯入等靈活協作。
- 車位到車位記憶泊車:支持任意車位實時記錄與停車場 3D 建模,車輛可自動泊入斜列式車位、斷頭路車位等非標準車位,識別精度達 ±15cm,支持斜角≤45° 的復雜場景。
- 主動安全強化:AES 自動緊急轉向避讓功能在緊急碰撞危險且制動空間不足時,可自動發起轉向避險并減速,對異形障礙物(如倒地的外賣箱)的識別準確率較傳統方案提升 30%。
- 年底跨代更新計劃與算力支撐
小鵬計劃于 2025 年底對 Ultra 版車型進行 VLA 跨代更新,目標是實現十倍于現役智駕系統的體驗躍升,核心依托:
- 云端 720 億參數基座模型:通過萬卡規模計算集群訓練,數據規模從 2000 萬 Clips 視頻(每條 30 秒)擴展至 2 億 Clips,支持復雜場景的長時序推理。
- 自研圖靈 AI 芯片的算力霸權:3 顆圖靈芯片提供 2250TOPS 有效算力(等效 9 顆英偉達 Orin-X),支持車端大模型實時運行。例如,在雙臂協作任務中,動作生成延遲低至 20ms,推理速度達 6Hz,同時保持 97.1% 的任務成功率。
- Token 壓縮技術突破:與北大聯合研發的 FastDriveVLA 框架,通過基于圖像復原的 token 剪枝技術,將視覺 token 數量從 3249 條壓縮至 812 條,FLOPs 降低 7.5 倍,同時保持碰撞率等關鍵指標優于未剪枝基線。
二、模型結構細節:云端蒸餾與車端異構計算
1. 混合架構設計
小鵬 VLA 采用云端基座模型 + 車端蒸餾模型的混合架構,實現 “超大規模訓練” 與 “實時推理” 的平衡:
- 云端基座模型:
- 參數規模:720 億參數,基于大語言模型(LLM)骨干網絡,整合視覺理解、鏈式推理(CoT)和動作生成能力。
- 訓練策略:通過對比學習和掩碼預測預訓練,使用 2000 萬 Clips 視頻數據(含多攝像頭、激光雷達、毫米波雷達數據),并通過強化學習(RL)優化復雜場景決策。
- 車端蒸餾模型:
- 參數規模:約 30 億參數(云端的 1/24),通過知識蒸餾保留云端模型 90% 以上的推理能力,同時支持 INT8 量化和剪枝,適配圖靈芯片的實時推理需求。
- 輕量化技術:采用 LoRA(低秩適應)和動態路由機制,在消費級 GPU 上實現快速微調,例如在多目標清理任務中,微調后的模型成功率比擴散模型提升 20.4%。
2. 核心模塊技術細節
- 視覺編碼器:
- 多傳感器融合:采用 ViT(視覺 Transformer)與 CNN 混合架構,處理 12 路攝像頭、激光雷達和毫米波雷達數據,通過 BEV(鳥瞰圖)特征融合生成稠密的 3D 環境感知圖。
- 動態 token 壓縮:結合 FastDriveVLA 框架的 ReconPruner 剪枝器,通過 MAE(掩碼自動編碼器)風格的像素重建任務,優先保留前景區域 token(如車輛、行人、交通標志),抑制背景冗余信息。
- 語言模型:
- 指令解析與推理:基于自研 LLM(可能為 Llama 2 或類似架構),解析自然語言指令(如 “避開施工路段”)并生成語義控制邏輯,支持多輪對話與上下文理解。
- 跨模態對齊:通過交叉注意力機制,將視覺特征(如 “紅色信號燈”)與語言語義(如 “停車”)動態關聯,實現指令與場景的精準匹配。
- 動作生成器:
- 端到端控制:采用擴散模型或序列到序列學習,直接生成連續動作序列(如方向盤角度、油門 / 剎車力度),支持機械臂協同與實時避障。例如,在家庭服務場景中,模型可通過 “將杯子從桌子移到架子” 的指令,自動規劃路徑并調整抓取力度。
- 物理引擎驗證:生成的動作序列需通過 Simulink 等物理引擎驗證軌跡可行性,確保在動態環境中的安全性。
3. 多模態融合機制
- 時空推理模塊:
結合 Transformer 解碼器與 LSTM,對多幀視覺數據進行時序建模,預測未來 5 秒內的場景變化(如車輛變道、行人橫穿),支持復雜路口的博弈決策。 - 對抗式訓練策略:
在訓練中引入對抗式前景 - 背景重建,強制模型區分前景(如障礙物)與背景(如建筑物),避免 token 剪枝時誤刪關鍵信息。例如,ReconPruner 通過同時重建前景和背景區域,提升 token 篩選的準確性。
4. 硬件協同優化
- 圖靈芯片的 DSA 架構:
采用 40 核處理器、2xNPU 神經網絡處理單元和專用內存控制器,算力利用率達 100%,遠超通用芯片的 30-40%。例如,在多攝像頭輸入場景中,芯片可并行處理視覺特征提取與語言推理,降低延遲。 - 分布式計算框架:
兩顆圖靈芯片負責智駕 VLA 系統,一顆搭配高通 8295P 處理座艙 VLM(視覺 - 語言模型),實現 “大腦 + 小腦” 的協同工作。例如,AR-HUD 的坐姿自適應調節與路怒情緒互動功能,由座艙芯片獨立處理,不影響智駕系統的實時性。
三、技術挑戰與行業競爭
- 核心挑戰
- 數據閉環效率:盡管小鵬構建了 29.3 億公里實車日志與生成式仿真數據的閉環,但真實場景長尾數據(如極端天氣、罕見交通事件)的采集仍需依賴用戶反饋,可能影響模型迭代速度。
- 實時性與泛化性平衡:復雜模型(如 720 億參數云端模型)難以在邊緣設備實現毫秒級響應,而輕量化模型對未訓練過的環境適應性不足。例如,Token 壓縮技術在提升速度的同時,可能導致部分邊緣場景的語義丟失。
- 可解釋性與安全性:黑箱模型難以定位錯誤根源(如視覺誤判或指令誤解),需結合符號化規則(如碰撞檢測模塊)提升可靠性。例如,小鵬的混合架構中,端到端模型生成的動作仍需通過符號化安全校驗。
- 行業競爭態勢
隨著華為乾昆 ADS 4.0、理想 VLM 司機大模型、蔚來 NWM 世界模型等競品的下半年推送,小鵬的 “十倍體驗” 宣言面臨挑戰。其技術負責人強調,圖靈芯片的超高算力與云端大模型的持續迭代是支撐 VLA 性能躍遷的關鍵,而 FastDriveVLA 等創新技術則是差異化競爭的核心。
四、總結
小鵬汽車的 VLA 算法已從實驗室走向規模化應用,其核心優勢在于車端大模型的實時部署能力、云端基座模型的持續進化,以及多模態交互的場景化創新。通過自研芯片、Token 壓縮技術和跨代更新計劃,小鵬正推動具身智能從概念驗證邁向工業級落地。然而,其技術路線仍需面對數據隱私、長尾場景泛化等挑戰,而行業對 “十倍體驗” 的實際效果驗證,將成為 2025 年下半年的關注焦點。