小鵬汽車 vla 算法最新進展和模型結構細節

小鵬汽車在 VLA(視覺 - 語言 - 動作)算法領域的最新進展和模型結構細節,體現了其在端到端智駕系統車端大模型部署上的技術突破。以下是基于 2025 年 9 月最新公開信息的深度解析:

一、最新進展:全場景 VLA 系統量產落地與跨代升級


  1. 首次 OTA 全量推送與功能強化
    2025 年 9 月 9 日,小鵬 G7 Ultra 車型完成全球首個全場景 VLA 系統的 OTA 全量推送,核心升級包括:

    • 專家級風險預判:在無保護轉向、盲區路口等場景中,通過時空推理提前規劃防御性策略。例如,系統可預判對向車輛可能的搶道行為,提前調整車速并預留安全距離,實現 “無感避險”。
    • 行業首創人機共駕模式:當 NGP(導航輔助駕駛)激活且時速低于 130km/h 時,駕駛員可通過輕轉方向盤或踩加速踏板介入駕駛,系統在 0.5 秒內無縫恢復 NGP,支持低速跟車、匝道匯入等靈活協作。
    • 車位到車位記憶泊車:支持任意車位實時記錄與停車場 3D 建模,車輛可自動泊入斜列式車位、斷頭路車位等非標準車位,識別精度達 ±15cm,支持斜角≤45° 的復雜場景。
    • 主動安全強化:AES 自動緊急轉向避讓功能在緊急碰撞危險且制動空間不足時,可自動發起轉向避險并減速,對異形障礙物(如倒地的外賣箱)的識別準確率較傳統方案提升 30%。

  2. 年底跨代更新計劃與算力支撐
    小鵬計劃于 2025 年底對 Ultra 版車型進行 VLA 跨代更新,目標是實現十倍于現役智駕系統的體驗躍升,核心依托:

    • 云端 720 億參數基座模型:通過萬卡規模計算集群訓練,數據規模從 2000 萬 Clips 視頻(每條 30 秒)擴展至 2 億 Clips,支持復雜場景的長時序推理。
    • 自研圖靈 AI 芯片的算力霸權:3 顆圖靈芯片提供 2250TOPS 有效算力(等效 9 顆英偉達 Orin-X),支持車端大模型實時運行。例如,在雙臂協作任務中,動作生成延遲低至 20ms,推理速度達 6Hz,同時保持 97.1% 的任務成功率。
    • Token 壓縮技術突破:與北大聯合研發的 FastDriveVLA 框架,通過基于圖像復原的 token 剪枝技術,將視覺 token 數量從 3249 條壓縮至 812 條,FLOPs 降低 7.5 倍,同時保持碰撞率等關鍵指標優于未剪枝基線。


二、模型結構細節:云端蒸餾與車端異構計算


1. 混合架構設計

小鵬 VLA 采用云端基座模型 + 車端蒸餾模型的混合架構,實現 “超大規模訓練” 與 “實時推理” 的平衡:

  • 云端基座模型
    • 參數規模:720 億參數,基于大語言模型(LLM)骨干網絡,整合視覺理解、鏈式推理(CoT)和動作生成能力。
    • 訓練策略:通過對比學習和掩碼預測預訓練,使用 2000 萬 Clips 視頻數據(含多攝像頭、激光雷達、毫米波雷達數據),并通過強化學習(RL)優化復雜場景決策。

  • 車端蒸餾模型
    • 參數規模:約 30 億參數(云端的 1/24),通過知識蒸餾保留云端模型 90% 以上的推理能力,同時支持 INT8 量化和剪枝,適配圖靈芯片的實時推理需求。
    • 輕量化技術:采用 LoRA(低秩適應)和動態路由機制,在消費級 GPU 上實現快速微調,例如在多目標清理任務中,微調后的模型成功率比擴散模型提升 20.4%。


2. 核心模塊技術細節

  • 視覺編碼器

    • 多傳感器融合:采用 ViT(視覺 Transformer)與 CNN 混合架構,處理 12 路攝像頭、激光雷達和毫米波雷達數據,通過 BEV(鳥瞰圖)特征融合生成稠密的 3D 環境感知圖。
    • 動態 token 壓縮:結合 FastDriveVLA 框架的 ReconPruner 剪枝器,通過 MAE(掩碼自動編碼器)風格的像素重建任務,優先保留前景區域 token(如車輛、行人、交通標志),抑制背景冗余信息。

  • 語言模型

    • 指令解析與推理:基于自研 LLM(可能為 Llama 2 或類似架構),解析自然語言指令(如 “避開施工路段”)并生成語義控制邏輯,支持多輪對話與上下文理解。
    • 跨模態對齊:通過交叉注意力機制,將視覺特征(如 “紅色信號燈”)與語言語義(如 “停車”)動態關聯,實現指令與場景的精準匹配。

  • 動作生成器

    • 端到端控制:采用擴散模型或序列到序列學習,直接生成連續動作序列(如方向盤角度、油門 / 剎車力度),支持機械臂協同與實時避障。例如,在家庭服務場景中,模型可通過 “將杯子從桌子移到架子” 的指令,自動規劃路徑并調整抓取力度。
    • 物理引擎驗證:生成的動作序列需通過 Simulink 等物理引擎驗證軌跡可行性,確保在動態環境中的安全性。


3. 多模態融合機制

  • 時空推理模塊
    結合 Transformer 解碼器與 LSTM,對多幀視覺數據進行時序建模,預測未來 5 秒內的場景變化(如車輛變道、行人橫穿),支持復雜路口的博弈決策。
  • 對抗式訓練策略
    在訓練中引入對抗式前景 - 背景重建,強制模型區分前景(如障礙物)與背景(如建筑物),避免 token 剪枝時誤刪關鍵信息。例如,ReconPruner 通過同時重建前景和背景區域,提升 token 篩選的準確性。

4. 硬件協同優化

  • 圖靈芯片的 DSA 架構
    采用 40 核處理器、2xNPU 神經網絡處理單元和專用內存控制器,算力利用率達 100%,遠超通用芯片的 30-40%。例如,在多攝像頭輸入場景中,芯片可并行處理視覺特征提取與語言推理,降低延遲。
  • 分布式計算框架
    兩顆圖靈芯片負責智駕 VLA 系統,一顆搭配高通 8295P 處理座艙 VLM(視覺 - 語言模型),實現 “大腦 + 小腦” 的協同工作。例如,AR-HUD 的坐姿自適應調節與路怒情緒互動功能,由座艙芯片獨立處理,不影響智駕系統的實時性。

三、技術挑戰與行業競爭


  1. 核心挑戰

    • 數據閉環效率:盡管小鵬構建了 29.3 億公里實車日志與生成式仿真數據的閉環,但真實場景長尾數據(如極端天氣、罕見交通事件)的采集仍需依賴用戶反饋,可能影響模型迭代速度。
    • 實時性與泛化性平衡:復雜模型(如 720 億參數云端模型)難以在邊緣設備實現毫秒級響應,而輕量化模型對未訓練過的環境適應性不足。例如,Token 壓縮技術在提升速度的同時,可能導致部分邊緣場景的語義丟失。
    • 可解釋性與安全性:黑箱模型難以定位錯誤根源(如視覺誤判或指令誤解),需結合符號化規則(如碰撞檢測模塊)提升可靠性。例如,小鵬的混合架構中,端到端模型生成的動作仍需通過符號化安全校驗。

  2. 行業競爭態勢
    隨著華為乾昆 ADS 4.0、理想 VLM 司機大模型、蔚來 NWM 世界模型等競品的下半年推送,小鵬的 “十倍體驗” 宣言面臨挑戰。其技術負責人強調,圖靈芯片的超高算力與云端大模型的持續迭代是支撐 VLA 性能躍遷的關鍵,而 FastDriveVLA 等創新技術則是差異化競爭的核心。


四、總結


小鵬汽車的 VLA 算法已從實驗室走向規模化應用,其核心優勢在于車端大模型的實時部署能力云端基座模型的持續進化,以及多模態交互的場景化創新。通過自研芯片、Token 壓縮技術和跨代更新計劃,小鵬正推動具身智能從概念驗證邁向工業級落地。然而,其技術路線仍需面對數據隱私、長尾場景泛化等挑戰,而行業對 “十倍體驗” 的實際效果驗證,將成為 2025 年下半年的關注焦點。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/96439.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/96439.shtml
英文地址,請注明出處:http://en.pswp.cn/web/96439.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

斐波那契數列推廣

目錄 問題: 法一: 法二: 例題: 問題: 已知斐波那契數列的第一個和最后一個數字,如何求整個數列(即第二個數字) 法一: 主要是將數列拆分成兩個數列的思想 法二: 暴力…

基于STM32設計的智慧路燈(華為云IOT)_281

文章目錄 一、前言 1.1 項目介紹 【1】項目開發背景 【2】設計實現的功能 【3】項目硬件模塊組成 【4】設計意義 【5】國內外研究現狀 【6】摘要 1.2 設計思路 1.3 系統功能總結 1.4 開發工具的選擇 【1】設備端開發 【2】上位機開發 1.5 參考文獻 1.6 系統框架圖 1.7 系統原理…

實驗十 合理定義分布列實現性能優化-分布式表關聯

實驗介紹本實驗通過分析普通查詢過程中存在的性能瓶頸點,通過執行計劃的分析找到可能的性能優化點并加以實施,最終達到優化的效果,重點關注分布式關聯相關查詢語句的優化。實驗目的了解通過合理定義分布列實現分布式關聯的性能優化。實驗步驟…

C#,RabbitMQ從入門到精通,.NET8.0(路由/分布式/主題/消費重復問題 /延遲隊列和死信隊列/消息持久化 )/RabbitMQ集群模式

為什么使用消息隊列 消息隊列(MQ)在分布式系統中用于解耦生產者和消費者,提高系統的異步處理能力、削峰填谷、增強可擴展性和可靠性。通過消息隊列,任務可以異步執行,避免系統因瞬時高并發而崩潰。 消息隊列場景 異…

OpenHarmony之SELinux安全組件底層原理設計架構精講

1. 組件介紹 1.1 核心功能 **SELinux(安全增強式Linux)**是Linux歷史上杰出的安全組件,包含一組內核修改和用戶空間工具,并提供了基于安全策略的強制訪問控制機制(Mandatory Access Control,MAC)。本部件負責對文件、屬性、服務等系統資源提供強制訪問控制保護,提供n…

IIS 部署 asp.net core 項目時,出現500.19、500.31問題的解決方案

目錄 (一)500.19 問題 1. 問題說明 2. 原因 3. 解決 (二)500.31 問題 1. 問題說明 2. 原因 打開事件檢視器的3種方式: 3. 解決 (一)500.19 問題 1. 問題說明 2. 原因 Web項目發布時&am…

中大型水閘安全監測的重要性及實施方法

水閘作為水利工程體系中的關鍵性構筑物,其結構安全性和運行可靠性直接影響到整個水利系統的穩定運行,更與下游地區人民群眾的生命財產安全息息相關。作為水利樞紐工程的重要控制節點,水閘承擔著防洪排澇、灌溉供水、航運發電等多重功能&#…

【芯片設計-信號完整性 SI 學習 1.1.1 -- Unit Interval,比特周期】

文章目錄1. Unit Interval (UI) / 比特周期 的定義2. 舉例說明3. 在眼圖 (Eye Diagram) 中的體現4. 示意圖(a) 單比特周期(b) 不同速率下的 UI(c) 眼圖中的 UI5. 總結1. Unit Interval (UI) / 比特周期 的定義 在高速信號傳輸與 信號完整性 (SI) 測試中,Unit Inter…

Go語言開發工具全解析

Go 語言的開發工具生態對于提高開發效率、保證代碼質量和團隊協作至關重要。一套完善的工具鏈可以幫助開發者:1. 加速編碼過程代碼模板快速生成常見模式例如使用代碼片段(Snippet)快速生成HTTP服務框架自動生成測試用例模板實時語法檢查減少錯誤即時顯示類型不匹配錯…

[郵件服務器core] 安全通信(SSL/TLS) | OpenSSL庫管理 | 服務端安全SECURITY.md

第5章:安全通信(SSL/TLS) 歡迎回來 在第4章:服務運行中,我們學習了如何啟動Dovecot郵件服務器并使其運行。 現在,我們的服務器已經啟動并準備好處理電子郵件,但有一個關鍵問題:我…

Lodash方法總結

目錄 1. _.defaults()為對象填充默認值 基本語法 功能說明 示例代碼 注意事項 與其他類似方法的區別 2. _.pickBy()刪除對象中值為空串或 null 的屬性 實現方法 代碼說明 擴展:深層過濾 3._.omitBy()移除滿足條件的屬性 基本語法 核心功能 示例代碼 1…

C#---Expression(表達式)

前言:Expression 是C# 高級編程,表達式的應用場景有 ORM框架:Entity Framework,Dapper等,規則引擎:動態業務規則評估, 依賴注入:高級DI容器實現,測試框架:模擬…

Lodash-es 完整開發指南:ES模塊化JavaScript工具庫實戰教程

簡介 Lodash-es 是 Lodash 庫的 ES 模塊版本,提供了大量實用的 JavaScript 工具函數。它支持按需導入,可以顯著減少打包體積,是現代 JavaScript 項目中的首選工具庫。 主要特性 ES 模塊支持: 完全支持 ES6 模塊語法按需導入: 只導入需要的…

26. AI-Agent-Dify

文章目錄前言一、Dify入門為什么使用 Dify?Dify 能做什么?二、Dify私有化部署Docker Compose 部署前提條件克隆 Dify 代碼啟動 Dify更新 Dify訪問 Dify自定義配置三、Dify構建企業級Agent應用定義如何使用智能助手添加助手需要的工具配置 Agent配置對話開…

云原生:微服務與Serverless指南

Copilot時代的開發者效能提升 代碼生成與補全:減少重復性編碼工作,加快開發速度錯誤檢測與修復:實時提示潛在問題,降低調試時間知識獲取與學習:幫助開發者快速掌握新語言或框架協作效率:通過AI輔助減少團隊…

SpringBoot + Apache Tika:一站式解決文件數據提取難題

在日常開發中,你是否也遇到過這樣的窘境:領導甩來需求“把用戶上傳的 Word、Excel、PDF 里的關鍵信息扒出來存庫”,你卻要對著不同格式逐個攻堅——解析 Word 用 POI 還要處理 .doc/.docx 兼容,解析 Excel 要啃合并單元格、公式計…

車牌模擬生成器:Python3.8+Opencv代碼實現與商業應用前景(C#、python 開發包SDK)

車牌模擬生成器:Python代碼實現與商業應用前景引言在智慧城市建設和汽車行業數字化浪潮中,車牌作為車輛的唯一標識,其相關技術應用正變得越來越重要。今天我們將介紹一個基于Python的車牌模擬生成器,探討其技術實現、功能特點以及…

小程序非主頁面的數據動作關聯主頁面的數據刷新操作

如果在主頁面跳轉到其他頁面。比如說我的收藏頁面,然后有取消收藏的動作,當返回到主頁面的時候,如果有關聯數據顯示在主頁面,刷新頁面對應的狀態。 下面的代碼是實現://卡片收藏/取消if (newCollectd) {this.setData({…

后端(fastAPI)學習筆記(CLASS 1):擴展基礎

一、python的類型聲明1、類型聲明的背景和作用python 3.6 版本引入了“類型提示”1、類型提示是一種新的語法,用來聲明變量的類型2、提高編譯器和工具的支持能力為什么要學習類型提示1、了解類型提示不僅僅對使用FastAPI有幫助,也能提高代碼的可讀性度和…

2023年系統分析師上半年論文試題分析

試題一 論信息系統的可行性分析信息系統可行性分析的目的是確認在當前條件下企業是否有必要建設新系統,以及建設新系統的工作是否具備必要的條件。如何進行可行性分析是系統分析師所必須面臨的問題。請圍繞信息系統可行性分析論題,依次從以下三個方面進行…