理想汽車智駕方案介紹 2|MindVLA 方案詳解

一、引言

MindVLA 主要包括空間智能模塊、語言智能模塊、動作策略模塊、強化學習模塊,這些模塊分別有以下功能:

  • 空間智能模塊:輸入為多模態傳感器數據,使用 3D 編碼器提取時空特征,然后將所有傳感器與語義信息融合成統一的表征。
  • 語言智能模塊:嵌入式部署的大語言模型 MindGP,用于空間 + 語言的聯合推理,支持語音指令和反饋,可能實現人車交互。
  • 動作策略模塊:使用擴散模型生成車輛未來的行為軌跡,引入噪聲來引導擴散過程以生成多樣化的動作規劃。
  • 強化學習模塊:使用 World Model 模擬外部環境響應,評估行為后果;使用獎勵模型(Reward Model):提供偏好或安全性評估,可能采用人類反饋(RLHF);使用閉環學習根據行為軌跡進行持續優化和泛化。

img

其亮點包括:

  • 快慢思維融合于同一模型(Fast-Slow Thinking in One Model)
  • 從零開始預訓練的嵌入式大語言模型
  • 高斯建模的 3D Tokenizer 增強空間理解
  • 支持空間與語言的聯合推理
  • 擴散策略實現群體交互與行為生成
  • 基于人類反饋的行為偏好學習(RLHF)
  • 通過閉環強化學習實現泛化能力提升
  • 下面將對以上提及的核心技術進行剖析。

二、V-Spatial Intelligence:自監督 3D 高斯編碼器預訓練

img

2.1 傳統端到端自動駕駛的不足

傳統的端到端自動駕駛通過感知(Perception)生成 3D 目標框(3D Boxes);然后預測模塊使用 3D 目標和地圖預測運動軌跡;規劃模塊根據預測進行軌跡規劃。這種傳統方法采用 BEV(鳥瞰圖)或稀疏實例框作為場景表示,存在信息全面性與效率的權衡。BEV 壓縮高度信息導致細節丟失,而稀疏查詢可能忽略關鍵環境細節(如不規則障礙物)。密集體素表示計算開銷大,難以支持實時決策。所以理想汽車提出了 GaussianAD 框架。

img

2.2 GaussianAD 框架的優點及核心方法

參考論文:GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

img

GaussianAD 用均勻的高斯序列初始化 3D 場景,并使用 4D 稀疏卷積來實現高斯之間的交互。然后從環視多幀圖像提取多尺度特征,并使用可變形的交叉注意力將它們納入 3D 高斯。在獲得時間 3D 高斯作為場景表示后,可以選擇使用對密集任務的高斯到體素 splatting(例如,3D 語義占用),或者使用稀疏卷積和最大池化進行稀疏任務(例如,3D 目標檢測、高清地圖構建、運動預測)。GaussianAD 使用 flow 頭來預測每個高斯的 3D 流,并將其匯總用于軌跡規劃。

2.2.1 3D 高斯場景表示

現有特征表示方法的不足

現有方法通常構建密集的 3D 特征來表示周圍環境,并處理具有相等存儲和計算資源的每個 3D 體素,這通常會因為資源分配不合理而導致難以解決的開銷。與此同時,這種密集的 3D 體素表示無法區分不同比例的目標。

高斯表示的優勢

高斯表示以均勻分布的 3D 高斯初始化場景,通過多視角圖像逐步優化高斯參數(均值、協方差、語義),生成稀疏的 3D 語義高斯集合。每個高斯單元描述局部區域的幾何和語義屬性。高斯混合模型能近似復雜場景,稀疏性減少冗余計算,同時保留細粒度 3D 結構,極大地促進下游任務的性能提升。

感知任務
  • 高斯特征提取

GaussianAD 首先將 3D 高斯及其高維查詢表示為可學習的向量。然后,我們使用高斯編碼器來迭代地回放這些表示。每個高斯編碼器塊由三個模塊組成:一個促進高斯之間交互的自編碼模塊,一個用于聚合視覺信息的圖像交叉關注模塊,以及一個用于微調高斯屬性的細化模塊。與 GaussianFormer 不同,GaussianAD 使用由 4D 稀疏卷積組成的時間編碼器,將上一幀的高斯特征與當前幀中的相應特征集成。

  • 稀疏 3D 目標檢測

提取到稀疏高斯特征后,采用 VoxelNeXt 根據稀疏體素特征預測 3D 目標。使用 3D 稀疏 CNN 網絡來編碼 3D 高斯表示,一組 Agent Tokens 來解碼 3D 動態物體邊界框。

  • 稀疏語義地圖構建

使用一組 Map Tokens 生成車道、邊界等靜態元素。

預測與規劃
  • 高斯流預測:基于當前高斯狀態和規劃軌跡,預測未來幀的高斯分布,通過仿射變換模擬自車運動后的觀測場景。
  • 軌跡規劃:結合預測的高斯流和未來場景的占用情況,優化軌跡以最小化碰撞風險與軌跡偏差。
端到端訓練
  • 靈活監督:支持多任務監督(3D 檢測、語義地圖、運動預測、占用預測),通過損失函數聯合優化:
    • 感知損失(檢測、地圖、占用)
    • 預測損失(未來場景與真實觀測的差異)
    • 規劃損失(軌跡誤差與碰撞率)
  • 未來場景自監督:利用未來幀的真實觀測作為預測監督,增強長期一致性。

三、L(Lingustic Intelligence):定制化設計 LLM

L 模塊的設計思想比較容易理解,LLM 模型是強大且通用的模型毋庸置疑,但是其使用的是互聯網多模態數據資源進行訓練的,數據場景和分布混亂,比如存在大量與自動駕駛無關的文史類數據,難以直接應用到自動駕駛場景中,尚不具備較強的 3D 空間理解能力、3D 空間推理能力和強大的語言能力,需要在模型的預訓練階段就要加入大量的相關數據。所以,理想汽車不計成本地從 0 開始設計和訓練一個適合 VLA 的基座模型。在模型架構上還進行了稀疏化設計,減少模型容量,從而實現推理性能的提升。

img

上圖為 PPT 上對 L 模塊的介紹,其核心設計思想可以總結為:

  1. 基于開源 LLM 結構,重新設計適用于智駕場景的 LLM input tokenizer;
  2. **稀疏化:**為了在增加模型參數量的同時平衡端側推理速率,采用 MoE+SparseAttention 的高效結構;使用多個專家實現模型擴容,還可以保證模型參數量不會大幅度增加;引入 SparseAttention 進一步提升稀疏化率。
  3. **訓練數據配比重構:**融入大量的 3D 場景數據和自動駕駛相關圖文數據,同時降低文史類數據的比例;
  4. **進一步強化 3D 空間理解和推理能力:**加入未來幀的預測生成 + 稠密深度的預測;
  5. **提升邏輯推理能力:**人類思維模式 + 自主切換快思考慢思考,慢思考輸出精簡的 CoT(采用的固定簡短的 CoT 模板) + 輸出 action token;快思考直接輸出 action token;
  6. **實時推理性能(10HZ):**通過以下手段壓榨 OrinX 和 ThorU 的性能,在同一個 Transformer 模型中加入了兩種推理模式:
    1. CoT 生成加速:小詞表 + 投機推理(推理模式 1: 因果注意力機制 token by token 的逐字輸出);
    2. action token 生成加速:并行解碼的方式(推理模式 2: 雙向注意力機制并行一次性輸出);

四、A(Action Policy): 生成精細化動作

參考論文:https://arxiv.org/abs/2503.10434

4.1 總體介紹

LLM 基座模型構建完成后,利用擴散模型 Diffusion Model 將 action token 解碼為最終的軌跡,包括自車軌跡、他車和行人的軌跡,這樣可以提升 VLA 模型在復雜交通環境下的博弈能力。另外,Diffusion Model 還具有根據外部的條件改變生成結果,類似于圖像生成領域的多風格生成。

img

上圖為 PPT 上對 V 模塊的介紹,其核心設計思想可以總結為:

  1. 引入多層 DIT(Diffusion Transformer)結構;
  2. **提升生成效率:**基于常微分方程的 ode 采樣器大幅的加速 diffusion 的生成過程,使其在 2~3 步內完成穩定軌跡的生成;
  3. **對齊人類駕駛員行為:**使用 RLHF 做后訓練,通過人類偏好數據集微調模型的采樣過程, 對齊專業駕駛員的行為,提高安全駕駛的下限。其中,人類偏好數據集搭建:人類駕駛數據 + NOA 的接管數據

4.2 TrajHF

TrajHF 通過 多條件去噪器生成多樣化軌跡 + 人類反饋驅動的強化學習微調,解決了生成模型與人類駕駛偏好的對齊問題。其結構兼顧生成能力與個性化適配,在安全約束下實現了駕駛風格的靈活調節,為自動駕駛的“人車共駕”提供了新范式。

4.2.1 動機

  • 數據集偏差:傳統模仿學習(IL)僅學習數據集的平均行為,忽略人類駕駛的微妙偏好(如攻擊性超車、保守跟車等)。
  • 分布偏移:生成模型易受高頻模式主導,難以生成低頻但符合人類偏好的軌跡(如復雜交互中的適應性行為)。
  • 高階因素缺失:人類駕駛受風險容忍度、社會交互等隱性因素影響,現有模型難以編碼。

4.2.2 核心思想

  • 人類反饋作為監督信號:通過人類標注的軌跡排序或偏好標簽,引導模型學習多樣化駕駛風格。
  • 強化學習微調(RLHF):將偏好轉化為獎勵函數,優化策略以最大化人類偏好獎勵。
  • 多模態生成與約束平衡:結合擴散模型生成多樣化候選軌跡,通過強化學習微調對齊偏好,同時用行為克隆(BC)損失保留基礎駕駛能力。

4.2.3 模型結構

TrajHF 包括生成軌跡模型(Diffusion Policy)和 強化學習微調(RL Finetuning)這兩個部分,其中 RL Finetuning 是最大化人類偏好獎勵。

img

除了這兩個部分,個人認為 TrajHF 中最重要的是偏好數據的自動構建,我們首先就來介紹這個部分。

偏好數據自動構建

偏好數據自動構建過程如下圖所示,這個過程涉及用不同的駕駛風格標簽標記大量駕駛數據。然而,出現了實際挑戰,例如確定每個場景或框架是否需要駕駛風格標簽。以下步驟概述了這些挑戰和相應的解決方案。

img

  • **場景挖掘:**人類駕駛通常發生在普通環境中,這使得很難為每個決定定義特定的駕駛風格,而且手動手動注釋效率低下。論文發現人類司機接管數據可以幫助識別偏好場景。這些數據分為六類(例如,“過于激進”或“過于保守”),每個類別對應不同的駕駛風格,可用于定義規則或訓練模型,以識別偏好場景。
  • **關鍵幀標注:**在確定偏好場景后,只需要標記與偏好相關的部分,專注于發生重要動作的關鍵幀,例如速度或方向的變化。如果幀標記過早,則定義操作尚未發生;如果標記過晚,則該操作已經開始。關鍵幀識別的明確規范允許基于規則的自動檢測,從而實現潛在的大規模注釋。
  • **手動檢查:**注釋的關鍵幀經過隨機手動檢查,以確保數據質量。人工檢查員可以在特殊情況下更新場景定義或引入新的偏好場景。
Diffusion Policy

Diffusion Policy 的核心組件是多條件去噪器(Multi-Conditional Denoiser, MCD),它的工作過程如下:

img

  • 輸入:多模態感知數據;
  • 軌跡表示:將軌跡 轉換為動作空間,減少時間異方差性。
  • 去噪過程:
    • 噪聲動作經 MLP 編碼,與狀態/時間嵌入融合。
    • 圖像與激光雷達特征通過骨干網絡(ViT + ResNet34)提取,經融合 Transformer 交互生成 BEV 特征。
    • 條件與噪聲動作通過交叉注意力模塊迭代去噪。
  • 輸出:生成 K 條多模態候選軌跡(8 個航跡點,覆蓋 4 秒)。
RL Finetuning

RL Finetuning 的目標是最大化人類偏好獎勵,主要包括獎勵計算和策略優化兩個步驟,其中涉及較多數學計算,感興趣的同學可以自行研讀論文。

img

參考資料

https://zhuanlan.zhihu.com/p/1885988337225032557

理想賈鵬 GTC 2025 演講 PPT

理想賈鵬 GTC 2025 講 VLA 完整視頻

GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

ibili.com/video/BV11yX5Y9EEj/?vd_source=115911bd71b74bfcc0cad43e576887e4)

GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/94210.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/94210.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/94210.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

計算機網絡基礎(三) --- TCP/IP網絡結構(運輸層)

運輸層1. 概述和運輸服務運輸層協議為運行在不同主機上的應用進程之間提供了邏輯通信功能, 運輸層協議是在端系統中而不是路由器中實現的, 網絡應用程序可以調用多種運輸層協議, 如因特網的兩種協議: TCP 和 UDP ,每種協議都能為調用的應用程序提供一組不同的運輸層服務1.1 運輸…

JdbcTemplate和MyBatis的區別

在 Java 后端開發中,JdbcTemplate(Spring 框架提供)和 MyBatis(持久層框架)都是用于簡化數據庫操作的工具,但它們的設計理念、使用方式、靈活性和適用場景有顯著差異。下面從核心定位、核心特性、使用方式、…

埃氏篩|樹dfs|差分計數

lc525把數組里的0換成-1&#xff0c;求子數組和為零的最長長度用哈希表記錄前綴和首次出現的位置通過找相同前綴和的位置差得出最長的0和1數量相等的子數組長度。class Solution { public:int findMaxLength(vector<int>& nums) {unordered_map<int,int>hashta…

(JVM)Java 對象創建的完整過程

在日常開發和面試中&#xff0c;經常會被問到 “Java 中對象是如何被創建的&#xff1f;” 表面上只是一個 new 關鍵字&#xff0c;但 JVM 在幕后完成了一系列復雜操作。 可以總結為以下 六大步驟&#xff1a;類加載檢查 → 分配內存 → 內存清零 → 設置對象頭 → 執行構造函數…

數據庫優化提速(三)JSON數據類型在酒店管理系統搜索—仙盟創夢IDE

在 MySQL 中&#xff0c;JSONB 類型&#xff08;MySQL 中實際為 JSON 類型&#xff0c;功能類似 PostgreSQL 的 JSONB&#xff0c;支持高效的 JSON 數據存儲和查詢&#xff09;非常適合存儲半結構化數據&#xff0c;例如酒店入住客人的復雜信息&#xff08;包含客人基本信息、入…

小程序全局狀態管理:使用MobX進行跨組件數據共享詳解(九)

一、定義全局數據共享&#xff08;又叫&#xff1a;狀態管理&#xff09;是為了解決組件之間數據共享的問題&#xff1b;全局數據共享方案&#xff1a;VueX、Redux、MobX等&#xff1b;二、小程序全局數據共享方案使用mobx-miniprogram配合mobx-miniprogram-bindings實現全局數…

生成模型 | DDPM -> Imrpoved DDPM -> DDIM

DDPM: Denoising Diffusion Probabilistic Models 采樣過程中的迭代計算為&#xff1a; xt?11αt(xt?1?αt1?αˉ?θ(xt,t))β~tzx_{t-1} \frac{1}{\sqrt{\alpha_t}}(x_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}}}\epsilon_{\theta}(x_t, t)) \sqrt{\tilde{\beta…

Linux驅動之DMA(三)

目錄一、驅動內容1. 核心結構體解析2. 關鍵模塊解析3. 驅動初始化流程4. 關鍵寄存器操作5. 典型工作流程6. 代碼特點7. 重要函數列表8. 使用示例二、驅動中DMA的使用1. DMA通道初始化&#xff08;imx_uart_dma_init&#xff09;2. DMA發送流程&#xff08;imx_uart_dma_tx&…

MongoDB 分片集群把非分片集合轉成分片集合

記得關注一下博主&#xff0c;博主每天都會更新IT技術&#xff0c;讓你有意想不到的小收獲哦^_^ 文章目錄*記得關注一下博主&#xff0c;博主每天都會更新IT技術&#xff0c;讓你有意想不到的小收獲哦^_^*一、MongDB集群啟停止1、MonogoDB分片集群服務啟動順序(三臺主機都要操作…

mybatis過渡到mybatis-plus過程中需要注意的地方

將 MyBatis 升級為 MyBatis-Plus&#xff08;簡稱 MP&#xff09;是一個平滑過渡的過程&#xff0c;因為 MP 是 MyBatis 的增強工具&#xff08;而非替代&#xff09;&#xff0c;但仍有一些關鍵注意事項需要關注&#xff0c;以確保升級后功能兼容且能充分利用 MP 的特性&#…

openEuler系統中如何將docker安裝在指定目錄

在 openEuler 中&#xff0c;Docker 的默認數據存儲目錄為 /var/lib/docker&#xff08;程序文件通常安裝在系統默認路徑&#xff0c;一般無需修改&#xff09;。若需將 Docker 數據&#xff08;鏡像、容器、卷等&#xff09;存儲到指定目錄&#xff0c;可通過修改 Docker 配置…

2.4 我國金融市場的監管體制

1、國務院金融發展委員會職責 2、中國人民銀行職責

PHP - 實例屬性訪問與靜態方法調用的性能差異解析

觀察到了一個看似矛盾的現象&#xff1a;實例屬性訪問更快&#xff0c;但靜態方法調用更快。這實際上是兩種不同的操作&#xff0c;下面我將詳細解釋其中的原理和差異。1. 實例屬性訪問為什么快訪問機制class MyClass {public $instanceProp 1; }$obj new MyClass(); $value …

音視頻面試題集錦第 31 期

音視頻面試題集錦第 31 期&#xff1a; 1、I 幀、P 幀和 B 幀的概念及區別&#xff1f;2、視頻編碼中的碼率控制技術有哪些&#xff1f;3、音頻采樣參數有哪些&#xff1f;4、RTMP 和 HLS 協議各有什么特點&#xff1f;如何選擇&#xff1f;5、WebRTC 中的 ICE、STUN、TURN 各…

企業視頻庫管理高效策略

內容概要本文全面探討企業視頻庫管理的高效策略&#xff0c;旨在幫助組織優化視頻資源處理。首先&#xff0c;我們將介紹企業視頻庫管理的基本概念和核心價值。接著&#xff0c;深入分析智能分類核心技術如何通過AI算法實現視頻自動歸類。之后&#xff0c;闡述云集成實現路徑&a…

WebSocket和跨域問題

WebSocket 特點 WebSocket 是一種在單個 TCP 連接上進行全雙工通信的協議。簡單來說&#xff0c;它就像是在客戶端和服務器之間建立了一條"專用通道"&#xff0c;雙方可以隨時主動發送消息給對方&#xff0c;而不需要像HTTP那樣總是由客戶端發起請求。 同一時間、雙向…

微服務-19.什么是網關

一.網關曾經我們的項目是單體項目&#xff0c;前端只需要請求8080端口&#xff0c;就可以獲取所有需要的數據和服務并進行渲染。但是拆分成微服務后&#xff0c;會面臨幾大問題&#xff1a;1.但是現在我們將該單體項目拆分成了微服務項目&#xff0c;每個項目都有自己獨立的端口…

從字節碼層面剖析以太坊智能合約創建原理

1. 引言 閱讀完本文之后&#xff0c;將能理解一下字節碼含義&#xff1a; 608060405260405160893803806089833981016040819052601e916025565b600055603d565b600060208284031215603657600080fd5b5051919050565b603f80604a6000396000f3fe6080604052600080fdfea2646970667358221…

typora無需激活版及最新激活版方法!雙擊安裝就能用

介紹 Typora 是一款Markdown編輯器&#xff0c;支持實時預覽&#xff0c;所見即所得。跨平臺&#xff0c;支持Windows、macOS、Linux。適合寫作、筆記、技術文檔等。本教程將提供合法安全的安裝方案&#xff0c;并解決常見問題&#xff0c;助你高效完成部署&#xff01; 直接…

基于Java、GeoTools與PostGIS的對跖點求解研究

目錄 前言 一、對跖點簡介 1、地理學定義 2、人生哲學含義 二、對跖點求解 1、Java求解 2、Geotools求解 3、PostGIS求解 4、三種計算方法的對比 5、Leaflet展示對跖點 三、總結 前言 在地理信息系統&#xff08;GIS&#xff09;領域&#xff0c;對跖點&#xff08;A…