Sce2DriveX: 用于場景-到-駕駛學習的通用 MLLM 框架——論文閱讀

《Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning》2025年2月發表,來自中科院軟件所和中科院大學的論文。

? ? ? ? 端到端自動駕駛直接將原始傳感器輸入映射到低級車輛控制,是Embodied AI的重要組成部分。盡管在將多模態大語言模型(MLLM)應用于高級交通場景語義理解方面取得了成功,但將這些概念語義理解有效地轉化為低級運動控制命令并在跨場景駕駛中實現泛化和共識仍然具有挑戰性。我們介紹了Sce2DriveX,一個類人驅動的思維鏈(CoT)推理MLLM框架。Sce2DriveX利用來自局部場景視頻和全局BEV地圖的多模態聯合學習,深入了解長距離時空關系和道路拓撲,增強其在3D動態/靜態場景中的綜合感知和推理能力,實現跨場景的駕駛泛化。在此基礎上,它重建了人類駕駛固有的內隱認知鏈,涵蓋場景理解、元動作推理、行為解釋分析、運動規劃和控制,從而進一步彌合了自動駕駛與人類思維過程之間的差距。為了提高模型性能,我們開發了第一個為3D空間理解和長軸任務推理量身定制的廣泛的視覺問答(VQA)駕駛指令數據集。大量實驗表明,Sce2DriveX從場景理解到端到端駕駛都達到了最先進的性能,并在CARLA Bench2Drive基準上實現了穩健的泛化。

1. 研究背景與問題

自動駕駛作為具身智能(Embodied AI)的核心應用,面臨兩大核心挑戰:

  • 泛化能力不足:現有模型難以適應動態多變的交通場景(如天氣變化、復雜道路拓撲、參與者行為差異等)。

  • 與人類認知脫節:傳統方法依賴剛性規則或小型模型,缺乏對駕駛過程的漸進式推理(Chain-of-Thought, CoT),導致決策邏輯不透明,難以與人類駕駛思維對齊。

2. 核心方法:Sec2DriveX框架

2.1 框架設計

Sec2DriveX是一個基于多模態大語言模型(MLLM)的端到端自動駕駛框架,核心目標是通過全局-局部感知人類認知鏈建模,實現從場景理解到低層控制信號的閉環。其架構包含以下關鍵組件:

  • 多模態輸入

    • 局部場景視頻:捕捉動態時空信息(如交通參與者運動)。

    • 全局BEV地圖:提供道路拓撲、車道結構等靜態信息。

  • 模態對齊:通過視頻編碼器(OpenCLIP)和圖像編碼器提取特征,映射至統一視覺特征空間。

  • LLM主干(Vicuna-v1.5-7b):整合多模態特征與文本指令,生成包含場景理解、元動作推理、行為解釋、運動規劃和控制信號的自然語言響應。

  • 鏈式推理(CoT):模仿人類駕駛的漸進式邏輯,依次完成“場景→元動作→行為→軌跡→控制”的推理鏈。

2.2 數據集構建

論文提出首個綜合VQA駕駛指令數據集,覆蓋以下內容:

  • 層次化場景理解

    • 四類場景元素:天氣、道路、設施、交通參與者(含3D靜態屬性與2D動態行為)。

    • 自動化標注:通過ChatGPT生成多輪QA對,結合人工修正避免幻覺問題。

  • 可解釋端到端駕駛

    • 元動作規則:定義64種組合(如橫向/縱向速度層級、轉向層級),模擬人類駕駛意圖。

    • 行為解釋文本:基于場景QA與元動作,由ChatGPT生成決策邏輯描述。

    • 控制信號:解析nuScenes原始數據,生成軌跡(位置序列)與低層控制信號(加速度、轉向角)。

2.3 三階段訓練流程
  1. 混合對齊預訓練:在CC3M(圖像-文本)和WebVid-10M(視頻-文本)上對齊多模態特征,凍結編碼器權重,僅訓練共享投影層。

  2. 場景理解微調:使用層次化場景數據集,增強模型對3D空間關系的感知能力。

  3. 端到端駕駛微調:在可解釋駕駛數據集上優化長軸任務推理(如軌跡規劃與控制生成)。


3. 實驗與性能驗證
3.1 場景理解任務
  • 指標:BLEU4、ROUGE、CIDEr等文本生成指標,以及分類準確率(Acc)。

  • 結果(表1):

    • 綜合準確率85.69%,其中交通設施識別準確率最高(93.71%)。

    • CIDEr分數達671.93,表明生成描述與真實標注高度一致。

3.2 端到端駕駛任務
  • 運動規劃(表2):

    • 3秒軌跡的L2誤差0.36m,顯著優于傳統方法(UniAD: 1.03m)和MLLM基線(DriveVLM: 0.40m)。

  • 控制信號生成(表3):

    • 加速度RMSE為0.241 m/s2,轉向角誤差0.427°,均優于DriveGPT4和RAG-Driver。

  • 可解釋性:GPT評分91.11(滿分100),表明生成的行為解釋更符合人類邏輯。

3.3 消融實驗(表4)
  • 多視圖輸入:移除后軌跡誤差增加42%(0.51m→0.36m)。

  • 場景理解微調:省略后元動作準確率下降8.9%(94.29%→86.35%)。

  • CoT模塊:移除導致行為解釋質量顯著下降(GPT評分從91.11→75.56)。


4. 創新點與局限性
4.1 創新貢獻
  • 技術框架

    • 首次將MLLM的鏈式推理(CoT)與自動駕駛的全局-局部感知結合,實現“感知-推理-控制”一體化。

    • 提出基于多視圖視頻與BEV地圖的多模態對齊方法,增強時空關系建模。

  • 數據集

    • 構建首個針對3D空間理解與長軸任務推理的VQA駕駛指令數據集,填補領域空白。

  • 訓練策略

    • 三階段訓練流程(預訓練→場景微調→駕駛微調)有效平衡通用性與任務適配性。

4.2 局限性
  • 實時性:未明確模型推理速度,可能限制實際部署。

  • 泛化性:實驗基于nuScenes和仿真數據(Bench2Drive),真實復雜場景(如極端天氣、突發障礙)驗證不足。

  • 數據依賴:依賴ChatGPT生成標注,可能存在隱含偏差。


5. 未來方向
  1. 實時性優化:設計輕量級架構或模型壓縮技術,提升推理效率。

  2. 多模態擴展:融合激光雷達、毫米波雷達等傳感器數據,增強環境感知魯棒性。

  3. 跨場景驗證:在真實路測場景(如城市道路、高速公路)中評估泛化能力。

  4. 人機交互增強:結合人類反饋強化學習(RLHF),進一步對齊決策邏輯與人類偏好。


6. 總結

Sec2DriveX通過多模態大語言模型與鏈式推理的深度融合,為自動駕駛提供了一種可解釋、泛化性強的端到端解決方案。其核心價值在于:

  • 認知對齊:模仿人類駕駛的漸進式推理邏輯,提升決策透明度。

  • 技術突破:在運動規劃與控制信號生成任務中實現SOTA性能。

  • 領域推動:構建的數據集與訓練框架為后續研究提供了重要基準。

盡管存在實時性與真實場景驗證的局限,Sec2DriveX為MLLM在自動駕駛中的應用開辟了新范式,有望推動智能駕駛系統向更安全、更可信的方向發展。

如果此文章對您有所幫助,那就請點個贊吧,收藏+關注 那就更棒啦,十分感謝!!!?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/80957.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/80957.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/80957.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【題解-Acwing】870. 約數個數

題目:870. 約數個數 題目描述 給定 n 個正整數 ai,請你輸出這些數的乘積的約數個數,答案對 109+7 取模。 輸入 第一行包含整數 n。 接下來 n 行,每行包含一個整數 ai。 輸出 輸出一個整數,表示所給正整數的乘積的約數個數,答案需對 109+7 取模。 數據范圍 1 ≤ …

創龍全志T536全國產(4核A55 ARM+RISC-V+NPU 17路UART)工業開發板硬件說明書

前 言 本文檔主要介紹TLT536-EVM評估板硬件接口資源以及設計注意事項等內容。 T536MX-CXX/T536MX-CEN2處理器的IO電平標準一般為1.8V、3.3V,上拉電源一般不超過3.3V或1.8V,當外接信號電平與IO電平不匹配時,中間需增加電平轉換芯片或信號隔離芯片。按鍵或接口需考慮ESD設計…

Redis 持久化雙雄:RDB 與 AOF 深度解析

Redis 是一種內存數據庫,為了保證數據在服務器重啟或故障時不丟失,提供了兩種持久化方式:RDB(Redis Database)和 AOF(Append Only File)。以下是它們的詳細介紹: 一、RDB 持久化 工…

數據結構|并查集

Hello !朋友們,這是我在學習過程中梳理的筆記,以作以后復習回顧,有時略有潦草,一些話是我用自己的話描述的,可能不夠準確,還是感謝大家的閱讀! 目錄 一、并查集Quickfind 二、兩種算…

【GPU 微架構技術】Pending Request Table(PRT)技術詳解

PRT(Pending Request Table)是 GPU 中用于管理 未完成內存請求(outstanding memory requests)的一種硬件結構,旨在高效處理大規模并行線程的內存訪問需求。與傳統的 MSHR(Miss Status Handling Registers&a…

遠程訪問你的家庭NAS服務器:OpenMediaVault內網穿透配置教程

文章目錄 前言1. OMV安裝Cpolar工具2. 配置OMV遠程訪問地址3. 遠程訪問OMV管理界面4. 固定遠程訪問地址 前言 在這個數據爆炸的時代,無論是管理家人的照片和視頻,還是企業老板處理財務報表和技術文檔,高效的數據管理和便捷的文件共享已經變得…

微服務架構下的熔斷與降級:原理、實踐與主流框架深度解析

微服務架構下的熔斷與降級:原理、實踐與主流框架深度解析 在現代分布式系統中,熔斷 (Circuit Breaker) 和 降級 (Degrade) 是保障系統彈性與高可用性的核心機制。本文將系統解析兩者的原理、區別與協同方式,并結合主流框架 (Resilience4j、S…

docker-vllm運行大模型

vllm鏡像下載,國內代理源 vllm/vllm-openai - Docker Image - 毫秒鏡像https://1ms.run/r/vllm/vllm-openai 執行下載docker pull docker.1ms.run/vllm/vllm-openai 查看本地鏡像 查看鏡像 查看鏡像 docker images導出鏡像 docker save -o E:\docker\ollama.tar …

基于tabula對pdf中多個excel進行識別并轉換成word中的優化(四)

對上一節進行優化: 1、識別多個excel 2、將表格中的nan替換成空字符串 一、示例中的pdf內容 二、完整代碼參考: import tabula import numpy as np from docx import Document from docx.oxml.ns import qn from docx.oxml import OxmlElementdef get_t…

【10分鐘讀論文】Power Transmission Line Inspections電力視覺水文

標題Power Transmission Line Inspections: Methods, Challenges, Current Status and Usage of Unmanned Aerial Systems 2024 評分一顆星 論文《Power Transmission Line Inspections: Methods, Challenges, Current Status and Usage of Unmanned Aerial Systems》的核心內…

linux安裝ragflow

先安裝docker,操作步驟參考文章: Linux安裝Docker docker安裝完畢,下載ragflow源碼: https://github.com/infiniflow/ragflow 下載完成,進入docker文件夾中,修改.env文件,因為默認安裝的是sli…

學習記錄:DAY20

技術探索之旅:YAML配置,依賴注入、控制反轉與Java注解 前言 最近有點懶了,太松懈可不行。為了讓自己保持學習的動力,我決定將最近的學習內容整理成博客,目標是讓未來的自己也能輕松理解。我會盡量以整體記錄的方式呈…

MCP:人工智能時代的HTTP?探索AI通信新標準

每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領…

首版次誤區有哪些?與軟件測試報告又有什么聯系?

在軟件開發與測試領域,"首版次"這一概念關乎軟件的版本控制與管理,是確保產品質量和發布節奏的重要環節。首版次,通常是指軟件產品第一個對外發布或內部驗收的版本號,標志著一次完整開發周期的結束和下一階段工作的開始…

Laravel+API 接口

LaravelAPI 接口 網課連接:BIlibili. 中文文檔. 1.RestFul Api編碼風格 一、API設計 修改hosts,C:\Windows\System32\drivers\etc\hosts,增加127.0.0.1 api.lv8.com # Laravel 框架 用這個域名來測試(推薦規范) 在…

MIT6.S081-lab7前置

MIT6.S081-lab7前置 這部分包含了設備中斷和鎖的內容 設備中斷 之前系統調用的時候提過 usertrap ,而我們的設備中斷,比如計時器中斷也會在這里執行,我們可以看看具體的邏輯: void usertrap(void) {int which_dev 0;if((r_sst…

Linux 下編譯BusyBox

一、linux下編譯 1.拉取busybox源碼 git clone https://github.com/mirror/busybox.git 內容如下 2.配置make,建議在linux下單獨開一個終端執行 進入busybox源碼目錄,使用如下命令 make menuconfig 3.報錯 解決辦法: 安裝ncurses sud…

Element:Cheack多選勾選效果邏輯判斷

效果展示 取消子級勾選&#xff0c;父級的勾選效果 代碼合集 &#xff08;1&#xff09;組件代碼 fromlist.cheackType 類型&#xff0c;permissio表示是權限. fromlist:[{id:1,children:[{...}]},...]傳遞的數據大致結構 <!-- 操作權限 --><template v-if"…

【3DMax腳本MaxScript開發:創建高效模型虛擬體綁定和材質管理系統,從3DMax到Unreal和Unity引擎_系列第一篇】

3ds Max 腳本開發 3ds Max 腳本開發&#xff1a;創建高效模型虛擬體綁定和材質管理系統3ds Max 插件制作背景&#xff1a;設計思路一、場景節點收集與過濾廢話不多說&#xff0c;直接上完整代碼&#xff1a;界面定義與基礎設置界面控件創建狀態變量核心邏輯函數過濾選項改變事件…

【Linux學習筆記】進程替換和自定義shell

【Linux學習筆記】進程替換和自定義shell &#x1f525;個人主頁&#xff1a;大白的編程日記 &#x1f525;專欄&#xff1a;Linux學習筆記 文章目錄 【Linux學習筆記】進程替換和自定義shell前言一.進程程序替換1.1 替換原理1.2 替換函數1.2.1函數解釋1.2.2命名理解 二.自主…