DriveMM:用于自動駕駛的一體化大型多模態模型——論文閱讀

《DriveMM: All-in-One Large Multimodal Model for Autonomous Driving》2024年12月發表,來自中山大學深圳分校和美團的論文。

????????大型多模態模型(LMM)通過整合大型語言模型,在自動駕駛(AD)中表現出卓越的理解和解釋能力。盡管取得了進步,但當前的數據驅動AD方法往往專注于單個數據集和特定任務,忽視了它們的整體能力和泛化能力。為了彌合這些差距,我們提出了DriveMM,這是一種通用的大型多模式模型,旨在處理各種數據輸入,如圖像和多視圖視頻,同時執行廣泛的AD任務,包括感知、預測和規劃。最初,該模型經過課程預訓練,以處理各種視覺信號并執行基本的視覺理解和感知任務。隨后,我們增強和標準化了各種與AD相關的數據集,以微調模型,從而為自動駕駛提供了一個一體化的LMM。為了評估總體能力和泛化能力,我們對六個公共基準進行了評估,并在一個看不見的數據集上進行了零樣本傳輸,其中DriveMM在所有任務中都實現了最先進的性能。我們希望DriveMM能夠成為現實世界中未來端到端自動駕駛應用的有前景的解決方案。

1.?研究背景與問題

自動駕駛(AD)領域的數據驅動方法通常專注于單一數據集和特定任務(如目標檢測、路徑規劃),導致模型泛化能力不足。現有大型多模態模型(LMMs)雖在視覺-語言任務中表現優異,但缺乏對復雜駕駛場景的全面理解和多任務協同能力。本文提出DriveMM,一個全合一的多模態模型,旨在統一處理多種數據輸入(圖像、視頻、多視角數據)并執行感知、預測、規劃等多樣化任務,同時提升泛化能力。


2.?核心貢獻
  • 全合一多模態模型(DriveMM)
    支持多傳感器輸入(單/多視角圖像、視頻、LiDAR),通過視角感知提示區分數據來源(如不同攝像頭視角),并整合感知、預測、規劃任務。

  • 綜合基準測試
    首次提出涵蓋6個公共數據集、4種輸入類型、13項任務的評估框架,覆蓋復雜駕駛場景。

  • 課程學習方法
    分階段訓練(語言-圖像對齊→單圖像預訓練→多能力預訓練→駕駛微調),逐步提升模型處理復雜數據的能力。

  • 數據增強與標準化
    利用GPT-4o擴展問答對的多樣性,統一不同數據集的標注格式(如目標位置標準化為0-100范圍),促進多數據集協同訓練。


?3.?方法論

  • 模型架構

    • 視覺編碼器(SigLIP):處理多模態輸入(圖像、視頻、LiDAR投影的BEV/范圍視圖)。

    • 投影器(2層MLP):將視覺特征映射到語言模型的詞嵌入空間(LLaMA-3.1)。

    • 視角感知提示:通過占位符(<image>/<video>)和視角標簽(如CAM.BACK)增強模型對空間關系的理解。

  • 數據策略

    • 多源數據整合:包括通用多模態數據(LCS-558K、COCO)、感知數據(COCO、nuScenes)和自動駕駛數據(CODA-LM、DriveLM等)。

    • 問答增強:利用GPT-4o生成多樣化問答對,將開放式問題轉為多選題,提升模型泛化能力。

  • 訓練流程


    分四階段逐步提升能力:

    1. 語言-圖像對齊:凍結視覺編碼器和語言模型,僅訓練投影器。

    2. 單圖像預訓練:優化整體模型參數,增強單圖像理解。

    3. 多能力預訓練:引入視頻、多視角數據,提升時空推理能力。

    4. 駕駛微調:在6個自動駕駛數據集上聯合微調,實現多任務協同。


4.?實驗結果
  • 性能優勢
    DriveMM在6個數據集(CODA-LM、MAPLM、DriveLM等)的13項任務中均達到SOTA,平均性能提升顯著(如Nulnstruct任務提升26.17%)。

  • 泛化能力
    在零樣本遷移測試(BDD-X數據集)中,DriveMM的GPT-Score(43.10)遠超單數據集訓練的專家模型(最高39.67)。

  • 消融實驗驗證

    • 視角感知提示:提升多視角數據任務性能(如DriveLM、Nulnstruct)。

    • 問答增強與標準化:顯著改善數據多樣性受限的任務(如CODA-LM)。

    • 多數據集聯合訓練:相比單數據集訓練,混合訓練平均性能提升1-5%。


5.?創新與局限性
  • 創新點

    • 首次提出全合一自動駕駛LMM,統一多任務、多數據輸入。

    • 視角感知提示機制和課程學習方法為多模態模型設計提供新思路。

  • 局限性

    • 實際道路測試尚未驗證,需進一步部署驗證。

    • 模型參數量大(基于LLaMA-3.1 8B),計算成本較高。


6.?應用前景

DriveMM為端到端自動駕駛系統提供了高效的多任務解決方案,可適配不同傳感器配置(攝像頭、雷達),適用于城市道路、高速公路等多種場景。未來可結合實時控制模塊,進一步探索其在動態決策中的潛力。

如果此文章對您有所幫助,那就請點個贊吧,收藏+關注 那就更棒啦,十分感謝!!!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/83422.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/83422.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/83422.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C++_STL_map與set

1. 關聯式容器 在初階階段&#xff0c;我們已經接觸過STL中的部分容器&#xff0c;比如&#xff1a;vector、list、deque、 forward_list(C11)等&#xff0c;這些容器統稱為序列式容器&#xff0c;因為其底層為線性序列的數據結構&#xff0c;里面 存儲的是元素本身。那什么是…

【嵌入式開發-RGB 全彩 LED】

嵌入式開發-RGB 全彩 LED ■ RGB 全彩 LED簡介■ 電路設計■ ■ RGB 全彩 LED簡介 RGB 全彩 LED 模塊顯示不同的顏色。 ■ 電路設計 全彩 LED 使用 PA5、 藍色&#xff08;B&#xff09; TIM2_CHN3 PA1、 綠色&#xff08;G&#xff09;TIM2_CHN2 PA2、 紅色&#xff08;R&am…

計算機網絡:手機和基站之間的通信原理是什么?

手機與基站之間的通信是無線通信技術的核心應用之一,涉及復雜的物理層傳輸、協議交互和網絡管理機制。以下從技術原理、通信流程和關鍵技術三個層面深入解析這一過程: 一、蜂窩網絡基礎架構 1. 蜂窩結構設計 基本原理:將服務區域劃分為多個六邊形“蜂窩小區”,每個小區由*…

【Docker】Docker安裝RabbitMQ

目錄 1.拉取鏡像 2. 創建掛載目錄 3.創建和啟動 4.登錄管理端 1.拉取鏡像 推薦使用帶 Web 管理界面的官方鏡像&#xff08;management&#xff09; # 拉取docker鏡像 docker pull rabbitmq:management響應內容&#xff1a; 2. 創建掛載目錄 創建掛載目錄和日志目錄 #rabb…

交叉編譯源碼的方式移植ffmpeg-rockchip

獲取ffmpeg源碼 git submodule add -f https://github.com/FFmpeg/FFmpeg.git thirdparty/FFmpeg 瑞芯微ffmpeg-rk git clone https://github.com/jjm2473/ffmpeg-rk/tree/enc# 參考的一位博主的說法 使用 ffmpeg-rochip 的好處 傳統的使用硬件編解碼的開發思路是&#xf…

9.0 C# 調用solidworks介紹1

一、C# 與 SolidWorks 聯合開發概述 SolidWorks 提供了完整的 API(應用程序接口),允許開發者使用 C# 等編程語言進行二次開發,實現自動化設計、定制功能等。 主要技術要點包括: 1. API 結構:SolidWorks API 是基于 COM 的接口,包含數百個對象和數千個方法…

AD 多層線路及裝配圖PDF的輸出

裝配圖的輸出&#xff1a; 1.點開‘智能PDF’ 2. 設置顯示頂層&#xff1a; 設置顯示底層&#xff1a; 多層線路的輸出 同樣使用‘智能PDF’

SpringBoot + Shiro + JWT 實現認證與授權完整方案實現

SpringBoot Shiro JWT 實現認證與授權完整方案 下面博主將詳細介紹如何使用 SpringBoot 整合 Shiro 和 JWT 實現安全的認證授權系統&#xff0c;包含核心代碼實現和最佳實踐。 一、技術棧組成 技術組件- 作用版本要求SpringBoot基礎框架2.7.xApache Shiro認證和授權核心1.…

PCIe數據采集系統詳解

PCIe數據采集系統詳解 在上篇文章中&#xff0c;廢了老大勁兒我們寫出了PCIe數據采集系統&#xff1b;其中各個模塊各司其職&#xff0c;相互配合。完成了從數據采集到高速存儲到DDR3的全過程。今天我們呢就來詳細講解他們之間的關系&#xff1f;以及各個模塊的關鍵點&#xff…

2025云智算技術白皮書

1. 云智算的演進背景 傳統云計算面臨三大挑戰&#xff1a; 算力需求激增&#xff1a;AI大模型訓練需十萬卡級GPU集群&#xff0c;資源調度能力不足。網絡性能瓶頸&#xff1a;TB級參數同步對低時延、高吞吐要求遠超傳統網絡架構。服務形態單一&#xff1a;IaaS/PaaS無法覆蓋A…

C語言編程中的時間處理

最簡單的time 在C語言編程中&#xff0c;處理時間最簡單的函數就是time了。它的原型為&#xff1a; #include <time.h> time_t time(time_t *_Nullable tloc);返回自從EPOCH&#xff0c;即1970年1月1日的零點零時零分&#xff0c;到當前的秒數。 輸入參數可以是NULL。…

適應性神經樹:當深度學習遇上決策樹的“生長法則”

1st author: Ryutaro Tanno video: Video from London ML meetup paper: Adaptive Neural Trees ICML 2019 code: rtanno21609/AdaptiveNeuralTrees: Adaptive Neural Trees 背景 在機器學習領域&#xff0c;神經網絡&#xff08;NNs&#xff09;憑借其強大的表示學習能力&…

InitVerse節點部署教程

項目介紹: InitVerse 是一個為新興企業量身定制的自動化 Web3 SaaS 平臺,只需單擊幾下即可快速開發和部署 DApp。在 INIChain 和 INICloud 的支持下,InitVerse 可以根據需求動態調整計算資源,實現高效的任務處理,同時提供更高的安全性、可用性和可擴展性。 系統要求: C…

阿里開源通義萬相 Wan2.1-VACE,開啟視頻創作新時代

0.前言 阿里巴巴于2025年5月14日正式開源了其最新的AI視頻生成與編輯模型——通義萬相Wan2.1-VACE。這一模型是業界功能最全面的視頻生成與編輯工具&#xff0c;能夠同時支持多種視頻生成和編輯任務&#xff0c;包括文生視頻、圖像參考視頻生成、視頻重繪、局部編輯、背景延展…

解決“VMware另一個程序已鎖定文件的一部分,進程無法訪問“

問題描述 打開VMware里的虛擬機時&#xff0c;彈出"另一個程序已鎖定文件的一部分&#xff0c;進程無法訪問"如圖所示&#xff1a; 這是VM虛擬機的保護機制。虛擬機運行時&#xff0c;為防止數據被篡改&#xff0c;會將所運行的文件保護起來。當虛擬機崩潰或者強制…

基于大數據的租房信息可視化系統的設計與實現【源碼+文檔+部署】

課題名稱 基于大數據的租房信息可視化系統的設計與實現 學 院 專 業 計算機科學與技術 學生姓名 指導教師 一、課題來源及意義 租房市場一直是社會關注的熱點問題。隨著城市化進程的加速&#xff0c;大量人口涌入城市&#xff0c;導致租房需求激增。傳統的租…

Vue3封裝公共圖片組件

對圖片加載做的處理: 圖片加載狀態響應式管理圖片訪問錯誤的處理機制圖片懶加載可通過slot支持自定義加載動畫其他監聽事件的處理及向上傳遞 …<!-- components/CustomImage.vue --> <template><div class="custom-image-wrapper"><!-- 主圖 -…

車道線檢測----CLRKDNet

今天的最后一篇 車道線檢測系列結束 CLRKDNet&#xff1a;通過知識蒸餾加速車道檢測 摘要&#xff1a;道路車道是智能車輛視覺感知系統的重要組成部分&#xff0c;在安全導航中發揮著關鍵作用。在車道檢測任務中&#xff0c;平衡精度與實時性能至關重要&#xff0c;但現有方法…

Python-感知機以及實現感知機

感知機定義 如果有一個算法&#xff0c;具有1個或者多個入參&#xff0c;但是返回值要么是0&#xff0c;要么是1&#xff0c;那么這個算法就叫做感知機&#xff0c;也就是說&#xff0c;感知機是個算法 感知機有什么用 感知機是用來表示可能性的大小的&#xff0c;我們可以認…

STM32 ADC+DMA+TIM觸發采樣實戰:避坑指南與源碼解析

知識點1【TRGO的介紹】 1、TRGO的概述 TRGO&#xff1a;Trigger Output&#xff08;觸發輸出&#xff09;&#xff0c;是定時器的一種功能。 它可以作為外設的啟動信號&#xff0c;比如ADC轉換&#xff0c;DAC輸出&#xff0c;DMA請求等。 對于ADC來說&#xff0c;可以通過…