上交卡爾動力聯合提出FastDrive!結構化標簽實現自動駕駛端到端大模型更快更強

最近將類人的推理能力融入到端到端自動駕駛系統中已經成為了一個前沿的研究領域。其中,基于視覺語言模型的方法已經吸引了來自工業界和學術界的廣泛關注。

現有的VLM訓練范式嚴重依賴帶有自由格式的文本標注數據集,如圖1(a)所示。雖然這些描述能夠捕捉豐富的語義信息,但由于兩種結構不同但是表達相近的句子會增加模型在學習任務中的復雜性和計算開銷,導致模型無法專注核心的推理任務此外,由于語言描述中還會存在冗余的信息,這對于自動駕駛系統的下游決策過程帶來不必要的認知負荷。

圖1:不同VLM算法模型訓練范式比較??【深藍AI】編譯

此外,現有的一些基準模型通常依賴于大規模的語言模型,這些模型通常包含超過70億個參數,甚至更多以實現多模態對齊和推理。雖然超大參數VLM可能在各種基準測試中取得不錯的性能,但同時存在高昂的計算成本、內存消耗和推理延遲等問題。

針對上述提到的相關問題,本文提出了一個結構化、簡潔的數據集NuScenes-S,其源自于NuScenes數據集。此外,本文提出了一種緊湊的VLM基線模型,稱之為FastDrive,專門為小規模參數的端到端自動駕駛方案而設計。FastDrive 通過采用思維鏈式過程來模擬人類駕駛員的推理策略,執行場景理解、感知、預測和決策任務,從而實現與端到端自動駕駛框架的有效結合

本文的主要貢獻如下

?本文引入一個結構化的數據集,該數據集關注與駕駛決策密切相關的關鍵要素,從而消除冗余信息,解決自由格式文本注釋中同義表達的局限性,并提高推理效率

?本文提出了一個具有0.9B參數的緊湊型VLM基線模型,它模仿人類駕駛員的推理策略,并實現了與端到端自動駕駛框架的有效對齊

?本文針對NuScenes-S和FastDrive進行了全面的評估和廣泛的實驗結果證明所提出的數據集和模型的有效性,并在NuScenes-S數據集上取得了具有競爭力的性能

場景描述

本文提出的NuScenes-S數據集中的場景描述旨在提供更全面的駕駛場景視圖,解決許多現有數據集中經常被忽視或表示不足的問題。NuScenes-S中的場景描述結構清晰、簡潔,包含以下關鍵元素:天氣、交通狀況、駕駛區域、交通燈、交通標志、道路狀況、車道、時間。其相關的具體細節如下所示

?天氣:天氣條件包含晴天、雨天、雪天、霧天以及多云

?交通狀況:交通狀況包括低、中等

?駕駛區域:駕駛區域包括交叉路口、樞紐、環島、住宅區、人行橫道、停車場

?交通燈:交通燈包括綠燈、紅燈和黃燈

?交通標志:交通標志包括速度限制、停車、讓行、禁止停車、禁止調頭、禁止左轉、禁止右轉、禁止超車、單行線

?道路狀況:道路狀況包括光滑、粗糙、潮濕、結冰,施工

?車道線:車道線包括右轉、左轉、直行、直行右轉、直行左轉、掉頭、左轉調頭、右轉調頭

?時間:時間包括白天和夜間

感知和預測

識別一些關鍵目標并預測其未來的狀態對于駕駛員的決策至關重要。NuScenes-S數據集中的感知和預測任務結構如下: 目標:攝像頭、2D邊界框,未來狀態。

?相機視角:相機視角包括前向、前左、前右、后向、后左、后右

?2D邊界框:2D邊界框包含兩個對角線的坐標

?未來狀態:未來狀態包括直行、左轉、右轉、輕微左轉、輕微右轉、停止、怠速

決策

根據感知和預測任務做出決策是駕駛員安全駕駛的最后也是關鍵的一步。NuScenes-S數據集中的決策任務結構如下:決策:橫向移動、縱向移動

?橫向移動:橫向移動包括左轉、右轉、輕微左轉、輕微右轉、直行

?縱向移動:加速、減速、巡航、怠速

數據集的構建

數據集的整體構建過程如圖2所示。具體來說,在場景描述方面,本文首先通過GPT和人工對場景信息進行標注,然后比較GPT和人工標注的結果,找出差異,并由人工標注對標注進行細化。在感知和預測任務中,本文首先定義一些規則來提取關鍵目標,然后使用VLM和人工同步對關鍵目標進行標注。最后,基于規則和人工注釋對決策任務進行注釋,以獲得初始注釋,然后由人工注釋通過比較優化進一步完善

圖2:NuScenes-S數據集的整體構建過程??【深藍AI】編譯

最后得到的NuScene-S數據集的樣例如圖3所示。

圖3:NuScenes-S數據集用例示意圖??【深藍AI】編譯

本文提出的FastDrive算法模型的整體網絡結構如圖4所示。通過網絡結構圖可以看出,其整體遵循"ViT-Adapter-LLM"的架構范式。

圖4:FastDrive端到端算法模型的整體網絡結構圖??【深藍AI】編譯

視覺編碼器模塊

視覺編碼器的主干網絡是Vision Transformer,提取輸入環視圖像的視覺特征,并利用多層感知機投影到LLM的特征空間。本文還引入了可選的TokenPacker模塊減少標記的數量,進而提高推理速度。

LLM代理

本文中的LLM在FastDrive算法模型中起到大腦的角色,并且選用的是Qwen2.5。它以視覺編碼器的視覺特征和結構化語言指令作為輸入,生成場景描述,識別關鍵物體,預測其未來狀態,并以思維鏈的方式做出駕駛決策

本文的實驗在NuScenes-S數據集上進行,該數據集包含了102K個問答對。整個數據集被拆分成了84K個訓練問答對和18K個測試問答對。評估指標包括語言指標、平均精度、召回率和決策準確率。

圖5展示了本文的算法模型在場景理解方面的性能。實驗結果表明,FastDrive在結構化基準數據集上取得了有競爭力的性能。

圖5:在NuScenes-S數據上的場景理解性能??【深藍AI】編譯

圖6展示了不同算法模型在感知、預測以及決策任務上的性能對比,實驗結果可以看出,FastDrive在預測和決策規劃任務上實現了最佳的性能。

圖6:在NuScenes-S數據集上感知、預測、決策任務性能??【深藍AI】編譯

此外,本文也進行了相關的消融實驗來驗證提出的場景標注的有效性,如圖7所示。

圖7:場景標注對于駕駛決策的消融實驗??【深藍AI】編譯

本文為了更加直觀的展示消融實驗的效果,將模型的預測內容進行了可視化輸出,如圖8所示。

圖8:消融實驗部分的樣例說明??【深藍AI】編譯

本文引入了一個結構化的自動駕駛基準數據集NuScenes-S,它在感知、預測和決策任務中遵循類人的推理過程。此外,本文還提出了FastDrive,一個用于端到端的自動駕駛模型,在NuScenes-S數據集上取得了具有競爭力的性能,推理速度更快,參數更少。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/86063.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/86063.shtml
英文地址,請注明出處:http://en.pswp.cn/web/86063.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C# 委托(什么是委托)

什么是委托 可以認為委托是持有一個或多個方法的對象。當然,一般情況下你不會想要“執行”一個對 象,但委托與典型的對象不同。可以執行委托,這時委托會執行它所“持有"的方法。 本章將揭示創建和使用委托的語法和語義。在本章后面&am…

iTwin briefcase, checkpoint ,standalone

在 iTwin.js 中,briefcase 和 checkpoint 都是 IModel 的不同連接類型,但它們的用途和特性不同: Briefcase 用途:用于本地編輯和同步。通常是用戶從 iModelHub 檢出(Check-out)后在本地生成的可寫副本。特…

媒體AI關鍵技術研究

一、引言 隨著人工智能技術的迅猛發展,媒體行業正經歷前所未有的變革。AI技術不僅重塑了內容生產和傳播模式,更為媒體創意發展提供了全新可能。在數字化、移動化和信息爆炸的大背景下,傳統媒體面臨巨大挑戰,而AI技術為行業帶來了…

Cargo 與 Rust 項目

一、Rust 項目:現代化的系統編程單元 Rust 項目 是用 Rust 語言編寫的軟件工程單元,具有以下核心特征: 核心組件: src/ 目錄:存放 Rust 源代碼(.rs 文件) Cargo.toml:項目清單文件…

uni-app總結6-配合iOS App項目開發apple watch app

假設你已經用uni-app開發好了一個iOS端的app,現在想要開發一個配套的apple watch app。改怎么去開發呢?是不是一頭霧水,這篇文章就會介紹一些apple watch app開發的知識以及如何在uni-app開發的iOS app基礎上去開發配套的watch app。 一、apple watch 開發知識 apple watc…

神經網絡的本質 邏輯回歸 python的動態展示

神經網絡的本質 邏輯回歸 python的動態展示 邏輯回歸運行圖相關代碼什么是邏輯回歸和ai的關系邏輯回歸公式流程與實際案例解析**一、邏輯回歸的數學公式流程**1. **線性組合階段**2. **激活函數(Sigmoid)**3. **概率預測與決策**4. **交叉熵損失函數**5.…

sql server中的with 鎖各種區別

📘 SQL Server 常用 WITH (Hint) 用法與組合場景對照表 Hint 組合作用說明常見用途是否阻塞他人是否讀臟數據備注WITH (NOLOCK)不加共享鎖,允許讀取未提交數據報表導出、大數據分頁??等價于 READ UNCOMMITTED,臟讀風險高WITH (HOLDLOCK)保持…

KES數據庫部署工具使用

一、啟動部署工具 Windows系統 #命令行 ${安裝目錄}/ClientTools/guitools/DeployTools/deploy.exeLinux系統 #命令行 [rootnode ~]# ${安裝目錄}/ClientTools/guitools/DeployTools/deploy二、環境配置 1.硬件要求 #都是最小配置 CPU:主流32或64位 內存&#…

TB62211FNG是一款采用時鐘輸入控制的PWM斬波器的兩相雙極步進電機驅動器

TB62211FNG是一款采用時鐘輸入控制的PWM斬波器的兩相雙極步進電機驅動器。該器件采用BiCD工藝制造,額定電壓為40伏/1.0安培。片上電壓調節器允許使用單一VM電源控制步進電機。 特點: ? 雙極性步進電機驅動器 ? 脈沖寬度調制(PWM&#xf…

uni-app項目實戰筆記24--uniapp實現圖片保存到手機相冊

前提條件:微信小程序要想實現保存圖片到本地相冊需要到微信公眾平臺--小程序--開發管理中配置服務器域名中的downloadFile合法域名: \uniapp提供了saveImageToPhotosAlbum API實現保存的圖片到本地相冊。下面是它的配置參數: 參數名類型必填…

面試題-定義一個函數入參數是any類型,返回值是string類型,如何寫出這個函數,代碼示例

在 TypeScript 里,要定義一個入參為any類型、返回值為string類型的函數,可參考下面幾種實現方式: 1. 基礎實現 直接把入參轉換為字符串返回。 function anyToString(input: any): string {return String(input); // 使用String()進行類型轉…

TensorFlow深度學習實戰——Transformer模型評價指標

TensorFlow深度學習實戰——Transformer模型評價指標 0. 前言1. 質量1.1 GLUE1.2 SuperGLUE1.3 SQuAD1.4 RACE1.5 NLP-progress2. 參數規模3. 服務成本相關鏈接0. 前言 可以使用多種類型的指標評估 Transformer 模型。在本節中,我們將學習一些用于評估 Transformer 的關鍵因素…

linux內核學習(一)---內核社區介紹及補丁提交

目錄 一、引言 二、內核源碼 三、內核社區 ------>3.1、社區的組織架構 ------>3.2、內核社區的工作方式 ------>3.3、內核社區核心網站 ------------>3.3.1、Linux Kernel 官網 ------------>3.3.2、Linux Kernel 郵件列表(LKML) ------------>3.3…

輕量級web開發框架之Flask web開發框架學習:get請求數據的發送

Flask是一個使用 Python 編寫的輕量級 Web 應用框架,簡介靈活,可快速構建開發框架。 協作流程示例 客戶端請求 → Web服務器(Nginx) → WSGI服務器(Gunicorn/uWSGI)↓WSGI協議傳遞請求數據(env…

Vue 3 異步三劍客:Suspense、async setup() 和 await 的戲劇性關系,白屏的解決

文章目錄 🎭 Vue 3 異步三劍客:Suspense、async setup() 和 await 的戲劇性關系,白屏的解決🎬 角色介紹🎭 正常演出流程(有 Suspense 時)💥 災難場景(缺少 Suspense 時&a…

【JavaScript-Day 48】告別 Ajax,擁抱現代網絡請求:Fetch API 完全指南

Langchain系列文章目錄 01-玩轉LangChain:從模型調用到Prompt模板與輸出解析的完整指南 02-玩轉 LangChain Memory 模塊:四種記憶類型詳解及應用場景全覆蓋 03-全面掌握 LangChain:從核心鏈條構建到動態任務分配的實戰指南 04-玩轉 LangChai…

BUUCTF在線評測-練習場-WebCTF習題[極客大挑戰 2019]Knife1-flag獲取、解析

解題思路 這題沒有什么解題思路,打開靶場,標題是白給的shell 頁面顯示了 eval($_POST["Syc"]); 這是php webshell命令,密碼為Syc,可直接通過該命令連接,根據標題提示,直接嘗試用蟻劍連接 連接成…

Qt—(Qt線程,Qt進程,,QT與sqlite數據庫)

一 Qt線程與進程概述 線程與進程對比 特性線程 (QThread)進程 (QProcess)內存空間共享父進程內存獨立內存空間創建開銷小 (幾MB)大 (幾十MB)通信方式共享內存/信號槽管道/套接字/文件崩潰影響導致整個進程終止僅自身終止適用場景高并發任務、計算密集型隔離第三方應用、安全需求…

計算機視覺階段一:CV入門基礎

目錄 學習目標: 一、核心知識點 二、實用工具推薦 三、學習內容與步驟 1.環境搭建 2.圖像獲取與顯示 3 圖像基礎處理 4 圖像幾何變換 5 圖像像素操作 四、實戰任務建議 實戰 1:圖像加載 顯示 保存 實戰 2:灰度圖 邊緣檢測 圖…

新增MCP接入和AutoAgent,漢得靈猿AI中臺1.6版正式發布!

漢得靈猿(大圣)AI中臺1.6版本,經過數月迭代,現已正式發布! 新版本最被期待的新功能,無疑是4月份預告的MCP接入,而令人同樣激動的另一項新功能,則是AutoAgent動態規劃智能體。除了兩…