自動駕駛---不依賴地圖的大模型軌跡預測

1 前言

? ? ? ? 早期傳統自動駕駛方案通常依賴高精地圖(HD Map)提供道路結構、車道線、交通規則等信息,可參考博客《自動駕駛---方案從有圖邁進無圖》,本質上還是存在問題:

  • 數據依賴性高:地圖構建成本昂貴,且跨區域泛化能力受限。
  • 動態場景局限性:地圖無法實時反映臨時障礙物或施工區域。
  • 計算復雜度:地圖的復雜拓撲結構需要額外編碼模塊處理。

? ? ? ? 在之前的博客中,筆者分別介紹過華為《自動駕駛---行泊一體(車位到車位功能)》ADS3.0智駕方案中,RCR網絡(Road Cognition & Reasoning,道路拓撲推理網絡):結合普通導航地圖來與現實進行匹配和印證,再實時通過傳感器來拓補繪制一幅可用的行車地圖。通過RCR網絡便擺脫了高精地圖,實現絕大多數場景下的無圖就能開。

? ? ? ? 小米智駕同樣也有一套系統《自動駕駛---小米汽車智駕進展》,道路大模型:小米道路大模型,實時生成道路拓撲,效果媲美高精地圖,實現全國都能用的城市領航。

????????小米和華為類似,都是通過模型來建立車道信息,盡量不高度依賴高精地圖。

? ? ? ? 最近介紹的博客《自動駕駛---LSTM模型用于軌跡預測》,僅依賴于動態車輛的歷史軌跡,有其局限性,以及《自動駕駛---基于深度學習模型的軌跡預測》中介紹通過深度學習模型進行軌跡預測,基于此軌跡預測的深度學習模型,后期是可以用于自車軌跡生成的端到端大模型。

? ? ? ? 目前特斯拉的端到端大模型的輸入應該是包括地圖數據的,但國內量產端到端大模型的公司目前做到這一點的幾乎沒有。

    2 軌跡預測

    ????????目前,很多公司的端到端整體方案如下所示,地圖信息作為模型的輸入(以特斯拉為代表),或者干脆就不包括(國內的模塊化大模型)。

    ? ? ? ?MFTP(Map-Free Trajectory Prediction),這是一種無需地圖的軌跡預測方法(如下圖所示),它在訓練期間通過知識蒸餾從高清地圖中獲益,而在推理期間則不需要高清地圖。論文中提出了一種新穎的層次編碼器,有效地提取時空智能體特征,并將它們聚合成多個軌跡查詢。此外,引入了一個迭代解碼器,順序解碼軌跡查詢以生成最終預測。在Argoverse數據集下的無地圖設置中,該方法實現了最先進的性能。

    2.1 方法論

    (1)知識蒸餾

    ? ? ? ? 前段時間也是Deepseek帶火了知識蒸餾這一概念。知識蒸餾(Knowledge Distillation)?其實是一種機器學習技術,旨在將復雜模型(通常稱為“教師模型”)的知識遷移到更簡單、更高效的模型(“學生模型”)中,從而實現模型壓縮、性能提升或部署優化。其核心思想是讓學生模型模仿教師模型的輸出或中間特征,而不僅僅依賴原始訓練數據的標簽。

    • 知識蒸餾的大概過程:
      • 訓練教師模型:在目標任務上訓練一個高性能的大模型。
      • 生成軟標簽:用教師模型對訓練數據推理,得到概率分布(軟標簽)。
      • 訓練學生模型:學生模型同時擬合硬標簽(原始標簽)和軟標簽(教師輸出),損失函數通常為: ?,其中??衡量學生與教師輸出的差異,?為權重系數。
    • 套用到?MFTP(Map-Free Trajectory Prediction)中的大概過程如下:
      • 教師模型:使用高精地圖的軌跡預測模型。
      • 學生模型:無地圖的軌跡預測模型。
      • 蒸餾內容:將教師模型對地圖拓撲的理解(如車道連接、交通規則)遷移到學生模型中,使其隱式學習道路結構約束,而無需顯式地圖輸入。

    (2)MFTP架構

    • 整體框架:MFTP包括一個預訓練的基于地圖的教師網絡和一個無需地圖的學生網絡。教師網絡利用高清地圖和其它智能體的歷史軌跡作為輸入,而學生網絡則不依賴地圖信息。
    • 層次編碼器:提出了一種新穎的層次編碼器,用于提取智能體的多層次時空特征,并將它們聚合成多個軌跡查詢。
      • 輸入表示:在采用向量表示的情況下,智能體的歷史軌跡和地圖折線被表示為二維或三維空間中的一組點。我們沒有使用智能體軌跡和地圖點的絕對位置,而是選擇相對運動向量作為輸入。

      • 上下文建模:軌跡預測本質上是一項序列性且涉及交互的任務,在其中,一個智能體過去的行為以及周圍環境都起著至關重要的作用。為了提取智能體的時空特征,我們按順序對地圖與地圖之間、智能體與地圖之間以及智能體與智能體之間的交互進行建模。首先,我們利用中提出的帶有注意力機制的地圖與地圖注意力模塊,對地圖結構和車道交互進行建模,將其視為地圖先驗知識,隨后再接入一個前饋神經網絡(FFN)。

      • 分層特征聚合與融合:利用特征聚合(FA)模塊對智能體的時空特征進行聚合,以生成多個軌跡查詢。這些查詢起到了橋梁的作用,連接著編碼器和解碼器,并且代表著潛在的多模態未來軌跡。

    • 迭代解碼器:使用迭代解碼器順序解碼軌跡queries,以生成最終的預測。

    ????????整體的框架如下圖所示,多模態融合軌跡預測(MFTP)有一個基于地圖的預訓練教師模型和一個無地圖的學生模型。除了與地圖相關的模塊之外,學生模型與教師模型具有相同的架構。在編碼器中,通過特征聚合(FA)模塊在進行智能體間的時間和空間注意力計算后,分層的智能體特征會被逐步提取出來,然后這些特征被融合,形成 K 個軌跡查詢,對應著 K 條多模態的未來軌跡。在教師網絡中,智能體在編碼器階段通過智能體 - 地圖注意力模塊學習地圖先驗知識,并在解碼器階段通過查詢 - 地圖注意力模塊學習相關知識。通過對中間特征進行知識蒸餾,我們將地圖先驗知識融入到無地圖的學生網絡中。

    2.2 驗證

    ? ? ? ? 關于軌跡預測具體的評測指標在之前的博客中多次介紹過,這里就不贅述了。通過數據對比,MFTP方法在某些方面還是存在優勢的。

    • 數據集和評估:在Argoverse數據集上進行了廣泛的實驗,證明了MFTP在無需地圖的情況下實現了最先進的性能。
    • 定量結果:與現有的無需地圖的方法相比,MFTP在所有指標上均優于其他非蒸餾的無需地圖方法,并在應用知識蒸餾后進一步提高了性能。

    ????????在 Argoverse 驗證集上的定性結果。(a)展示了無地圖模型在交叉路口場景中的性能表現,該場景存在各種駕駛行為(例如,直行、左轉、大角度左轉以及從左至右的右轉),且該模型未利用地圖先驗知識。(b)表明,在知識蒸餾(KD)的幫助下,無地圖模型能夠預測出與真實軌跡更為接近的未來軌跡。(a)和(b)使用相同的圖例。建議以彩色模式并放大查看效果最佳。

    3 總結

    ????????本篇博客通過一篇論文的介紹以及筆者自身的理解來看,MFTP為自動駕駛軌跡預測領域提供了一種新的視角,即在不依賴高清地圖的情況下,通過知識蒸餾和層次編碼來實現有效的軌跡預測,避免在整個模型中帶入“比較重”的地圖模塊。

    ????????在未來模型壓縮和輕量化中,這種方法有望在自動駕駛技術的發展中發揮重要作用,并為未來相關研究提供了新的思路。

    ?

    4 參考文獻

    《Map-Free Trajectory Prediction with Map Distillation and Hierarchical Encoding》

    ?

    本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
    如若轉載,請注明出處:http://www.pswp.cn/web/71406.shtml
    繁體地址,請注明出處:http://hk.pswp.cn/web/71406.shtml
    英文地址,請注明出處:http://en.pswp.cn/web/71406.shtml

    如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

    相關文章

    Xshell及Xftp v8.0安裝與使用-生信工具050

    官網 https://www.xshell.com/zh/free-for-home-school/ XShell & Xftp 詳解 1. XShell 介紹 1.1 XShell 是什么? XShell 是一款強大的 Windows 終端模擬器,主要用于遠程管理 Linux、Unix 服務器。它支持 SSH、Telnet、Rlogin 及 SFTP 協議&…

    跨域-告別CORS煩惱

    跨域-告別CORS煩惱 文章目錄 跨域-告別CORS煩惱[toc]1-參考網址2-思路整理1-核心問題2-個人思考3-腦洞打開4-個人思考-修正版1-個人思考2-腦洞打開 3-知識整理1-什么是跨域一、同源策略簡介什么是源什么是同源是否是同源的判斷哪些操作不受同源策略限制跨域如何跨域 二、CORS 簡…

    PE文件結構詳解(DOS頭/NT頭/節表/導入表)使用010 Editor手動解析notepad++.exe的PE結構

    一:DOS部分 DOS部分分為DOS MZ文件頭和DOS塊,其中DOS MZ頭實際是一個64位的IMAGE_DOS——HEADER結構體。 DOS MZ頭部結構體的內容如下,我們所需要關注的是前面兩個字節(e_magic)和后面四個字節(e_lfanew&a…

    Node JS 調用模型Xenova_all-MiniLM-L6-v2實戰

    本篇通過將句子數組轉換為句子的向量表示,并通過平均池化和歸一化處理,生成適合機器學習或深度學習任務使用的特征向量為例,演示通過NodeJS 的方式調用Xenova/all-MiniLM-L6-v2 的過程。 關于 all-MiniLM-L6-v2 的介紹,可以參照上…

    【C++學習篇】智能指針

    目錄 1. 智能指針的使用場景分析 2. RAII和智能指針的設計思路 3. C標準庫智能指針的使用 4.shared_ptr和weak_ptr 4.1shared_ptr的循環引用問題 4.2 weak_ptr 1. 智能指針的使用場景分析 下?程序中我們可以看到,new了以后,我們也delete了&#xff0c…

    IntelliJ IDEA集成MarsCode AI

    IntelliJ IDEA集成MarsCode AI IDEA中安裝插件 安裝完畢之后登錄自己的賬號 點擊鏈接,注冊賬號 https://www.marscode.cn/events/s/i5DRGqqo/ 可以選擇不同的模型

    日期格式與字符串不匹配bug

    異常特征:java.lang.IllegalArgumentException: invalid comparison: java.time.LocalDateTime and java.lang.String ### Error updating database. Cause: java.lang.IllegalArgumentException: invalid comparison: java.time.LocalDateTime and java.lang.Str…

    C++中的無鎖編程

    引言 在當今多核處理器普及的時代,并發編程已成為高性能應用程序開發的關鍵技術。傳統的基于鎖的同步機制雖然使用簡單,但往往會帶來性能瓶頸和死鎖風險。無鎖編程(Lock-Free Programming)作為一種先進的并發編程范式&#xff0c…

    FastGPT 引申:借鑒 FastGPT 基于MySQL + ES 實現知識庫(含表結構以及核心代碼)

    文章目錄 FastGPT 引申:借鑒 FastGPT 基于MySQL ES 實現知識庫(含表結構以及核心代碼)一、整體思路二、存儲結構2.1 MySQL 表結構(1) knowledge_base_dataset(2) knowledge_base_data(3) knowledge_base_index(4) ai_kb_relation 2.2 Elasti…

    Python學習(十四)pandas庫入門手冊

    目錄 一、安裝與導入二、核心數據結構2.1 Series 類型(一維數組)2.2 DataFrame 類型(二維數組) 三、數據讀取與寫入3.1 讀取 CSV 和 Excel 文件3.2 寫入數據 四、數據清洗與處理4.1 處理缺失值4.2 數據篩選4.3 數據排序 五、數據分…

    【Python 數據結構 4.單向鏈表】

    目錄 一、單向鏈表的基本概念 1.單向鏈表的概念 2.單向鏈表的元素插入 元素插入的步驟 3.單向鏈表的元素刪除 元素刪除的步驟 4.單向鏈表的元素查找 元素查找的步驟 5.單向鏈表的元素索引 元素索引的步驟 6.單向鏈表的元素修改 元素修改的步驟 二、Python中的單向鏈表 ?編輯 三…

    第1章:項目概述與環境搭建

    第1章:項目概述與環境搭建 學習目標 了解YunChangAction靈感記錄應用的整體架構和功能掌握SwiftUI開發環境的配置方法創建項目基礎結構并理解文件組織方式實現應用的啟動屏幕和基本主題設置 理論知識講解 靈感記錄應用概述 靈感記錄應用是一種專門設計用來幫助…

    2025.3.3總結

    周一這天,我約了績效教練,主要想了解專業類績效的考核方式以及想知道如何拿到一個更好的績效。其他的崗位并不是很清楚,但是專業類的崗位,目前采取絕對考核,管理層和專家崗采取相對考核,有末尾淘汰。 通過…

    FastGPT 源碼:基于 LLM 實現 Rerank (含Prompt)

    文章目錄 基于 LLM 實現 Rerank函數定義預期輸出實現說明使用建議完整 Prompt 基于 LLM 實現 Rerank 下邊通過設計 Prompt 讓 LLM 實現重排序的功能。 函數定義 class LLMReranker:def __init__(self, llm_client):self.llm llm_clientdef rerank(self, query: str, docume…

    LeetCode 1745.分割回文串 IV:動態規劃(用III或II能直接秒)

    【LetMeFly】1745.分割回文串 IV:動態規劃(用III或II能直接秒) 力扣題目鏈接:https://leetcode.cn/problems/palindrome-partitioning-iv/ 給你一個字符串 s ,如果可以將它分割成三個 非空 回文子字符串,…

    25年3月5日

    1.思維導圖 2.不太會 #include "head.h" int main(int argc, const char *argv[]) {int fdopen("../xiaoxin.bmp","O_RDONLY");if(fd-1)printf("open error");//大小struct stat st;if(stat("…

    全球首創!微軟發布醫療AI助手,終結手寫病歷時代

    今天凌晨,微軟發布了醫療界首個用于臨床工作流程的AI助手Microsoft Dragon Copilot。 Dragon Copilot是基于語音文本的混合架構,能夠將醫生的語音或臨床口述內容實時轉換為文本。例如,醫生可以通過語音輸入患者的病歷信息、醫囑或診斷結果&a…

    [自動駕駛-傳感器融合] 多激光雷達的外參標定

    文章目錄 引言外參標定原理ICP匹配示例參考文獻 引言 多激光雷達系統通常用于自動駕駛或機器人,每個雷達的位置和姿態不同,需要將它們的數據統一到同一個坐標系下。多激光雷達外參標定的核心目標是通過計算不同雷達坐標系之間的剛性變換關系&#xff08…

    Blazor-路由模板(下)

    路由約束 類型約束 我們這里使用{id:int}限制路由&#xff0c;id為int類型&#xff0c;并且路由參數 id 對應的 Id 屬性也必須是 int 類型。我們試試能否正常訪問 page "/demoPage/{id:int}" <h3>demoPage</h3> <h2>路由參數Id&#xff1a;Id&l…

    多線程-JUC源碼

    簡介 JUC的核心是AQS&#xff0c;大部分鎖都是基于AQS擴展出來的&#xff0c;這里先結合可重入鎖和AQS&#xff0c;做一個講解&#xff0c;其它的鎖的實現方式也幾乎類似 ReentrantLock和AQS AQS的基本結構 AQS&#xff0c;AbstractQueuedSynchronizer&#xff0c;抽象隊列…