自動駕駛---不依賴地圖的大模型軌跡預測

1 前言

? ? ? ? 早期傳統自動駕駛方案通常依賴高精地圖（HD Map）提供道路結構、車道線、交通規則等信息，可參考博客《自動駕駛---方案從有圖邁進無圖》，本質上還是存在問題：

數據依賴性高：地圖構建成本昂貴，且跨區域泛化能力受限。
動態場景局限性：地圖無法實時反映臨時障礙物或施工區域。
計算復雜度：地圖的復雜拓撲結構需要額外編碼模塊處理。

? ? ? ? 在之前的博客中，筆者分別介紹過華為《自動駕駛---行泊一體（車位到車位功能）》ADS3.0智駕方案中，RCR網絡（Road Cognition & Reasoning，道路拓撲推理網絡）：結合普通導航地圖來與現實進行匹配和印證，再實時通過傳感器來拓補繪制一幅可用的行車地圖。通過RCR網絡便擺脫了高精地圖，實現絕大多數場景下的無圖就能開。

? ? ? ? 小米智駕同樣也有一套系統《自動駕駛---小米汽車智駕進展》，道路大模型：小米道路大模型，實時生成道路拓撲，效果媲美高精地圖，實現全國都能用的城市領航。

????????小米和華為類似，都是通過模型來建立車道信息，盡量不高度依賴高精地圖。

? ? ? ? 最近介紹的博客《自動駕駛---LSTM模型用于軌跡預測》，僅依賴于動態車輛的歷史軌跡，有其局限性，以及《自動駕駛---基于深度學習模型的軌跡預測》中介紹通過深度學習模型進行軌跡預測，基于此軌跡預測的深度學習模型，后期是可以用于自車軌跡生成的端到端大模型。

? ? ? ? 目前特斯拉的端到端大模型的輸入應該是包括地圖數據的，但國內量產端到端大模型的公司目前做到這一點的幾乎沒有。

2 軌跡預測

????????目前，很多公司的端到端整體方案如下所示，地圖信息作為模型的輸入（以特斯拉為代表），或者干脆就不包括（國內的模塊化大模型）。

? ? ? ?MFTP（Map-Free Trajectory Prediction），這是一種無需地圖的軌跡預測方法（如下圖所示），它在訓練期間通過知識蒸餾從高清地圖中獲益，而在推理期間則不需要高清地圖。論文中提出了一種新穎的層次編碼器，有效地提取時空智能體特征，并將它們聚合成多個軌跡查詢。此外，引入了一個迭代解碼器，順序解碼軌跡查詢以生成最終預測。在Argoverse數據集下的無地圖設置中，該方法實現了最先進的性能。

2.1 方法論

（1）知識蒸餾

? ? ? ? 前段時間也是Deepseek帶火了知識蒸餾這一概念。知識蒸餾（Knowledge Distillation）?其實是一種機器學習技術，旨在將復雜模型（通常稱為“教師模型”）的知識遷移到更簡單、更高效的模型（“學生模型”）中，從而實現模型壓縮、性能提升或部署優化。其核心思想是讓學生模型模仿教師模型的輸出或中間特征，而不僅僅依賴原始訓練數據的標簽。

知識蒸餾的大概過程：
- 訓練教師模型：在目標任務上訓練一個高性能的大模型。
- 生成軟標簽：用教師模型對訓練數據推理，得到概率分布（軟標簽）。
- 訓練學生模型：學生模型同時擬合硬標簽（原始標簽）和軟標簽（教師輸出），損失函數通常為： ?，其中??衡量學生與教師輸出的差異，?為權重系數。
套用到?MFTP（Map-Free Trajectory Prediction）中的大概過程如下：
- 教師模型：使用高精地圖的軌跡預測模型。
- 學生模型：無地圖的軌跡預測模型。
- 蒸餾內容：將教師模型對地圖拓撲的理解（如車道連接、交通規則）遷移到學生模型中，使其隱式學習道路結構約束，而無需顯式地圖輸入。

（2）MFTP架構

整體框架：MFTP包括一個預訓練的基于地圖的教師網絡和一個無需地圖的學生網絡。教師網絡利用高清地圖和其它智能體的歷史軌跡作為輸入，而學生網絡則不依賴地圖信息。
層次編碼器：提出了一種新穎的層次編碼器，用于提取智能體的多層次時空特征，并將它們聚合成多個軌跡查詢。
- 輸入表示：在采用向量表示的情況下，智能體的歷史軌跡和地圖折線被表示為二維或三維空間中的一組點。我們沒有使用智能體軌跡和地圖點的絕對位置，而是選擇相對運動向量作為輸入。
- 上下文建模：軌跡預測本質上是一項序列性且涉及交互的任務，在其中，一個智能體過去的行為以及周圍環境都起著至關重要的作用。為了提取智能體的時空特征，我們按順序對地圖與地圖之間、智能體與地圖之間以及智能體與智能體之間的交互進行建模。首先，我們利用中提出的帶有注意力機制的地圖與地圖注意力模塊，對地圖結構和車道交互進行建模，將其視為地圖先驗知識，隨后再接入一個前饋神經網絡（FFN）。
- 分層特征聚合與融合：利用特征聚合（FA）模塊對智能體的時空特征進行聚合，以生成多個軌跡查詢。這些查詢起到了橋梁的作用，連接著編碼器和解碼器，并且代表著潛在的多模態未來軌跡。
迭代解碼器：使用迭代解碼器順序解碼軌跡queries，以生成最終的預測。

????????整體的框架如下圖所示，多模態融合軌跡預測（MFTP）有一個基于地圖的預訓練教師模型和一個無地圖的學生模型。除了與地圖相關的模塊之外，學生模型與教師模型具有相同的架構。在編碼器中，通過特征聚合（FA）模塊在進行智能體間的時間和空間注意力計算后，分層的智能體特征會被逐步提取出來，然后這些特征被融合，形成 K 個軌跡查詢，對應著 K 條多模態的未來軌跡。在教師網絡中，智能體在編碼器階段通過智能體 - 地圖注意力模塊學習地圖先驗知識，并在解碼器階段通過查詢 - 地圖注意力模塊學習相關知識。通過對中間特征進行知識蒸餾，我們將地圖先驗知識融入到無地圖的學生網絡中。

2.2 驗證

? ? ? ? 關于軌跡預測具體的評測指標在之前的博客中多次介紹過，這里就不贅述了。通過數據對比，MFTP方法在某些方面還是存在優勢的。

數據集和評估：在Argoverse數據集上進行了廣泛的實驗，證明了MFTP在無需地圖的情況下實現了最先進的性能。
定量結果：與現有的無需地圖的方法相比，MFTP在所有指標上均優于其他非蒸餾的無需地圖方法，并在應用知識蒸餾后進一步提高了性能。

????????在 Argoverse 驗證集上的定性結果。（a）展示了無地圖模型在交叉路口場景中的性能表現，該場景存在各種駕駛行為（例如，直行、左轉、大角度左轉以及從左至右的右轉），且該模型未利用地圖先驗知識。（b）表明，在知識蒸餾（KD）的幫助下，無地圖模型能夠預測出與真實軌跡更為接近的未來軌跡。（a）和（b）使用相同的圖例。建議以彩色模式并放大查看效果最佳。

3 總結

????????本篇博客通過一篇論文的介紹以及筆者自身的理解來看，MFTP為自動駕駛軌跡預測領域提供了一種新的視角，即在不依賴高清地圖的情況下，通過知識蒸餾和層次編碼來實現有效的軌跡預測，避免在整個模型中帶入“比較重”的地圖模塊。

????????在未來模型壓縮和輕量化中，這種方法有望在自動駕駛技術的發展中發揮重要作用，并為未來相關研究提供了新的思路。

4 參考文獻

《Map-Free Trajectory Prediction with Map Distillation and Hierarchical Encoding》

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/71406.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/71406.shtml
英文地址，請注明出處：http://en.pswp.cn/web/71406.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！