1 前言
? ? ? ? 早期傳統自動駕駛方案通常依賴高精地圖(HD Map)提供道路結構、車道線、交通規則等信息,可參考博客《自動駕駛---方案從有圖邁進無圖》,本質上還是存在問題:
- 數據依賴性高:地圖構建成本昂貴,且跨區域泛化能力受限。
- 動態場景局限性:地圖無法實時反映臨時障礙物或施工區域。
- 計算復雜度:地圖的復雜拓撲結構需要額外編碼模塊處理。
? ? ? ? 在之前的博客中,筆者分別介紹過華為《自動駕駛---行泊一體(車位到車位功能)》ADS3.0智駕方案中,RCR網絡(Road Cognition & Reasoning,道路拓撲推理網絡):結合普通導航地圖來與現實進行匹配和印證,再實時通過傳感器來拓補繪制一幅可用的行車地圖。通過RCR網絡便擺脫了高精地圖,實現絕大多數場景下的無圖就能開。
? ? ? ? 小米智駕同樣也有一套系統《自動駕駛---小米汽車智駕進展》,道路大模型:小米道路大模型,實時生成道路拓撲,效果媲美高精地圖,實現全國都能用的城市領航。
????????小米和華為類似,都是通過模型來建立車道信息,盡量不高度依賴高精地圖。
? ? ? ? 最近介紹的博客《自動駕駛---LSTM模型用于軌跡預測》,僅依賴于動態車輛的歷史軌跡,有其局限性,以及《自動駕駛---基于深度學習模型的軌跡預測》中介紹通過深度學習模型進行軌跡預測,基于此軌跡預測的深度學習模型,后期是可以用于自車軌跡生成的端到端大模型。
? ? ? ? 目前特斯拉的端到端大模型的輸入應該是包括地圖數據的,但國內量產端到端大模型的公司目前做到這一點的幾乎沒有。
2 軌跡預測
????????目前,很多公司的端到端整體方案如下所示,地圖信息作為模型的輸入(以特斯拉為代表),或者干脆就不包括(國內的模塊化大模型)。
? ? ? ?MFTP(Map-Free Trajectory Prediction),這是一種無需地圖的軌跡預測方法(如下圖所示),它在訓練期間通過知識蒸餾從高清地圖中獲益,而在推理期間則不需要高清地圖。論文中提出了一種新穎的層次編碼器,有效地提取時空智能體特征,并將它們聚合成多個軌跡查詢。此外,引入了一個迭代解碼器,順序解碼軌跡查詢以生成最終預測。在Argoverse數據集下的無地圖設置中,該方法實現了最先進的性能。
2.1 方法論
(1)知識蒸餾
? ? ? ? 前段時間也是Deepseek帶火了知識蒸餾這一概念。知識蒸餾(Knowledge Distillation)?其實是一種機器學習技術,旨在將復雜模型(通常稱為“教師模型”)的知識遷移到更簡單、更高效的模型(“學生模型”)中,從而實現模型壓縮、性能提升或部署優化。其核心思想是讓學生模型模仿教師模型的輸出或中間特征,而不僅僅依賴原始訓練數據的標簽。
- 知識蒸餾的大概過程:
- 訓練教師模型:在目標任務上訓練一個高性能的大模型。
- 生成軟標簽:用教師模型對訓練數據推理,得到概率分布(軟標簽)。
- 訓練學生模型:學生模型同時擬合硬標簽(原始標簽)和軟標簽(教師輸出),損失函數通常為:
?,其中?
?衡量學生與教師輸出的差異,
?為權重系數。
- 套用到?MFTP(Map-Free Trajectory Prediction)中的大概過程如下:
- 教師模型:使用高精地圖的軌跡預測模型。
- 學生模型:無地圖的軌跡預測模型。
- 蒸餾內容:將教師模型對地圖拓撲的理解(如車道連接、交通規則)遷移到學生模型中,使其隱式學習道路結構約束,而無需顯式地圖輸入。
(2)MFTP架構
- 整體框架:MFTP包括一個預訓練的基于地圖的教師網絡和一個無需地圖的學生網絡。教師網絡利用高清地圖和其它智能體的歷史軌跡作為輸入,而學生網絡則不依賴地圖信息。
- 層次編碼器:提出了一種新穎的層次編碼器,用于提取智能體的多層次時空特征,并將它們聚合成多個軌跡查詢。
-
輸入表示:在采用向量表示的情況下,智能體的歷史軌跡和地圖折線被表示為二維或三維空間中的一組點。我們沒有使用智能體軌跡和地圖點的絕對位置,而是選擇相對運動向量作為輸入。
-
上下文建模:軌跡預測本質上是一項序列性且涉及交互的任務,在其中,一個智能體過去的行為以及周圍環境都起著至關重要的作用。為了提取智能體的時空特征,我們按順序對地圖與地圖之間、智能體與地圖之間以及智能體與智能體之間的交互進行建模。首先,我們利用中提出的帶有注意力機制的地圖與地圖注意力模塊,對地圖結構和車道交互進行建模,將其視為地圖先驗知識,隨后再接入一個前饋神經網絡(FFN)。
-
分層特征聚合與融合:利用特征聚合(FA)模塊對智能體的時空特征進行聚合,以生成多個軌跡查詢。這些查詢起到了橋梁的作用,連接著編碼器和解碼器,并且代表著潛在的多模態未來軌跡。
-
- 迭代解碼器:使用迭代解碼器順序解碼軌跡queries,以生成最終的預測。
????????整體的框架如下圖所示,多模態融合軌跡預測(MFTP)有一個基于地圖的預訓練教師模型和一個無地圖的學生模型。除了與地圖相關的模塊之外,學生模型與教師模型具有相同的架構。在編碼器中,通過特征聚合(FA)模塊在進行智能體間的時間和空間注意力計算后,分層的智能體特征會被逐步提取出來,然后這些特征被融合,形成 K 個軌跡查詢,對應著 K 條多模態的未來軌跡。在教師網絡中,智能體在編碼器階段通過智能體 - 地圖注意力模塊學習地圖先驗知識,并在解碼器階段通過查詢 - 地圖注意力模塊學習相關知識。通過對中間特征進行知識蒸餾,我們將地圖先驗知識融入到無地圖的學生網絡中。
2.2 驗證
? ? ? ? 關于軌跡預測具體的評測指標在之前的博客中多次介紹過,這里就不贅述了。通過數據對比,MFTP方法在某些方面還是存在優勢的。
- 數據集和評估:在Argoverse數據集上進行了廣泛的實驗,證明了MFTP在無需地圖的情況下實現了最先進的性能。
- 定量結果:與現有的無需地圖的方法相比,MFTP在所有指標上均優于其他非蒸餾的無需地圖方法,并在應用知識蒸餾后進一步提高了性能。
????????在 Argoverse 驗證集上的定性結果。(a)展示了無地圖模型在交叉路口場景中的性能表現,該場景存在各種駕駛行為(例如,直行、左轉、大角度左轉以及從左至右的右轉),且該模型未利用地圖先驗知識。(b)表明,在知識蒸餾(KD)的幫助下,無地圖模型能夠預測出與真實軌跡更為接近的未來軌跡。(a)和(b)使用相同的圖例。建議以彩色模式并放大查看效果最佳。
3 總結
????????本篇博客通過一篇論文的介紹以及筆者自身的理解來看,MFTP為自動駕駛軌跡預測領域提供了一種新的視角,即在不依賴高清地圖的情況下,通過知識蒸餾和層次編碼來實現有效的軌跡預測,避免在整個模型中帶入“比較重”的地圖模塊。
????????在未來模型壓縮和輕量化中,這種方法有望在自動駕駛技術的發展中發揮重要作用,并為未來相關研究提供了新的思路。
?
4 參考文獻
《Map-Free Trajectory Prediction with Map Distillation and Hierarchical Encoding》
?