HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder
GitHub地址:?https://github.com/nullmax-vision/HiP-AD?
在自動駕駛技術飛速發展的今天,端到端自動駕駛(E2E-AD)憑借其直接從原始傳感器數據預測規劃軌跡的能力,成為了研究的熱點方向。眾多研究人員致力于提升 E2E-AD 的性能,期望能在實際應用中實現更安全、高效的自動駕駛。然而,當前的 E2E-AD 技術在閉環評估中仍存在明顯不足,距離理想的自動駕駛目標還有一定差距。在這樣的背景下,Nullmax提出一種名為 HiP-AD(Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder)的新型端到端自動駕駛框架應運而生,它的出現為自動駕駛技術的發展帶來了新的思路和希望。?
一、端到端自動駕駛的現狀與挑戰?
目前,端到端自動駕駛技術已經取得了顯著的進展,主流方法是將感知、預測和規劃等所有任務整合到一個完全可微的單一模型中。這種方式相較于傳統的獨立或多任務范式,極大地減輕了累積誤差,使得各個任務模塊能夠協同工作,在大規模數據的支持下展現出了良好的性能。?
但不可忽視的是,開環和閉環評估之間存在著巨大的性能差距。開環方法側重于規劃軌跡與真實軌跡之間的位移誤差,而閉環方法更關注安全駕駛性能。從實際數據來看,以往的 E2E-AD 方法在開環基準測試(如 nuScenes 數據集)中,在碰撞率指標上表現出色,部分方法的碰撞率可低至 0.1% 。然而,在綜合閉環評估數據集 Bench2Drive 上,這些方法的成功率卻不盡人意,始終低于 35% ,即使僅關注緊急制動情況,成功率也低于 55%。這表明當前的 E2E-AD 方法在實際駕駛場景中的安全性和可靠性仍需大幅提升。?
深入分析發現,這些方法在查詢設計和交互中對規劃的潛力挖掘不足。一方面,大多數方法將 E2E-AD 視為軌跡回歸的模仿學習任務,過于關注軌跡擬合,而忽視了閉環控制;另一方面,現有的交互方式缺乏規劃與感知、場景特征之間的全面交互,使得模型難以有效提取有價值的信息。
nuScenes 數據集上碰撞率的開環指標和 Bench2Drive 數據集上成功率的閉環指標的現有最新工作比較,其中左上角更好。圖例指示不同的計劃交互方法。?
二、HiP-AD 框架的核心設計?
HiP-AD 框架的出現,旨在解決上述問題,其核心設計包含多個創新點,從多個維度提升了自動駕駛的性能。?
(一)統一解碼器實現多任務協同?
HiP-AD 的整體網絡架構由骨干網絡、特征金字塔網絡(FPN)、統一解碼器和多個特定任務頭組成。骨干網絡和 FPN 用于從多視圖圖像中提取多尺度特征,而統一解碼器則是整個框架的關鍵部分。它以混合任務錨點和查詢作為輸入,這些查詢包括用于對象檢測和運動預測的代理查詢、用于在線映射的地圖查詢,以及用于軌跡預測的多粒度規劃查詢。?統一解碼器由三個模塊構成:時間交互模塊、協同交互模塊和任務可變形聚合模塊。時間交互模塊通過 top - k 選擇機制保留歷史任務特征,建立當前任務與歷史任務之間的通信,特別是增強了規劃查詢與時間感知查詢之間的交互,使模型能夠更好地利用歷史信息。協同交互模塊通過三個獨立的自注意力機制和一個統一的自注意力模塊實現跨任務交互,構建幾何注意力圖聚焦局部和相對元素,避免使用全局注意力帶來的信息冗余,同時讓規劃查詢能夠獲取所有任務的信息。任務可變形注意力模塊摒棄了傳統的全局注意力,采用獨立的可變形注意力模塊針對每個任務查詢采樣局部稀疏特征。對于規劃任務,將參考路標點分布在不同預設高度值上并投影到多視圖圖像,通過多層感知器學習空間偏移和權重來采樣相鄰點的特征,從而整合未來軌跡周圍的特征,學習稀疏場景表示,有效避免碰撞。?
(二)分層多粒度規劃提升控制精度?
HiP-AD 引入了分層多粒度規劃的概念,與以往的路標點設計不同,它不僅利用了時間和空間路標點,還創新性地引入了駕駛風格路標點。時間路標點用于控制車輛的行駛時間,空間路標點規劃車輛的行駛路徑,而駕駛風格路標點則結合速度信息,使車輛能夠在復雜環境中學習合適的駕駛行為。?
為了實現更精確的控制和豐富的軌跡監督,HiP-AD 采用了多采樣策略。對于空間路標點,采用密集和稀疏間隔采樣;對于時間和駕駛風格路標點,采用高、低頻率采樣,并為駕駛風格路標點設置不同的速度區間。這樣,稀疏間隔的路標點提供全局信息,有助于車輛進行高級決策;密集間隔的路標點則實現精細控制,確保車輛的精準操作。不同速度的駕駛風格路標點能夠使車輛更好地應對超車、緊急制動等場景,在閉環評估中實現靈活的縱向控制。?
在構建多粒度規劃查詢時,HiP-AD 設置了多種粒度的規劃查詢,包括時間、空間和駕駛風格規劃查詢,每個粒度規劃查詢又包含多種模態,代表不同的行駛軌跡。經過統一解碼器處理后,同一模態內不同粒度的規劃查詢進行對齊和聚合,形成融合查詢,以增強信息互補性,優化軌跡預測。在訓練過程中,采用對齊匹配策略,指定一組路標點作為參考路標點與真實標簽進行匹配,其他組共享匹配結果,確保最優匹配模態的梯度能夠有效反向傳播。同時,根據時間路標點的真實標簽選擇合適的駕駛風格路標點,每個駕駛風格路標點負責特定的速度區域,確保每個粒度的路標點都能學習到對應復雜駕駛場景的動作。?
該圖將早期預測航點的方法 (a-b) 與我們提出的多粒度規劃設計 (c) 進行了比較,其中 nt、ns 和 nd 表示每種航路點類型在頻率、間隔和速度方面的不同粒度數。(d) 部分說明了基于不同采樣策略的具有實例化粒度的分層 waypoint 的演變。
HiP-AD 的總體框架由sofaBackbone和FPN用于提取圖像特征,aunifieddecoder用于迭代更新查詢,以及各種heads用于多任務預測。unifieddecoderaretaskanchorsandqueries(agent, map,andplanning)的inputsof,其中planningquery包含多粒度waypoints表示。在每個統一的解碼器中,任務查詢首先分別與時間查詢交互,然后相互協作,最后以交互方式參與圖像特征。最后,將更新的任務查詢發送到相應的 headsfor perception、prediction 和 planning,其中 planningresults 包括具有不同粒度的各種 waypoints,用于精確動作控制
(三)路標點選擇與動作控制策略?
在推理階段,HiP-AD 通過兩步選擇過程確定最終的路標點。首先,根據預測的模態分數選擇最優模態;然后,按照預定義規則選擇特定粒度的路標點,如為空間路標點選擇密集間隔,為時間粒度選擇高頻路標點,為駕駛風格路標點選擇預測風格分類得分最高的。在控制方面,與 CarLLaVA 類似,使用空間路標點進行橫向控制。對于縱向控制,先評估計算出的駕駛風格路標點的速度,若與所選駕駛風格的預設速度范圍一致,則使用駕駛風格路標點控制車輛;否則,切換回時間路標點進行控制。?
(四)損失函數設計?
HiP-AD 可以以完全可微的方式進行端到端訓練和優化,其整體優化函數涵蓋檢測、運動預測、映射和規劃四個主要任務。每個主要任務都使用分類和回歸損失進行優化,并分配相應的權重。規劃損失包括多粒度路標點回歸損失以及模態和駕駛風格的分類損失,通過這種方式,模型能夠在訓練過程中不斷調整參數,提高預測的準確性和可靠性。?
說明了統一解碼器層中三個子模塊的詳細架構,以實現全面的交互。
基于路徑點預測的多粒度查詢體系結構。為了清楚起見,我們省略了分類頭。
三、實驗驗證 HiP-AD 的卓越性能?
為了全面評估 HiP-AD 的性能,研究人員在具有挑戰性的閉環基準測試 Bench2Drive 數據集和現實數據集 nuScenes 上進行了大量實驗。?
(一)實驗設置?
在 Bench2Drive 數據集上,實驗采用 ResNet50 作為骨干網絡,設置 6 個解碼器層,輸入分辨率為 640×352。混合任務查詢數量固定,包括 900 個代理查詢、100 個地圖查詢和 480 個規劃查詢,每個規劃查詢包含 48 種模態,10 種粒度。訓練過程分為兩個階段,先禁用駕駛風格頭訓練 12 個 epoch,再啟用駕駛風格頭進行 6 個 epoch 的微調,使用 8 個 NVIDIA 4090 GPU,總批量大小為 32,采用 AdamW 優化器和余弦退火調度器,初始學習率為 2×10??,權重衰減為 0.01 。在 nuScenes 數據集上的訓練參數與 Bench2Drive 類似,但輸入分辨率調整為 704×256,且由于開環和閉環評估的目的不同,訓練過程有所差異,訓練時禁用駕駛風格路標點,使用時間路標點進行性能評估,并采用類似 SparseDrive 的訓練方法以最大化感知性能。?
(二)實驗結果?
在 Bench2Drive 數據集上,HiP-AD 展現出了優異的閉環性能,其駕駛分數和成功率遠超其他先進的端到端自動駕駛方法,與排名第二的方法相比,駕駛分數提高了 20% 以上,成功率提高了 30% 以上,同時在 L2 誤差分數上與其他領先方法相當。在多能力評估中,HiP-AD 在合并、超車、緊急制動和交通標志識別等場景下的能力顯著提升,整體分數提高了 25% 以上 。在 nuScenes 數據集的開環評估中,HiP-AD 實現了最低的碰撞率,同時保持了具有競爭力的 L2 誤差,在感知和預測任務上也表現出色,證明了其統一框架的穩健性和有效性。?
(三)消融實驗?
為了深入分析 HiP-AD 各部分的作用,研究人員進行了消融實驗。實驗結果表明,規劃可變形注意力和多粒度表示對整體性能提升至關重要,多粒度規劃尤其在提供更好的控制方面表現突出。同時,對比統一框架和順序變體發現,統一框架中感知和規劃任務的并行迭代運行方式明顯優于順序執行,充分體現了統一框架的優勢。在對多粒度規劃查詢設計的消融研究中發現,不同的設置對性能有顯著影響,結合多種采樣策略和駕駛風格的設置能夠實現最佳性能,并且多粒度規劃有效減少了車輛在某些場景下的猶豫現象,鼓勵車輛在復雜場景中學習合適的行為。?
四、HiP-AD 的優勢、局限與未來展望?
HiP-AD 在閉環路線上的定性結果,包括感知、運動和規劃軌跡。空間航路點為天藍色,而駕駛式航路點為紅色。重要對象在黃色圓圈中突出顯示。
HiP-AD 通過統一解碼器實現了感知、預測和規劃任務的高效協同,分層多粒度規劃策略為車輛控制提供了豐富的信息和精確的監督,規劃可變形注意力機制有效利用規劃軌跡的幾何信息提取相關圖像特征,這些創新設計使得 HiP-AD 在自動駕駛性能上取得了顯著提升。無論是在閉環評估中的安全駕駛性能,還是在開環評估中的軌跡預測準確性和感知能力,HiP-AD 都展現出了超越現有方法的優勢。?
然而,HiP-AD 也存在一些局限性。盡管在開環和閉環評估中表現出色,但仍需要進行大量的實際道路測試,以確保其在各種復雜真實場景下的可靠性和穩定性。此外,如何避免與后方快速接近的車輛發生碰撞,仍然是一個亟待解決的挑戰。?
展望未來,HiP-AD 為自動駕駛技術的發展提供了新的方向和思路。研究人員可以在此基礎上,進一步優化框架結構,探索更有效的多粒度規劃策略和注意力機制,提高模型對復雜場景的適應性和決策能力。隨著技術的不斷進步和完善,HiP-AD 有望在未來的自動駕駛領域發揮更大的作用,推動自動駕駛技術向更安全、更智能的方向發展,為人們的出行帶來更多的便利和安全保障。