技術突破與落地應用:端到端 2.0 時代輔助駕駛TOP10 論文深度拆解系列【第八篇(排名不分先后)】

HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder

GitHub地址:?https://github.com/nullmax-vision/HiP-AD?

在自動駕駛技術飛速發展的今天,端到端自動駕駛(E2E-AD)憑借其直接從原始傳感器數據預測規劃軌跡的能力,成為了研究的熱點方向。眾多研究人員致力于提升 E2E-AD 的性能,期望能在實際應用中實現更安全、高效的自動駕駛。然而,當前的 E2E-AD 技術在閉環評估中仍存在明顯不足,距離理想的自動駕駛目標還有一定差距。在這樣的背景下,Nullmax提出一種名為 HiP-AD(Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder)的新型端到端自動駕駛框架應運而生,它的出現為自動駕駛技術的發展帶來了新的思路和希望。?

一、端到端自動駕駛的現狀與挑戰?

目前,端到端自動駕駛技術已經取得了顯著的進展,主流方法是將感知、預測和規劃等所有任務整合到一個完全可微的單一模型中。這種方式相較于傳統的獨立或多任務范式,極大地減輕了累積誤差,使得各個任務模塊能夠協同工作,在大規模數據的支持下展現出了良好的性能。?

但不可忽視的是,開環和閉環評估之間存在著巨大的性能差距。開環方法側重于規劃軌跡與真實軌跡之間的位移誤差,而閉環方法更關注安全駕駛性能。從實際數據來看,以往的 E2E-AD 方法在開環基準測試(如 nuScenes 數據集)中,在碰撞率指標上表現出色,部分方法的碰撞率可低至 0.1% 。然而,在綜合閉環評估數據集 Bench2Drive 上,這些方法的成功率卻不盡人意,始終低于 35% ,即使僅關注緊急制動情況,成功率也低于 55%。這表明當前的 E2E-AD 方法在實際駕駛場景中的安全性和可靠性仍需大幅提升。?

深入分析發現,這些方法在查詢設計和交互中對規劃的潛力挖掘不足。一方面,大多數方法將 E2E-AD 視為軌跡回歸的模仿學習任務,過于關注軌跡擬合,而忽視了閉環控制;另一方面,現有的交互方式缺乏規劃與感知、場景特征之間的全面交互,使得模型難以有效提取有價值的信息。

nuScenes 數據集上碰撞率的開環指標和 Bench2Drive 數據集上成功率的閉環指標的現有最新工作比較,其中左上角更好。圖例指示不同的計劃交互方法。?

二、HiP-AD 框架的核心設計?

HiP-AD 框架的出現,旨在解決上述問題,其核心設計包含多個創新點,從多個維度提升了自動駕駛的性能。?

(一)統一解碼器實現多任務協同?

HiP-AD 的整體網絡架構由骨干網絡、特征金字塔網絡(FPN)、統一解碼器和多個特定任務頭組成。骨干網絡和 FPN 用于從多視圖圖像中提取多尺度特征,而統一解碼器則是整個框架的關鍵部分。它以混合任務錨點和查詢作為輸入,這些查詢包括用于對象檢測和運動預測的代理查詢、用于在線映射的地圖查詢,以及用于軌跡預測的多粒度規劃查詢。?統一解碼器由三個模塊構成:時間交互模塊、協同交互模塊和任務可變形聚合模塊。時間交互模塊通過 top - k 選擇機制保留歷史任務特征,建立當前任務與歷史任務之間的通信,特別是增強了規劃查詢與時間感知查詢之間的交互,使模型能夠更好地利用歷史信息。協同交互模塊通過三個獨立的自注意力機制和一個統一的自注意力模塊實現跨任務交互,構建幾何注意力圖聚焦局部和相對元素,避免使用全局注意力帶來的信息冗余,同時讓規劃查詢能夠獲取所有任務的信息。任務可變形注意力模塊摒棄了傳統的全局注意力,采用獨立的可變形注意力模塊針對每個任務查詢采樣局部稀疏特征。對于規劃任務,將參考路標點分布在不同預設高度值上并投影到多視圖圖像,通過多層感知器學習空間偏移和權重來采樣相鄰點的特征,從而整合未來軌跡周圍的特征,學習稀疏場景表示,有效避免碰撞。?

(二)分層多粒度規劃提升控制精度?

HiP-AD 引入了分層多粒度規劃的概念,與以往的路標點設計不同,它不僅利用了時間和空間路標點,還創新性地引入了駕駛風格路標點。時間路標點用于控制車輛的行駛時間,空間路標點規劃車輛的行駛路徑,而駕駛風格路標點則結合速度信息,使車輛能夠在復雜環境中學習合適的駕駛行為。?

為了實現更精確的控制和豐富的軌跡監督,HiP-AD 采用了多采樣策略。對于空間路標點,采用密集和稀疏間隔采樣;對于時間和駕駛風格路標點,采用高、低頻率采樣,并為駕駛風格路標點設置不同的速度區間。這樣,稀疏間隔的路標點提供全局信息,有助于車輛進行高級決策;密集間隔的路標點則實現精細控制,確保車輛的精準操作。不同速度的駕駛風格路標點能夠使車輛更好地應對超車、緊急制動等場景,在閉環評估中實現靈活的縱向控制。?

在構建多粒度規劃查詢時,HiP-AD 設置了多種粒度的規劃查詢,包括時間、空間和駕駛風格規劃查詢,每個粒度規劃查詢又包含多種模態,代表不同的行駛軌跡。經過統一解碼器處理后,同一模態內不同粒度的規劃查詢進行對齊和聚合,形成融合查詢,以增強信息互補性,優化軌跡預測。在訓練過程中,采用對齊匹配策略,指定一組路標點作為參考路標點與真實標簽進行匹配,其他組共享匹配結果,確保最優匹配模態的梯度能夠有效反向傳播。同時,根據時間路標點的真實標簽選擇合適的駕駛風格路標點,每個駕駛風格路標點負責特定的速度區域,確保每個粒度的路標點都能學習到對應復雜駕駛場景的動作。?

該圖將早期預測航點的方法 (a-b) 與我們提出的多粒度規劃設計 (c) 進行了比較,其中 nt、ns 和 nd 表示每種航路點類型在頻率、間隔和速度方面的不同粒度數。(d) 部分說明了基于不同采樣策略的具有實例化粒度的分層 waypoint 的演變。

HiP-AD 的總體框架由sofaBackbone和FPN用于提取圖像特征,aunifieddecoder用于迭代更新查詢,以及各種heads用于多任務預測。unifieddecoderaretaskanchorsandqueries(agent, map,andplanning)的inputsof,其中planningquery包含多粒度waypoints表示。在每個統一的解碼器中,任務查詢首先分別與時間查詢交互,然后相互協作,最后以交互方式參與圖像特征。最后,將更新的任務查詢發送到相應的 headsfor perception、prediction 和 planning,其中 planningresults 包括具有不同粒度的各種 waypoints,用于精確動作控制

(三)路標點選擇與動作控制策略?

在推理階段,HiP-AD 通過兩步選擇過程確定最終的路標點。首先,根據預測的模態分數選擇最優模態;然后,按照預定義規則選擇特定粒度的路標點,如為空間路標點選擇密集間隔,為時間粒度選擇高頻路標點,為駕駛風格路標點選擇預測風格分類得分最高的。在控制方面,與 CarLLaVA 類似,使用空間路標點進行橫向控制。對于縱向控制,先評估計算出的駕駛風格路標點的速度,若與所選駕駛風格的預設速度范圍一致,則使用駕駛風格路標點控制車輛;否則,切換回時間路標點進行控制。?

(四)損失函數設計?

HiP-AD 可以以完全可微的方式進行端到端訓練和優化,其整體優化函數涵蓋檢測、運動預測、映射和規劃四個主要任務。每個主要任務都使用分類和回歸損失進行優化,并分配相應的權重。規劃損失包括多粒度路標點回歸損失以及模態和駕駛風格的分類損失,通過這種方式,模型能夠在訓練過程中不斷調整參數,提高預測的準確性和可靠性。?

說明了統一解碼器層中三個子模塊的詳細架構,以實現全面的交互。

基于路徑點預測的多粒度查詢體系結構。為了清楚起見,我們省略了分類頭。

三、實驗驗證 HiP-AD 的卓越性能?

為了全面評估 HiP-AD 的性能,研究人員在具有挑戰性的閉環基準測試 Bench2Drive 數據集和現實數據集 nuScenes 上進行了大量實驗。?

(一)實驗設置?

在 Bench2Drive 數據集上,實驗采用 ResNet50 作為骨干網絡,設置 6 個解碼器層,輸入分辨率為 640×352。混合任務查詢數量固定,包括 900 個代理查詢、100 個地圖查詢和 480 個規劃查詢,每個規劃查詢包含 48 種模態,10 種粒度。訓練過程分為兩個階段,先禁用駕駛風格頭訓練 12 個 epoch,再啟用駕駛風格頭進行 6 個 epoch 的微調,使用 8 個 NVIDIA 4090 GPU,總批量大小為 32,采用 AdamW 優化器和余弦退火調度器,初始學習率為 2×10??,權重衰減為 0.01 。在 nuScenes 數據集上的訓練參數與 Bench2Drive 類似,但輸入分辨率調整為 704×256,且由于開環和閉環評估的目的不同,訓練過程有所差異,訓練時禁用駕駛風格路標點,使用時間路標點進行性能評估,并采用類似 SparseDrive 的訓練方法以最大化感知性能。?

(二)實驗結果?

在 Bench2Drive 數據集上,HiP-AD 展現出了優異的閉環性能,其駕駛分數和成功率遠超其他先進的端到端自動駕駛方法,與排名第二的方法相比,駕駛分數提高了 20% 以上,成功率提高了 30% 以上,同時在 L2 誤差分數上與其他領先方法相當。在多能力評估中,HiP-AD 在合并、超車、緊急制動和交通標志識別等場景下的能力顯著提升,整體分數提高了 25% 以上 。在 nuScenes 數據集的開環評估中,HiP-AD 實現了最低的碰撞率,同時保持了具有競爭力的 L2 誤差,在感知和預測任務上也表現出色,證明了其統一框架的穩健性和有效性。?

(三)消融實驗?

為了深入分析 HiP-AD 各部分的作用,研究人員進行了消融實驗。實驗結果表明,規劃可變形注意力和多粒度表示對整體性能提升至關重要,多粒度規劃尤其在提供更好的控制方面表現突出。同時,對比統一框架和順序變體發現,統一框架中感知和規劃任務的并行迭代運行方式明顯優于順序執行,充分體現了統一框架的優勢。在對多粒度規劃查詢設計的消融研究中發現,不同的設置對性能有顯著影響,結合多種采樣策略和駕駛風格的設置能夠實現最佳性能,并且多粒度規劃有效減少了車輛在某些場景下的猶豫現象,鼓勵車輛在復雜場景中學習合適的行為。?

四、HiP-AD 的優勢、局限與未來展望?

HiP-AD 在閉環路線上的定性結果,包括感知、運動和規劃軌跡。空間航路點為天藍色,而駕駛式航路點為紅色。重要對象在黃色圓圈中突出顯示。

HiP-AD 通過統一解碼器實現了感知、預測和規劃任務的高效協同,分層多粒度規劃策略為車輛控制提供了豐富的信息和精確的監督,規劃可變形注意力機制有效利用規劃軌跡的幾何信息提取相關圖像特征,這些創新設計使得 HiP-AD 在自動駕駛性能上取得了顯著提升。無論是在閉環評估中的安全駕駛性能,還是在開環評估中的軌跡預測準確性和感知能力,HiP-AD 都展現出了超越現有方法的優勢。?

然而,HiP-AD 也存在一些局限性。盡管在開環和閉環評估中表現出色,但仍需要進行大量的實際道路測試,以確保其在各種復雜真實場景下的可靠性和穩定性。此外,如何避免與后方快速接近的車輛發生碰撞,仍然是一個亟待解決的挑戰。?

展望未來,HiP-AD 為自動駕駛技術的發展提供了新的方向和思路。研究人員可以在此基礎上,進一步優化框架結構,探索更有效的多粒度規劃策略和注意力機制,提高模型對復雜場景的適應性和決策能力。隨著技術的不斷進步和完善,HiP-AD 有望在未來的自動駕駛領域發揮更大的作用,推動自動駕駛技術向更安全、更智能的方向發展,為人們的出行帶來更多的便利和安全保障。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/89437.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/89437.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/89437.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

transformer位置編碼研究相關的綜述、論文

一、權威綜述 《利用位置編碼實現長度外推》 (騰訊云開發者社區, 2024) 系統分析絕對/相對位置編碼(APE/RPE)在長序列外推中的技術演進,涵蓋RoPE、Alibi、Xpos等優化方案,討論位置插值、NTK-aware縮放等擴展…

垂直領域AI智能體開發指南:用Bright Data MCP接入智能體攻克數據難關

垂直領域AI智能體開發指南:用Bright Data MCP接入智能體攻克數據難關 一、智能體時代的數據困局1.1 AI智能體的爆發式增長1.2 開發者遭遇的"數據瓶頸" 二、Bright Data MCP:智能體的數據引擎2.1 重新定義數據獲取方式2.2 支持的核心場景2.3 四…

Stable Diffusion 項目實戰落地:從0到1 掌握ControlNet 第三篇: 打造光影字形的創意秘技-文字與自然共舞

上一篇,我們一起玩轉了 野外光影字,是不是被那種自然和光影交織的效果驚艷到啦? 如果你錯過了那篇文章,別擔心,趕緊點這里補課:Stable Diffusion 項目實戰落地:從0到1 掌握ControlNet:打造光影文字 第二篇 - 野外光影字。 今天,我們將一起做一個 生成的嵌入式文字【…

CppCon 2018 學習:Feather: A Modern C++ Web Development Framework

你這段內容羅列的是 Web 開發中的幾個基礎概念和組成模塊,下面我逐一用中文進行解釋,并理清它們之間的關系: 基礎概念說明 1. HTTP Server(HTTP服務器) 是一個監聽 HTTP 請求并返回響應的程序。主要功能&#xff1a…

武漢大學機器人學院啟航:一場顛覆性的產教融合實驗,如何重塑中國智造未來?

當百年學府按下“產業加速鍵”,教育革命的號角已經吹響 2025年7月,武漢大學一紙公告震動教育界與科技圈——成立機器人學院,攜手小米、宇樹等硬科技領軍企業,聘請10位產業教授入駐。這絕非一次常規的校企合作,而是一場…

QT記事本4——下拉框修改值后解決亂碼問題

下拉框修改值后解決亂碼問題 void Widget::onCurrentIndexChanged(int index) {qDebug()<<index;//索引從0開始qDebug()<<ui->comboBox->currentText();//切換編碼時&#xff0c;首先清空當前的文本框ui->textEdit->clear();if(file.isOpen()){//僅在…

““ ‘‘ C++

在C中&#xff0c;"" 和 的含義完全不同&#xff0c;只有""是空字符串&#xff0c;而既不是空字符串&#xff0c;也不能表示空字符&#xff0c;具體區別如下&#xff1a; 1. 雙引號 ""&#xff1a;空字符串字面量 類型&#xff1a;const char…

電腦遠程控制另一臺電腦無法連接怎么辦

電腦遠程控制另一臺電腦無法連接怎么辦&#xff1f;遠程桌面連接是遠程管理另一臺計算機時比較常用的方式&#xff0c;在進行電腦遠程控制時&#xff0c;無法連接是常見的問題&#xff0c;以下將從多個方面分析原因并提供解決方法。如果涉及無公網IP目標主機需要遠程桌面連接的…

springboot3.2/3.4+rocketmq5.3.3測試程序的基本例子

想測試下springboot新版中與rocketmq5.3.3的配置使用&#xff0c;今天嘗試了下&#xff0c;記錄如下&#xff1a; 1、首先springboot使用3.2.7&#xff0c;rocketmq使用5.3.3&#xff0c;且使用docker部署rocketmq。 docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/do…

深入剖析AI大模型:TensorFlow

今天來聊一下TensorFlow&#xff0c;任何一門技術我建議還是從它出現的背景開始。因為你這就知道它存在的原因是什么。2015 年&#xff0c;Google 開源了深度學習框架 TensorFlow&#xff0c;一經推出便在學術界和工業界引起巨大反響。當時&#xff0c;深度學習模型的復雜度與日…

【數字后端】- tcbn28hpcplusbwp30p140,標準單元庫命名含義

tcbn28: 代表工藝類型是臺積電28nm工藝hpcplus: 代表工藝平臺是HPC BWP: 其中B代表標準單元的類型是 “standard” base cell&#xff1b;W代表N-well 工藝&#xff0c;放置在 P-substrate上&#xff1b;P表示該 cell 使用的是 P-type transistor layout orientation&#xff1…

KNN算法詳解及Scikit-learn API使用指南

一、KNN算法介紹 K最近鄰(K-Nearest Neighbor, KNN)算法是機器學習中最簡單、最直觀的分類算法之一。它既可以用于分類問題&#xff0c;也可以用于回歸問題。KNN是一種基于實例的學習(instance-based learning)或懶惰學習(lazy learning)算法&#xff0c;因為它不會從訓練數據…

【PMP】項目管理入門:從基礎到環境的體系化拆解

不少技術管理者都有過這樣的困惑&#xff1a; 明明按流程做了項目管理&#xff0c;結果還是延期、超預算&#xff1f;需求變更多到炸&#xff0c;到底是客戶無理還是自己沒管好&#xff1f;跨部門協作像“推皮球”&#xff0c;資源總不到位&#xff1f; 其實&#xff0c;項目失…

【Web前端】簡易輪播圖顯示(源代碼+解析+知識點)

一、簡易輪播圖源代碼 <!DOCTYPE html> <html><head><meta charset"utf-8"><title>簡易輪播圖顯示</title><style type"text/css">*{margin: 0 auto;padding: 0;/* 全局重置邊距 */}p{text-align: center;fon…

電機試驗平臺的用途及實驗范圍

電機試驗平臺是一種專門設計用來對各種類型的電機進行測試和分析的設備。在現代工業中&#xff0c;電機作為驅動力的重要組成部分&#xff0c;在各個領域發揮著至關重要的作用。而為了確保電機的性能、效率和可靠性達到最佳水平&#xff0c;需要進行各種試驗和測試。電機試驗平…

自主/智能的本質內涵及其相互關系

論文地址&#xff1a;無人機的自主與智能控制 - 中國知網 (cnki.net) 自主/智能的本質內涵及其相互關系準則是無人機設計的基本原則。從一般意義上講。自主與智能是兩個不同范疇的概念。自主表達的是行為方式&#xff0c;由自身決策完成某行為則稱之為“自主”。“智能”…

nignx+Tomcat+NFS負載均衡加共享儲存服務腳本

本次使有4臺主機&#xff0c;系統均為centos7&#xff0c;1臺nignx&#xff0c;2臺tomcat&#xff0c;1臺nfs 第一臺配置nignx腳本 #!/bin/bash #xiexianghu 2025.6.24 #nignx配置腳本&#xff0c;centos7#關閉防火墻和SElinux systemctl stop firewalld && system…

zabbix監控Centos 服務器

1.2&#xff1a;本地安裝 先使用wget下載RPM安裝包 然后解壓安裝 >>wget https://repo.zabbix.com/zabbix/6.4/rhel/8/x86_64/zabbix-agent2-6.4.21-release1.el8.x86_64.rpm ##### CENTOS 8 使用這一條>>rpm -ivh zabbix-agent2-6.4.21-release1.el8.x86_64.r…

中科米堆三維掃描儀3D掃描壓力閥抄數設計

三維掃描技術正以數字化手段重塑傳統制造流程。以壓力閥這類精密流體控制元件為例&#xff0c;其內部流道結構的幾何精度直接影響設備運行穩定性與使用壽命。 在傳統設計模式下&#xff0c;壓力閥的逆向工程需經歷手工測繪、二維圖紙繪制、三維建模轉換等多個環節。技術人員需…

Python pytz 時區使用舉例

Python pytz 時區使用舉例 ? 一、Python代碼實現&#xff1a;時區轉換與時間比較 import pytz from datetime import datetime# 1. 獲取當前UTC時間 utc_now datetime.now(pytz.utc)# 2. 轉換為目標時區&#xff08;示例&#xff1a;上海和紐約&#xff09; shanghai_tz py…