CVPR‘25 SOTA——GoalFlow論文精讀

1)第一遍___粗讀

Q: 這篇論文試圖解決什么問題?

A: 這篇論文提出了一個名為 GoalFlow 的端到端自動駕駛方法,旨在解決自動駕駛場景中高質量多模態軌跡生成的問題。具體而言,它試圖解決以下問題:

  1. 軌跡選擇的復雜性:在自動駕駛中,通常不存在單一的合適軌跡,而是存在多種可能的軌跡選擇。現有的方法在生成多模態軌跡時,往往面臨軌跡選擇復雜的問題,難以從眾多候選軌跡中快速準確地選出最優軌跡。

  2. 軌跡發散問題:基于擴散模型的方法在生成軌跡時容易出現軌跡發散的問題,導致生成的軌跡與真實軌跡差異過大,降低了軌跡的質量。

  3. 引導信息與場景信息的一致性:現有的一些方法使用引導信息(如預定義的目標點)來生成軌跡,但這些引導信息與真實軌跡之間的差距可能導致生成低質量的軌跡。此外,這些方法在引導信息與場景信息不一致時,難以生成符合實際道路網絡的軌跡。

  4. 端到端系統中的軌跡生成:在端到端自動駕駛系統中,現有的方法主要關注碰撞率和 L2 距離等指標,而忽視了車輛是否保持在可行駛區域內。此外,大多數方法基于回歸模型,當引導信息與真實值偏差較大時,容易生成低質量的軌跡。

為了解決這些問題,GoalFlow 引入了一種新的目標點引導機制,通過精確的目標點來約束生成過程,從而生成高質量的多模態軌跡。同時,它采用了 Flow Matching 方法來高效生成軌跡,并通過評分機制從候選軌跡中選擇最優軌跡。

Q: 有哪些相關研究?

A: 論文中提到了以下相關研究:

端到端自動駕駛

  • 早期方法:早期的端到端自動駕駛方法主要使用模仿學習,直接從輸入圖像中提取特征以生成軌跡。例如,Codevilla 等人的工作[4]和 Codevilla 等人的后續研究[5]。

  • Transfuser:Transfuser[3]通過融合攝像頭和激光雷達信息進行感知,并使用輔助任務(如地圖構建和目標檢測)為感知提供監督

  • FusionAD:FusionAD[32]進一步發展了 Transfuser,將融合的感知特征直接傳播到預測和規劃模塊。

  • UniAD:UniAD[15]引入了統一查詢設計,使框架最終以規劃為導向。

  • VAD:VAD[17]通過簡化感知任務并將場景表示轉換為矢量化格式,顯著提高了規劃能力和效率。

  • VADv2:VADv2[1]對軌跡空間進行了離散化,構建了軌跡詞匯表,將回歸任務轉換為分類任務。

  • PARA-Drive:PARA-Drive[29]并行執行地圖構建、規劃、運動預測和占用預測任務。

  • GenAD:GenAD[34]使用 VAE 和 GRU 進行時間軌跡重建。(小米的VLA尾部很像)

  • SparseDrive:SparseDrive[26]在矢量化場景表示方面取得了進展,省略了更密集的 BEV 表示。

擴散模型和 Flow Matching

  • 早期生成模型:早期的生成模型通常使用 VAE[21] 和 GAN[10] 進行圖像生成。

  • 擴散模型:擴散模型通過迭代添加和移除噪聲來生成圖像,DDPM[14] 是這一領域的開創性工作。后續方法[25]進一步優化了采樣效率,CFG[13]增強了生成輸出的魯棒性。

  • Flow MatchingFlow Matching[22]通過建立從一個分布到另一個分布的向量場來進行生成建模。Rectified Flow[23] 是 Flow Matching 的一種特定形式,它通過最優傳輸[24]路徑直接線性過渡。

多模態軌跡生成

  • 操縱任務中的多模態建模:在操縱任務中,Cheng 等人[2]通過應用擴散模型取得了顯著成功。

  • 自動駕駛中的多模態策略

    • 基于離散命令的方法

    • VAD[17]使用離散命令來引導軌跡生成,產生三種不同的軌跡模式。(left,straight,right)

    • SparseDrive[26]和[16]從數據集中聚類固定的導航點以引導軌跡。

    • 直接應用擴散模型:一些方法[18, 28, 31]直接引入擴散模型來生成多模態軌跡,在軌跡預測中取得了成功,但在端到端應用中面臨挑戰。

    • Diffusion-ES[31]需要基于 HD 地圖的評分機制來與真實世界道路網絡對齊,這在端到端環境中難以獲得。

    • MotionDiffuser[18]通過使用真實終點作為約束來解決軌跡發散問題,但引入了過于強烈的先驗信息。

    • GoalGAN[8]首先預測目標點,然后使用它來引導 GAN 網絡生成軌跡,但它使用網格單元來采樣目標點,沒有考慮目標點的分布。

Q: 論文如何解決這個問題?

A: 論文通過提出?GoalFlow?方法來解決自動駕駛場景中高質量多模態軌跡生成的問題,具體方法如下:

目標點引導機制---FlowMatching---軌跡選擇

Q: 論文做了哪些實驗?

A: 論文中進行了以下幾類實驗來驗證?GoalFlow?方法的有效性和性能:

1.?與現有方法的比較實驗

  • 實驗環境:在?Navsim?環境中進行測試,該環境包含 1192 個訓練驗證場景和 136 個測試場景,總共有超過 10 萬個樣本。
  • 評估指標:使用以下指標來評估生成軌跡的質量:
    • SNC(無責任碰撞):衡量生成軌跡是否會導致碰撞。
    • SDAC(可行駛區域合規性):衡量軌跡是否保持在可行駛區域內。
    • STTC(時間到碰撞):衡量軌跡與周圍物體的潛在碰撞時間。
    • SEP(自我進度):衡量軌跡是否能夠有效推進車輛。
    • SCF(舒適性):衡量軌跡的平滑性和舒適性。
    • SDDC(駕駛方向合規性):衡量軌跡是否符合駕駛方向(由于實際限制,此指標未在計算中使用)。
  • 比較方法:與以下幾種現有方法進行比較:
    • Constant Velocity:假設車輛以恒定速度前進。
    • Ego Status MLP:僅使用當前狀態作為輸入,通過 MLP 生成軌跡。
    • LTF:Transfuser 的簡化版本,使用圖像和 LiDAR 輸入。
    • Transfuser:使用圖像和 LiDAR 輸入,通過 Transformer 融合生成軌跡。
    • UniAD:使用多個 Transformer 架構處理信息,專注于規劃任務。
    • PARA-Drive:并行執行地圖構建、規劃、運動預測和占用預測任務。
  • 結果GoalFlow?在所有評估指標上均優于其他方法,特別是在?SDAC?和?SEP?上表現突出,分別比第二好的方法高出 5.5 和 5.7 個百分點。

2.?消融研究

  • 實驗目的:驗證?GoalFlow?中各個組件的貢獻。
  • 實驗設置
    • M0:僅使用 Rectified Flow 生成軌跡,不使用目標點引導。
    • M1:在 M0 的基礎上引入距離評分圖,選擇得分最高的目標點引導 Rectified Flow。
    • M2:在 M1 的基礎上引入可行駛區域合規性評分圖。
    • M3:在 M2 的基礎上引入軌跡評分器。
  • 結果
    • M0:在 DAC 和 TTC 上表現優于基線方法,表明基于 Flow Matching 的模型具有強大的建模能力。
    • M1:引入距離評分圖后,性能顯著提升,特別是在 DAC 和 TTC 上。
    • M2:進一步引入可行駛區域合規性評分圖,進一步提升了 DAC 分數。
    • M3:引入軌跡評分器后,進一步提升了軌跡選擇的可靠性,最終在所有指標上取得了最佳性能。

3.?不同去噪步驟的實驗

  • 實驗目的:評估在不同去噪步驟下?GoalFlow?的性能。
  • 實驗設置:在推理過程中使用不同數量的去噪步驟(從 20 步到 1 步)。
  • 結果
    • 即使在僅使用 1 步去噪的情況下,GoalFlow?依然能夠保持高性能,僅比最優情況下降了 1.6%。
    • 這表明?Flow Matching?方法在推理過程中具有高效性,適合實時自動駕駛系統。

4.?不同初始噪聲的實驗

  • 實驗目的:評估不同初始噪聲分布對軌跡生成的影響。
  • 實驗設置:在訓練過程中使用不同標準差?σσ?的高斯分布作為初始噪聲。
  • 結果
    • 當?σσ?超過 0.1 時,生成的軌跡變得過于發散,導致性能顯著下降。
    • 當?σσ?小于 0.1 時,性能保持穩定,表明適當的噪聲水平對于生成高質量軌跡至關重要。

5.?模型擴展實驗

  • 實驗目的:評估模型擴展對性能的影響。
  • 實驗設置
    • 維度擴展:在相同的 V2-99 骨架下,增加 Transformer 的隱藏維度。
    • 骨干網絡擴展:比較不同骨干網絡(如 ResNet-34 和 V2-99)對性能的影響。
  • 結果
    • 增加隱藏維度和使用更大的骨干網絡均能提升性能,最佳性能在隱藏維度為 1024 時取得。
    • 不同骨干網絡在分數分布上存在顯著差異,表明不同的網絡架構對目標點信息的學習方式不同。

6.?可視化實驗

  • 軌跡可視化:生成了多種場景下的軌跡,包括直行、左轉、右轉和讓行場景,展示了?GoalFlow?生成的軌跡多樣性和質量。
  • 目標點分布可視化:展示了目標點的分布情況,包括距離評分、可行駛區域合規性評分和最終評分,驗證了目標點選擇機制的有效性。

通過這些實驗,論文全面驗證了?GoalFlow?在多模態軌跡生成方面的性能和魯棒性,證明了其在端到端自動駕駛中的應用潛力。

Q: 有什么可以進一步探索的點?

A: 論文中提出了一種有效的方法來生成高質量的多模態軌跡,但仍有一些可以進一步探索的點:

1.?目標點的進一步優化

  • 目標點的動態調整:目前的目標點選擇是基于靜態的評分機制,可以探索動態調整目標點的方法,例如根據實時交通狀況和周圍車輛的行為動態更新目標點。

  • 多目標點的聯合建模:目前的方法主要關注單個目標點的引導,可以探索多目標點的聯合建模,以更好地捕捉復雜的交通場景和多模態軌跡。

2.?模型的泛化能力

  • 跨場景泛化:雖然在 Navsim 環境中取得了良好的性能,但可以進一步探索模型在不同駕駛場景(如城市道路、高速公路、鄉村道路等)中的泛化能力。

  • 跨數據集泛化:在其他自動駕駛數據集上驗證模型的性能,以確保其在不同環境和條件下的魯棒性。

3.?模型的效率和實時性

  • 推理時間優化:盡管 Flow Matching 方法已經減少了推理時間,但進一步優化推理時間對于實際應用至關重要。可以探索更高效的網絡架構或優化算法來進一步提高實時性。

  • 硬件加速:研究如何利用硬件加速(如 GPU、FPGA 等)來進一步提高模型的推理速度。

4.?與其他技術的融合

  • 與強化學習的結合:結合強化學習方法,使模型能夠根據環境反饋動態調整軌跡生成策略。

  • 與自然語言處理的結合:利用自然語言處理技術,使模型能夠理解和處理自然語言指令,生成符合人類駕駛習慣的軌跡。

5.?軌跡生成的多樣性

  • 多樣性增強:雖然 Flow Matching 方法能夠生成多模態軌跡,但可以進一步探索如何增強軌跡的多樣性,以更好地覆蓋不同的駕駛場景和行為模式。

  • 軌跡的可解釋性:提高軌跡生成過程的可解釋性,使人類駕駛員能夠理解模型的決策過程。

6.?安全性和可靠性

  • 安全機制的增強:進一步增強模型的安全機制,例如引入更復雜的安全檢查和碰撞預測算法,以確保生成的軌跡在各種復雜場景下的安全性。

  • 可靠性評估:建立更全面的可靠性評估指標,不僅包括軌跡的質量,還包括模型在不同條件下的穩定性和魯棒性。

7.?模型的可擴展性

  • 大規模數據集訓練:在更大的數據集上訓練模型,以提高其對不同駕駛場景和行為模式的覆蓋能力。

  • 多任務學習:探索多任務學習框架,使模型能夠同時處理多個相關任務(如目標檢測、軌跡預測、規劃等),以提高整體性能。

8.?用戶交互和反饋

  • 用戶交互機制:引入用戶交互機制,使駕駛員能夠實時調整或干預軌跡生成過程,以更好地滿足實際駕駛需求。

  • 反饋學習:利用駕駛員的反饋進行在線學習,使模型能夠根據用戶的偏好和行為模式進行動態調整。

這些探索方向不僅可以進一步提升?GoalFlow?方法的性能和應用范圍,還可以為自動駕駛領域的研究提供新的思路和方法。

2)第二遍___細讀

目標引導機制:

精確的目標點選擇

  • 構建目標點詞匯表:通過聚類訓練數據中的軌跡末端點,構建一個密集的目標點詞匯表。這使得目標點能夠覆蓋各種可能的駕駛場景和行為模式,為軌跡生成提供了豐富的候選點。

  • 評分機制:使用距離評分和可行駛區域合規評分來評估每個目標點。距離評分衡量目標點與真實軌跡末端點的接近程度,值越接近1表示越接近真實終點;可行駛區域合規評分確保目標點位于可行駛區域內,值為1表示目標點在可行駛區域內,值為0表示不在。通過加權融合這兩個評分,選擇評分最高的目標點作為軌跡生成的引導信息,從而確保生成的軌跡既符合實際道路情況,又接近真實的駕駛意圖。

對軌跡生成過程的約束

  • 約束軌跡方向:目標點為軌跡生成提供了明確的方向指引,使得生成的軌跡朝著目標點方向發展,避免了軌跡的隨意發散。這有助于減少軌跡與真實軌跡之間的差異,提高軌跡的準確性和可靠性。

  • 結合場景信息:目標點的選擇是基于場景信息進行的,考慮了周圍車輛、道路布局等因素。這樣生成的軌跡不僅符合目標點的指引,還能與周圍的交通環境相協調,更好地適應復雜的駕駛場景。

提升軌跡的多樣性和適應性

  • 多模態軌跡生成:通過選擇不同的目標點,可以生成多種不同模式的軌跡,滿足不同場景下的駕駛需求。例如,在交叉路口可以選擇直行、左轉或右轉的目標點,生成對應的軌跡,增加了軌跡的多樣性。

  • 適應不同駕駛場景:目標點引導機制能夠根據不同的駕駛場景選擇合適的目標點,使生成的軌跡適應各種復雜的交通狀況。比如在高速公路上可以選擇保持車道或變道的目標點,在城市道路中可以選擇避讓障礙物或跟隨前車的目標點,提高了軌跡生成的適應性和靈活性。

增強軌跡的安全性和可行性

  • 確保軌跡在可行駛區域內:通過可行駛區域合規評分的篩選,確保所選目標點位于可行駛區域內,從而保證生成的軌跡不會駛出道路或進入禁止通行的區域,增強了軌跡的安全性。

  • 減少碰撞風險:目標點的選擇考慮了周圍車輛和障礙物的位置,生成的軌跡能夠更好地避開潛在的碰撞風險,提高自動駕駛系統的安全性。

3)第三遍___CodeReview及復現

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/75807.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/75807.shtml
英文地址,請注明出處:http://en.pswp.cn/web/75807.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

關于 CSDN的C知道功能模塊 的詳細解析,包括 新增的AI搜索(可選深度思考) 和 智能體功能 的具體說明及對比分析

以下是關于 CSDN的C知道功能模塊 的詳細解析,包括 新增的AI搜索(可選深度思考) 和 智能體功能 的具體說明及對比分析: 一、C知道核心功能模塊詳解(基礎功能) (參考前文內容,此處略…

forms實現快讀閱讀器

forms實現快讀閱讀器 主要功能包括: ??1.文本自動分塊顯示??:按設定的速度逐詞顯示文本內容。 ??2.閱讀控制??:開始/停止按鈕以及回車鍵控制。 ??3.界面自定義??:包括字體、顏色(前景色和背景色&#xff…

PowerBI 條形圖顯示數值和百分比

數據表: 三個度量值 銷售額 VAR Sales SUM(銷量表[銷售量]) RETURNIF(ISBLANK(sales), 0, sales) //希望Y軸顯示所有產品(沒有記錄顯示0)就加這個代碼,不希望顯示就不加//注意, 因為Y軸顯示的產品,會被篩選,所以用ALLSELECTED來獲取當前篩…

python: audioFlux XXCC 提取梅爾頻率倒譜系數 MFCC

承上一篇:python:audioFlux 使用教程 XXCC: 倒譜系數,支持所有頻譜類型. 可以提取梅爾頻率倒譜系數(MFCC) Cepstrum coefficients, supports all spectrum types. 以下是使用 audioflux 庫中 XXCC 類計算倒譜系數…

為 docker 拉取鏡像配置代理

為 Docker 配置代理,有 兩個層面 的操作:(1) Docker 守護進程(用于拉取鏡像等操作),(2) Docker 容器內部(容器內應用的網絡流量)。 我們這篇文章著重于前者,以下是詳細步驟&#xff…

最新的es版本忘記密碼,重置密碼

剛剛安裝了最新的es版本,就忘了密碼,怎么重置密碼呢? 一、進入es的斌目錄 #進入es文件/bin 目錄 ./elasticsearch-reset-password -u elastic 二 、輸入對應的密碼 然后再次訪問 我的是去掉了ssl的訪問 三、如果報錯:解決 [main] WARN

cursor如何集成MCP服務

本文主要介紹 Cursor IDE 是如何通過 Model Context Protocol (MCP) 服務來增強其功能的。本文將重點介紹兩個核心 MCP 服務的集成:GitHub MCP 服務和 Filesystem MCP 服務。 MCP 服務簡介 MCP(Model Context Protocol)是一個允許 IDE 與各…

Linux LED驅動(gpio子系統)

0. gpio子系統 gpio子系統是linux內核當中用于管理GPIO資源的一套系統,它提供了很多GPIO相關的API接口,驅動程序中使用GPIO之前需要向gpio子系統申請。 gpio子系統的主要目的就是方便驅動開發者使用gpio,驅動開發者在設備樹中添加gpio相關信息…

go中new和make有什么異同?

相同點:都是給變量分配內存 不同點: 作用類型不同。new通常給int、string、數組類型的變量分配內存,而make通常給slice、map、channel分配內存。返回值類型不同。new返回指向變量的指針,make返回的是變量本身new分配內存空間后&…

C/C++基礎知識點

隨著工作中瑣事越來越多,靜下來好好敲代碼的時間越來越少,基礎知識雖然簡單,但常看常新,并記錄下來共勉。 一、基礎知識點 1. 內存區域中數據管理 在C和C中,內存分為多個區域,每個區域負責存儲不同類型的…

消息中間件kafka,rabbitMQ

在分布式系統中,消息中間件是實現不同組件之間異步通信的關鍵技術。Kafka 和 RabbitMQ 是兩個非常流行的消息中間件系統,它們各自有著不同的特點和應用場景。下面將分別介紹 Kafka 和 RabbitMQ,并討論它們在消息隊列中的使用。 一、Kafka (Apache Kafka) 主要特點: 高吞吐…

2k1000LA , 調試串口改成通信串口, uart.

客戶的問題解決了,但是 調試串口 改成通信串口的問題,并沒有解決,我走的其他的路徑。 先準備一些資料。 以備以后使用。 網上的資料。 總結: 實際上 有幾種思路了。 1 就是更改 設備樹的 chosen 節點, 瑞芯微又單獨…

springboot集成spring-cloud-context手動刷新并讀取更新后的配置文件

背景 springboot單體項目在運行過程需要刷新springboot配置文件值,比如某個接口限流閾值,新增某個賬戶等場景。分布式設計的可以直接引入一些持久化中間件比如redis等,也可以用相關配置中心中間件如nacos等。處于成本等場景單體項目可以考慮①…

proteus8.17 環境配置

Proteus介紹 Proteus 8.17 是一款功能強大的電子設計自動化(EDA)軟件,廣泛應用于電子電路設計、仿真和分析。以下是其主要特點和新功能: ### 主要功能 - **電路仿真**:支持數字和模擬電路的仿真,包括靜態…

手機端可部署的開源大模型; 通義千問2.5訓練和推理需要的內存和外存

手機端可部署的開源大模型 目錄 手機端可部署的開源大模型Qwen2.5 0.5B 7b 推理采用手機內存需要多少Qwen2.5 0.5B不同量化精度下的內存需求Qwen2.5 7B不同量化精度下的內存需求通義千問2.5訓練和推理需要的內存和外存推理階段1. Qwen2.5 - 7B2. Qwen2.5 - 14B3. Qwen2.5 - 72B…

【uniapp-兼容性處理】swiper在iOS上偶發出現后幾張圖片白屏情況

【日期】2025-04-14 【問題】 swiper在iOS上偶發出現后幾張圖片白屏情況 swiper內部的幾個swiper-item垂直排列,各自進行滾動,樣式方面兼容性出現問題 【原因】: 原代碼:(不應在swiper-item添加style屬性&#xf…

SpringBoot連接MQTT客戶端

引入依賴 <dependency><groupId>org.eclipse.paho</groupId><artifactId>org.eclipse.paho.client.mqttv3</artifactId><version>1.2.2</version> </dependency> 啟動類 SpringBootApplication public class AxiosDemoApplic…

HTML:網頁的骨架 — 入門詳解教程

HTML&#xff1a;網頁的骨架 — 入門詳解教程 HTML&#xff08;HyperText Markup Language&#xff0c;超文本標記語言&#xff09;是構建網頁的基礎語言&#xff0c;負責定義網頁的結構和內容。無論是簡單的個人博客&#xff0c;還是復雜的企業網站&#xff0c;HTML都是不可或…

212、【圖論】字符串接龍(Python)

題目描述 題目鏈接&#xff1a;110. 字符串接龍 代碼實現 import collectionsn int(input()) beginStr, endStr input().split() strList [input() for _ in range(n)]deque collections.deque() # 使用隊列遍歷結點 deque.append([beginStr, 1]) # 存儲當前字符串和遍…

操作系統導論——第19章 分頁:快速地址轉換(TLB)

使用分頁作為核心機制來實現虛擬內存&#xff0c;可能會帶來較高的性能開銷。使用分頁&#xff0c;就要將內存地址空間切分成大量固定大小的單元&#xff08;頁&#xff09;&#xff0c;并且需要記錄這些單元的地址映射信息。因為這些映射信息一般存儲在物理內存中&#xff0c;…