CVPR‘25 SOTA——GoalFlow論文精讀

1）第一遍___粗讀

Q: 這篇論文試圖解決什么問題？

A: 這篇論文提出了一個名為 GoalFlow 的端到端自動駕駛方法，旨在解決自動駕駛場景中高質量多模態軌跡生成的問題。具體而言，它試圖解決以下問題：

軌跡選擇的復雜性：在自動駕駛中，通常不存在單一的合適軌跡，而是存在多種可能的軌跡選擇。現有的方法在生成多模態軌跡時，往往面臨軌跡選擇復雜的問題，難以從眾多候選軌跡中快速準確地選出最優軌跡。
軌跡發散問題：基于擴散模型的方法在生成軌跡時容易出現軌跡發散的問題，導致生成的軌跡與真實軌跡差異過大，降低了軌跡的質量。
引導信息與場景信息的一致性：現有的一些方法使用引導信息（如預定義的目標點）來生成軌跡，但這些引導信息與真實軌跡之間的差距可能導致生成低質量的軌跡。此外，這些方法在引導信息與場景信息不一致時，難以生成符合實際道路網絡的軌跡。
端到端系統中的軌跡生成：在端到端自動駕駛系統中，現有的方法主要關注碰撞率和 L2 距離等指標，而忽視了車輛是否保持在可行駛區域內。此外，大多數方法基于回歸模型，當引導信息與真實值偏差較大時，容易生成低質量的軌跡。

為了解決這些問題，GoalFlow 引入了一種新的目標點引導機制，通過精確的目標點來約束生成過程，從而生成高質量的多模態軌跡。同時，它采用了 Flow Matching 方法來高效生成軌跡，并通過評分機制從候選軌跡中選擇最優軌跡。

Q: 有哪些相關研究？

A: 論文中提到了以下相關研究：

端到端自動駕駛

早期方法：早期的端到端自動駕駛方法主要使用模仿學習，直接從輸入圖像中提取特征以生成軌跡。例如，Codevilla 等人的工作[4]和 Codevilla 等人的后續研究[5]。
Transfuser：Transfuser[3]通過融合攝像頭和激光雷達信息進行感知，并使用輔助任務（如地圖構建和目標檢測）為感知提供監督。
FusionAD：FusionAD[32]進一步發展了 Transfuser，將融合的感知特征直接傳播到預測和規劃模塊。
UniAD：UniAD[15]引入了統一查詢設計，使框架最終以規劃為導向。
VAD：VAD[17]通過簡化感知任務并將場景表示轉換為矢量化格式，顯著提高了規劃能力和效率。
VADv2：VADv2[1]對軌跡空間進行了離散化，構建了軌跡詞匯表，將回歸任務轉換為分類任務。
PARA-Drive：PARA-Drive[29]并行執行地圖構建、規劃、運動預測和占用預測任務。
GenAD：GenAD[34]使用 VAE 和 GRU 進行時間軌跡重建。(小米的VLA尾部很像)
SparseDrive：SparseDrive[26]在矢量化場景表示方面取得了進展，省略了更密集的 BEV 表示。

擴散模型和 Flow Matching

早期生成模型：早期的生成模型通常使用 VAE[21] 和 GAN[10] 進行圖像生成。
擴散模型：擴散模型通過迭代添加和移除噪聲來生成圖像，DDPM[14] 是這一領域的開創性工作。后續方法[25]進一步優化了采樣效率，CFG[13]增強了生成輸出的魯棒性。
Flow Matching：Flow Matching[22]通過建立從一個分布到另一個分布的向量場來進行生成建模。Rectified Flow[23] 是 Flow Matching 的一種特定形式，它通過最優傳輸[24]路徑直接線性過渡。

多模態軌跡生成

操縱任務中的多模態建模：在操縱任務中，Cheng 等人[2]通過應用擴散模型取得了顯著成功。
自動駕駛中的多模態策略：
- 基于離散命令的方法：
- VAD[17]使用離散命令來引導軌跡生成，產生三種不同的軌跡模式。（left,straight,right）
- SparseDrive[26]和[16]從數據集中聚類固定的導航點以引導軌跡。
- 直接應用擴散模型：一些方法[18, 28, 31]直接引入擴散模型來生成多模態軌跡，在軌跡預測中取得了成功，但在端到端應用中面臨挑戰。
- Diffusion-ES[31]需要基于 HD 地圖的評分機制來與真實世界道路網絡對齊，這在端到端環境中難以獲得。
- MotionDiffuser[18]通過使用真實終點作為約束來解決軌跡發散問題，但引入了過于強烈的先驗信息。
- GoalGAN[8]首先預測目標點，然后使用它來引導 GAN 網絡生成軌跡，但它使用網格單元來采樣目標點，沒有考慮目標點的分布。

Q: 論文如何解決這個問題？

A: 論文通過提出?GoalFlow?方法來解決自動駕駛場景中高質量多模態軌跡生成的問題，具體方法如下：

目標點引導機制---FlowMatching---軌跡選擇

Q: 論文做了哪些實驗？

A: 論文中進行了以下幾類實驗來驗證?GoalFlow?方法的有效性和性能：

1.?與現有方法的比較實驗

實驗環境：在?Navsim?環境中進行測試，該環境包含 1192 個訓練驗證場景和 136 個測試場景，總共有超過 10 萬個樣本。
評估指標：使用以下指標來評估生成軌跡的質量：
- SNC（無責任碰撞）：衡量生成軌跡是否會導致碰撞。
- SDAC（可行駛區域合規性）：衡量軌跡是否保持在可行駛區域內。
- STTC（時間到碰撞）：衡量軌跡與周圍物體的潛在碰撞時間。
- SEP（自我進度）：衡量軌跡是否能夠有效推進車輛。
- SCF（舒適性）：衡量軌跡的平滑性和舒適性。
- SDDC（駕駛方向合規性）：衡量軌跡是否符合駕駛方向（由于實際限制，此指標未在計算中使用）。
比較方法：與以下幾種現有方法進行比較：
- Constant Velocity：假設車輛以恒定速度前進。
- Ego Status MLP：僅使用當前狀態作為輸入，通過 MLP 生成軌跡。
- LTF：Transfuser 的簡化版本，使用圖像和 LiDAR 輸入。
- Transfuser：使用圖像和 LiDAR 輸入，通過 Transformer 融合生成軌跡。
- UniAD：使用多個 Transformer 架構處理信息，專注于規劃任務。
- PARA-Drive：并行執行地圖構建、規劃、運動預測和占用預測任務。
結果：GoalFlow?在所有評估指標上均優于其他方法，特別是在?SDAC?和?SEP?上表現突出，分別比第二好的方法高出 5.5 和 5.7 個百分點。

2.?消融研究

實驗目的：驗證?GoalFlow?中各個組件的貢獻。
實驗設置：
- M0：僅使用 Rectified Flow 生成軌跡，不使用目標點引導。
- M1：在 M0 的基礎上引入距離評分圖，選擇得分最高的目標點引導 Rectified Flow。
- M2：在 M1 的基礎上引入可行駛區域合規性評分圖。
- M3：在 M2 的基礎上引入軌跡評分器。
結果：
- M0：在 DAC 和 TTC 上表現優于基線方法，表明基于 Flow Matching 的模型具有強大的建模能力。
- M1：引入距離評分圖后，性能顯著提升，特別是在 DAC 和 TTC 上。
- M2：進一步引入可行駛區域合規性評分圖，進一步提升了 DAC 分數。
- M3：引入軌跡評分器后，進一步提升了軌跡選擇的可靠性，最終在所有指標上取得了最佳性能。

3.?不同去噪步驟的實驗

實驗目的：評估在不同去噪步驟下?GoalFlow?的性能。
實驗設置：在推理過程中使用不同數量的去噪步驟（從 20 步到 1 步）。
結果：
- 即使在僅使用 1 步去噪的情況下，GoalFlow?依然能夠保持高性能，僅比最優情況下降了 1.6%。
- 這表明?Flow Matching?方法在推理過程中具有高效性，適合實時自動駕駛系統。

4.?不同初始噪聲的實驗

實驗目的：評估不同初始噪聲分布對軌跡生成的影響。
實驗設置：在訓練過程中使用不同標準差?σσ?的高斯分布作為初始噪聲。
結果：
- 當?σσ?超過 0.1 時，生成的軌跡變得過于發散，導致性能顯著下降。
- 當?σσ?小于 0.1 時，性能保持穩定，表明適當的噪聲水平對于生成高質量軌跡至關重要。

5.?模型擴展實驗

實驗目的：評估模型擴展對性能的影響。
實驗設置：
- 維度擴展：在相同的 V2-99 骨架下，增加 Transformer 的隱藏維度。
- 骨干網絡擴展：比較不同骨干網絡（如 ResNet-34 和 V2-99）對性能的影響。
結果：
- 增加隱藏維度和使用更大的骨干網絡均能提升性能，最佳性能在隱藏維度為 1024 時取得。
- 不同骨干網絡在分數分布上存在顯著差異，表明不同的網絡架構對目標點信息的學習方式不同。

6.?可視化實驗

軌跡可視化：生成了多種場景下的軌跡，包括直行、左轉、右轉和讓行場景，展示了?GoalFlow?生成的軌跡多樣性和質量。
目標點分布可視化：展示了目標點的分布情況，包括距離評分、可行駛區域合規性評分和最終評分，驗證了目標點選擇機制的有效性。

通過這些實驗，論文全面驗證了?GoalFlow?在多模態軌跡生成方面的性能和魯棒性，證明了其在端到端自動駕駛中的應用潛力。

Q: 有什么可以進一步探索的點？

A: 論文中提出了一種有效的方法來生成高質量的多模態軌跡，但仍有一些可以進一步探索的點：

1.?目標點的進一步優化

目標點的動態調整：目前的目標點選擇是基于靜態的評分機制，可以探索動態調整目標點的方法，例如根據實時交通狀況和周圍車輛的行為動態更新目標點。
多目標點的聯合建模：目前的方法主要關注單個目標點的引導，可以探索多目標點的聯合建模，以更好地捕捉復雜的交通場景和多模態軌跡。

2.?模型的泛化能力

跨場景泛化：雖然在 Navsim 環境中取得了良好的性能，但可以進一步探索模型在不同駕駛場景（如城市道路、高速公路、鄉村道路等）中的泛化能力。
跨數據集泛化：在其他自動駕駛數據集上驗證模型的性能，以確保其在不同環境和條件下的魯棒性。

3.?模型的效率和實時性

推理時間優化：盡管 Flow Matching 方法已經減少了推理時間，但進一步優化推理時間對于實際應用至關重要。可以探索更高效的網絡架構或優化算法來進一步提高實時性。
硬件加速：研究如何利用硬件加速（如 GPU、FPGA 等）來進一步提高模型的推理速度。

4.?與其他技術的融合

與強化學習的結合：結合強化學習方法，使模型能夠根據環境反饋動態調整軌跡生成策略。
與自然語言處理的結合：利用自然語言處理技術，使模型能夠理解和處理自然語言指令，生成符合人類駕駛習慣的軌跡。

5.?軌跡生成的多樣性

多樣性增強：雖然 Flow Matching 方法能夠生成多模態軌跡，但可以進一步探索如何增強軌跡的多樣性，以更好地覆蓋不同的駕駛場景和行為模式。
軌跡的可解釋性：提高軌跡生成過程的可解釋性，使人類駕駛員能夠理解模型的決策過程。

6.?安全性和可靠性

安全機制的增強：進一步增強模型的安全機制，例如引入更復雜的安全檢查和碰撞預測算法，以確保生成的軌跡在各種復雜場景下的安全性。
可靠性評估：建立更全面的可靠性評估指標，不僅包括軌跡的質量，還包括模型在不同條件下的穩定性和魯棒性。

7.?模型的可擴展性

大規模數據集訓練：在更大的數據集上訓練模型，以提高其對不同駕駛場景和行為模式的覆蓋能力。
多任務學習：探索多任務學習框架，使模型能夠同時處理多個相關任務（如目標檢測、軌跡預測、規劃等），以提高整體性能。

8.?用戶交互和反饋

用戶交互機制：引入用戶交互機制，使駕駛員能夠實時調整或干預軌跡生成過程，以更好地滿足實際駕駛需求。
反饋學習：利用駕駛員的反饋進行在線學習，使模型能夠根據用戶的偏好和行為模式進行動態調整。

這些探索方向不僅可以進一步提升?GoalFlow?方法的性能和應用范圍，還可以為自動駕駛領域的研究提供新的思路和方法。

2）第二遍___細讀

目標引導機制：

精確的目標點選擇

構建目標點詞匯表：通過聚類訓練數據中的軌跡末端點，構建一個密集的目標點詞匯表。這使得目標點能夠覆蓋各種可能的駕駛場景和行為模式，為軌跡生成提供了豐富的候選點。
評分機制：使用距離評分和可行駛區域合規評分來評估每個目標點。距離評分衡量目標點與真實軌跡末端點的接近程度，值越接近1表示越接近真實終點；可行駛區域合規評分確保目標點位于可行駛區域內，值為1表示目標點在可行駛區域內，值為0表示不在。通過加權融合這兩個評分，選擇評分最高的目標點作為軌跡生成的引導信息，從而確保生成的軌跡既符合實際道路情況，又接近真實的駕駛意圖。

對軌跡生成過程的約束

約束軌跡方向：目標點為軌跡生成提供了明確的方向指引，使得生成的軌跡朝著目標點方向發展，避免了軌跡的隨意發散。這有助于減少軌跡與真實軌跡之間的差異，提高軌跡的準確性和可靠性。
結合場景信息：目標點的選擇是基于場景信息進行的，考慮了周圍車輛、道路布局等因素。這樣生成的軌跡不僅符合目標點的指引，還能與周圍的交通環境相協調，更好地適應復雜的駕駛場景。

提升軌跡的多樣性和適應性

多模態軌跡生成：通過選擇不同的目標點，可以生成多種不同模式的軌跡，滿足不同場景下的駕駛需求。例如，在交叉路口可以選擇直行、左轉或右轉的目標點，生成對應的軌跡，增加了軌跡的多樣性。
適應不同駕駛場景：目標點引導機制能夠根據不同的駕駛場景選擇合適的目標點，使生成的軌跡適應各種復雜的交通狀況。比如在高速公路上可以選擇保持車道或變道的目標點，在城市道路中可以選擇避讓障礙物或跟隨前車的目標點，提高了軌跡生成的適應性和靈活性。

增強軌跡的安全性和可行性