DiffAD：自動駕駛的統一擴散建模方法

25年3月來自新加坡公司 Carion 和北航的論文“DiffAD: A Unified Diffusion Modeling Approach for Autonomous Driving”。

端到端自動駕駛 (E2E-AD) 已迅速成為實現完全自動駕駛的一種有前途的方法。然而，現有的 E2E-AD 系統通常采用傳統的多任務框架，通過單獨的特定任務頭來處理感知、預測和規劃任務。盡管以完全可微分的方式進行訓練，但它們仍然遇到任務協調問題，并且系統復雜性仍然很高。這項工作引入 DiffAD——一種擴散概率模型，它將自動駕駛重新定義為條件圖像生成任務。通過將異構目標柵格化到統一的鳥瞰圖 (BEV) 上并對其潛分布進行建模，DiffAD 統一各種駕駛目標并在單一框架中聯合優化所有駕駛任務，顯著降低系統復雜性并協調任務協調。逆過程迭代細化生成的 BEV 圖像，從而產生更穩健和逼真的駕駛行為。

實現全自動駕駛不僅需要對復雜場景有深入的理解，還需要與動態環境進行有效的交互，并全面學習駕駛行為。傳統的自動駕駛系統建立在模塊化架構之上，感知、預測和規劃都是獨立開發的，然后集成到車載系統中。雖然這種設計提供可解釋性并方便調試，但跨模塊的單獨優化目標往往會導致信息丟失和錯誤積累。

最近的端到端自動駕駛 (E2E-AD) 方法（例如 [3、16、20]）試圖通過實現所有組件的聯合、完全可微分訓練來克服這些限制，如圖 (a) 所示。然而，仍然存在幾個關鍵問題：

次優優化：像 UniAD [16] 和 VAD [20] 這樣的方法仍然依賴于順序流水線，其中規劃階段取決于前面模塊的輸出。這種依賴性可能會放大整個系統的錯誤。
查詢建模效率低下：當前基于查詢的方法（例如 [16, 20]）部署數千個可學習查詢來捕獲潛在的交通元素。這種方法導致計算資源分配效率低下，過多關注上游輔助任務而不是核心規劃模塊。例如，在 VAD 中，感知任務消耗了總運行時間的 34.6%，而規劃模塊僅占 5.7%。
協調復雜性：由于每個任務頭都使用不同的目標函數獨立優化，并且目標的形狀和語義含義各不相同，因此整個系統變得支離破碎，難以進行連貫訓練 [5]。

為了解決這些限制，本文提出一種范式 DiffAD，它將所有駕駛任務的優化統一到一個模型中，如圖 (b) 所示。具體來說，將感知、預測和規劃中的異??構目標柵格化到統一的鳥瞰圖 (BEV) 空間中，從而將自動駕駛問題重塑為條件圖像生成問題之一。

請添加圖片描述

擴散模型，也稱為基于分數的生成模型 [14, 39, 42]，在正向（擴散）過程中逐漸將噪聲注入數據，并通過反向（去噪）過程從噪聲中生成數據。

如圖所示，DiffAD 由三個主要組件組成：潛在擴散模型、BEV 特征生成器和軌跡提取網絡 (TEN)。

請添加圖片描述

訓練過程：

柵格化和潛空間編碼：DiffAD 首先將感知、預測和規劃目標柵格化為 BEV 圖像。然后使用現成的 VAE 編碼器將 BEV 圖像壓縮到潛空間以進行降維。
特征提取和轉換：將周圍視圖圖像輸入到特征提取器中，該提取器將生成的透視圖特征轉換為統一的 BEV 特征。
用于噪聲預測的擴散模型：將高斯噪聲添加到潛 BEV 圖像中以獲得噪聲潛圖像。訓練擴散模型以根據 BEV 特征預測來自噪聲潛表示的噪聲。
軌跡提取：訓練基于查詢的 TEN，從潛 BEV 圖像中恢復自我智體的矢量化軌跡。

推理過程：

條件去噪：DiffAD 首先根據 BEV 特征，從純高斯噪聲中生成去噪的潛 BEV 圖像。
規劃提取：TEN 然后從潛 BEV 圖像中提取自智體的規劃軌跡。
解碼 BEV：通過將潛 BEV 圖像解碼回像素空間，可以獲得預測的 BEV 圖像以供解釋和調試。

據說開環評估不足以滿足 E2E 模型的要求 [19, 26]。為了解決這個問題，用 Bench2Drive 數據集在 CARLA 模擬器中進行訓練和閉環評估[8]。Bench2Drive 提供三個數據子集：mini（10 個剪輯用于調試）、base（1,000 個剪輯）和 full（10,000 個剪輯用于大規模研究）。按照 [19] 的方法，用基礎子集進行訓練。

訓練。用來自 Stable Diffusion[36] 的現成預訓練變分自動編碼器 (VAE) 模型 [23]。VAE 編碼器的下采樣因子為 8。在所有實驗中，擴散模型都在潛空間中運行。保留來自 DiT [34] 的擴散超參。為了促進學習過程，在第一階段從感知部分（即檢測和地圖）的單幅圖像學習開始，而預測和規劃 BEV 圖像則用零填充。然后在時間設置中與所有感知、預測和規劃部分聯合訓練模型。

推理。利用 DDIM-10 采樣器 [40] 進行推理，并使用官方評估工具 [19] 來計算閉環指標。對于車輛控制，采用官方提供的 PID 控制器。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/74873.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/74873.shtml
英文地址，請注明出處：http://en.pswp.cn/web/74873.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！