純視覺下的稀疏場景表示
算法動機&開創性思路
算法動機:
- 依賴于計算成本高昂的鳥瞰圖(BEV)特征表示。
- 預測和規劃的設計過于直接,沒有充分利用周圍代理和自我車輛之間的高階和雙向交互。
- 場景信息是在agent周圍提取,沒有考慮到自我車輛對周圍代理的影響,忽略了自我車輛在運動預測和規劃中的作用。
- 運動預測和規劃都被視為多模態問題,但現有方法只預測確定性的軌跡,沒有考慮到內在的不確定性。
開創性思路:為了解決以上問題,
? ? ? ? 1.通過稀疏場景表示和重新設計的預測與規劃任務,提高了自動駕駛系統的性能和效率,特別是在規劃安全性方面。
? ? ? ? 2.SparseDrive包含對稱的稀疏感知模塊和并行運動規劃器,通過有效的設計,實現了在所有任務中的性能提升,同時保持了更高的訓練和推理效率。
? ? ? ? 3.修改了運動預測和規劃之間的巨大相似性,串級模塊,提出了一種分層規劃選擇策略
主體結構
輸入:6圖感知,輸出:自車規劃模塊以及其他Agent規劃模塊
+---------------------+
| SparseDrive |
+---------------------+
| use_grid_mask |
| use_deformable_func|
+---------------------+
| img_backbone (ResNet)|
| img_neck (FPN) |
| depth_branch |
+---------------------+
| head |
+---------------------+
| det_head (Sparse4DHead)|
| map_head (Sparse4DHead)|
| motion_plan_head (MotionPlanningHead)|
+---------------------+
包括特征提取(ImageEncoder),對稱稀疏感知(SymmetricSparsePerception),平行運動規劃器(ParallelMotionPlanner)
對稱稀疏感知,主要包括稀疏檢測,稀疏在線建圖,稀疏跟蹤模塊
圖像編碼:
給定多視圖圖像,圖像編碼器(包括主干網絡和頸部)首先將圖像編碼為多尺度特征圖,其中S是尺度數,N是camera圖數
對稱稀疏感知模塊:
如下圖,特征圖被聚合成2組實例,來學習駕駛場景稀疏表示,倆組實例分別代表周圍智能體Initialized Detection Instances 是數據集里的anchor,(x,y,z,lnw,lnh,lnl,sin yaw,cos yaw,vx,vy,vz)和地圖元素Initialized Map Instances (x0,y0,x1,y1...xNp-1,yNp-1)
Feature Maps是6張圖特征
平行運動規劃器:
自車Ego軌跡預測和其他Agent的軌跡預測應該合并成一個任務,具有相互影響
Ego Insitance初始化:和其他模Agent不一樣,在相機視角下,是處于盲區的,Ego的特征是采用前視視角下圖像特征圖,并且在ResNet在輸出多尺度特征取得最小特征圖后平均池化去作為Ego特征初始化,Ego Anchor對于x,y,yaw是每一幀定義好,但是速度,加速度會讓主車根據運動屬性使得模型學習shortcut,不利于學習主車自主交互,所以用T-1時刻狀態進行預測,作為輔助任務進行Loss監督
新的范式:
?
-
稀疏場景表示(Sparse Scene Representation):
- SparseDrive采用了稀疏表示來學習駕駛場景的完整表示,這種表示通過對稱的稀疏感知模塊實現,該模塊統一了檢測、跟蹤和在線映射任務。
-
對稱稀疏感知模塊(Symmetric Sparse Perception Module):
- 該模塊通過結構對稱性,將檢測、跟蹤和在線映射集成到一個模型架構中,學習場景的稀疏表示。
-
并行運動規劃器(Parallel Motion Planner):
- SparseDrive的并行運動規劃器同時進行運動預測和規劃,考慮了自我車輛和周圍代理之間的高階和雙向交互。
-
層次化規劃選擇策略(Hierarchical Planning Selection Strategy):
- 該策略包括一個碰撞感知重分模塊(Collision-Aware Rescore Module),用于從多模態軌跡提議中選擇一個合理且安全的軌跡作為最終規劃輸出。
-
端到端學習(End-to-End Learning):
- SparseDrive采用多階段訓練方法,首先分別訓練稀疏感知模塊,然后在第二階段聯合訓練稀疏感知模塊和并行運動規劃器,實現端到端優化。
-
效率優化:
- 論文中提出的SparseDrive在保持高性能的同時,還實現了更高的訓練和推理效率。
通過這些設計,SparseDrive能夠在所有任務中實現比之前最先進方法更高的性能,同時在訓練和推理效率上也有顯著提升。具體來說,SparseDrive在nuScenes基準測試中超越了先前的最先進方法,尤其是在安全性關鍵指標碰撞率方面,同時保持了更高的訓練和推理效率
損失函數
Loss : L = Ldet + Lmap + Lmotion + Lplan + Ldepth
Stage1:從頭開始訓練對稱稀疏感知模塊,以學習稀疏場景表示
Stage2:稀疏感知模塊和并行運動規劃期一起訓練
性能對比
3D detection results,Multi-object tracking results ,Online mapping results
Prediction Results,Planning results
效率對比,平行運動規劃器中的各模塊消融實驗
總結:
A: 這篇論文提出了SparseDrive,一種新穎的端到端自動駕駛范式,旨在通過稀疏場景表示和優化的任務設計來提高自動駕駛系統的性能和效率。以下是論文的主要內容總結:
-
問題識別:傳統的自動駕駛系統采用模塊化設計,導致信息丟失和誤差累積。現有的端到端方法在性能和效率上,特別是在規劃安全性方面,仍有不足。
-
SparseDrive范式:提出了SparseDrive,一種新的端到端自動駕駛范式,它利用稀疏表示來統一處理檢測、跟蹤、在線映射、運動預測和規劃任務。
-
關鍵組件:
- 對稱稀疏感知模塊:通過結構對稱性,同時處理檢測、跟蹤和在線映射任務。
- 并行運動規劃器:同時進行運動預測和規劃,考慮自我車輛與周圍代理的交互。
-
層次化規劃選擇策略:提出了一種策略,通過碰撞感知重分模塊來選擇安全合理的軌跡。
-
端到端學習:采用分階段訓練方法,先分別訓練感知模塊,然后聯合訓練感知和規劃模塊,實現端到端優化。
-
實驗驗證:在nuScenes數據集上進行了廣泛的實驗,證明了SparseDrive在3D檢測、多目標跟蹤、在線映射、運動預測和規劃任務中的性能均優于現有最先進方法。
-
效率提升:SparseDrive在保持高性能的同時,顯著提高了訓練和推理的效率。
-
消融研究:通過消融實驗,展示了SparseDrive設計選擇的有效性,包括運動規劃器的設計、碰撞感知重分模塊和多模態規劃的重要性。
-
未來工作:論文指出了端到端模型在性能、數據集規模、安全性評估等方面的局限性,并提出了未來探索的方向。
-
代碼開源:論文承諾將SparseDrive的代碼開源,以促進未來研究。
SparseDrive通過其創新的設計和方法,在自動駕駛領域提供了一種有效的解決方案,推動了端到端自動駕駛技術的發展