1. BEVDet4D算法動機及開創性思路
1)BEVDet算法概述
-
輸入輸出:輸入為6視角圖像(NuScenes數據集),輸出為3D檢測結果
-
核心模塊:
- 圖像編碼器:由Backbone網絡和多尺度特征融合網絡組成,處理多視角圖像
- 視角轉換器:實現2D到3D的映射,生成Camera BEV特征
- BEV編碼器:結構與圖像編碼器相似,但輸入為BEV特征,輸出任務特定特征
- 檢測頭:完成3D目標檢測任務
-
細節優化:
- 過擬合問題:因BEV編碼器輸入特征量(單張BEV圖)遠小于圖像編碼器輸入(6張原圖),導致訓練不均衡
- SMS優化:通過尺度縮放優化后處理模塊性能
2)BEVDet4D算法動機
- 核心改進:在BEVDet基礎上引入T-1、T、T+1等時序幀
- 輸入變化:從單幀輸入擴展為時序多幀輸入
- 網絡結構:保持BEVDet四大模塊不變,新增時序特征處理模塊
- 關鍵挑戰:不同時刻BEV特征存在空間不對齊問題
- 示例說明:自車運動導致靜止車輛在BEV空間中的相對位置變化
- 錯誤示范:直接相加會導致同一物體在多個位置重復出現
3)時序特征融合的挑戰與對齊方法
-
對齊必要性:
- BEV空間以自車為坐標原點建立
- 自車運動導致歷史幀BEV特征空間錯位
-
解決方案:
- 兩階段處理:先做空間對齊(Align),再進行特征拼接(Concatenate)
- 數學原理:通過自車運動轉換矩陣消除坐標偏差
2. BEVDet4D主體結構
1)核心思路與時序信息
- 時序價值:
- 提供車輛朝向、速度等運動先驗
- 增強檢測連續性(如歷史軌跡預測當前狀態)
- 實現路徑:
- 各時刻獨立生成BEV特征
- 通過對齊模塊實現時空一致性
2)BEV特征獲取與對齊
- 特征生成:
- 各時刻沿用BEVDet流程:圖像編碼→視角轉換→BEV編碼
- 對齊操作:
- 靜態物體:通過自車運動補償實現位置校正
- 動態物體:結合自身運動軌跡進行對齊
3)時序對齊模塊詳解
- 坐標系系統:
- Og:全局坐標系(世界坐標),比如經緯度坐標
- Oe:自車坐標系(ego vehicle), 以自車為原點
- Os:靜止物體坐標系
- Om:運動物體坐標系
- 空間關系:
靜止物體:全局坐標不變,自車運動導致相對位置變化
運動物體:全局坐標和相對位置均變化
如圖中所示,如果直接把前后兩幀concate起來,會導致同一個靜態的物體出現在兩個不同的位置。(圖中第一行的示意圖)
如果先對齊再concate,就不會有問題了。
4)對齊公式推導與理解
-
位置偏差公式:
-
關鍵推導:
引入自車運動轉換矩陣
證明偏差主要來自自車運動
-
工程實現:
對歷史幀BEV特征應用運動補償矩陣
確保特征疊加時的空間一致性
5)BEVDet4D整體流程總結
- 標準流程:
- 各時刻獨立生成BEV特征
- 通過Align模塊對齊歷史特征
- Concatenate融合時序特征
- BEV編碼后送入檢測頭
- 創新要點:
- 首次在BEV框架中系統處理時序融合
- 提出基于運動補償的特征對齊方案
- 保持基礎網絡結構不變的情況下提升性能
3. BEVDet4D損失函數
- 通用性:采用通用檢測損失函數設計,未引入特殊創新
- 核心改進:關鍵在于特征對齊操作,解決時序融合時的空間不匹配問題
4. BEVDet4D性能對比
1)BEVDet4D訓練環境與設置
- 硬件配置:使用8張NVIDIA 3090顯卡
- 訓練參數:Batch size:8(實際photo batch為64)
- 訓練周期:20個epoch
- 性能優勢:相比BEVFormer、DETR3D等模型,在輕量化版本和標準版本上均表現出競爭力
2)消融研究:基線與方法對比
- 基線模型:輕量化BEVDet(mAP 0.312)
- 直接級聯問題:
- 方法A:直接級聯多幀特征(無對齊)
- 性能下降:導致空間不匹配,mAP和NDS指標均降低
- 平移對齊:
- 方法T:僅考慮自車平移變化
- 效果:相比基線有輕微提升(0.312→0.315)
3)消融研究:對齊操作的影響
- 偏移量預測:
- 方法B→C:引入額外模塊預測目標位置偏移量
- 改進方式:從speed預測變為offset預測
- 旋轉對齊:
- 方法E→F:增加自車旋轉量(R)對齊
- 效果提升:完整對齊(平移+旋轉)帶來顯著性能增益
4)消融研究:額外模塊與增廣的影響
- 額外BEV編碼器:
- 方法C→D:增加額外BEVEncoder(Extra)
- 功能:專門用于編碼融合特征
- 權重調整:
- 方法D→E:損失權重從0.2調整到1.0
- 時序增廣:
- 創新點:在時間維度進行采樣跨度增廣
- 作用:增強模型對歷史BEV特征選擇的魯棒性
5)時序融合位置的討論
- 融合位置選擇:
- Extra BEVEncoder:獨立編碼融合特征
- Before/After BEVEncoder:在編碼器前后進行融合
- BEVQuery階段:在查詢階段進行特征融合
- 工程價值:實驗設計系統全面,對工程實現具有明確指導意義