背景
對于現有的BEVDet方法,它對于速度的預測誤差要高于基于點云的方法,對于像速度這種與時間有關的屬性,僅靠單幀數據很難預測好。因此本文提出了BEVDet4D,旨在獲取時間維度上的豐富信息。它是在BEVDet的基礎上進行拓展,保留了之前幀的BEV特征,并將其進行空間對齊后與當前幀對應BEV特征連接。在nuscenes數據集上證明其可行性發現,不僅速度誤差mAVE從0.909降低到0.337,在其他分數也有提升,mAP提升2.6%,NDS提升了8.4%,達到了42.1%mAP與54.5%NDS。
貢獻
- 在BEVDet的基礎上提出了時序融合,提出了空間對齊模塊,根據自車移動矩陣,將當前幀的坐標線性二插值回到前一幀特征圖取值。不過融合上只是采用了拼接操作。
- 提出了額外BEV編碼器,原理很簡單,但是使得BEV特征圖精細化,能夠更好適用于后續的時序融合模塊了。
具體方法
總體架構
這里使用的方法很簡單,架構就是BEVDet,為了捕獲時間信息,使用上一幀的BEV特征與當前特征圖進行合并,在這之前,還增加了對齊操作,而融合手段這里沒有深入探索,就是進行拼接操作。此外,由于視角轉換得到的特征圖太過粗糙,因此提供了一個額外BEV編碼器進一步加工,再交給后續融合。
空間對齊
這里有三個坐標系, O g ? X Y Z O_g-X Y Z Og??XYZ, O e ( T ) ? X Y Z O_{e(T)}-X Y Z Oe(T)??XYZ, O t ( T ) ? X Y Z O_{t(T)}-X Y Z Ot(T)??XYZ分別代表全局坐標系、自車在T時刻的坐標系,在T時刻的目標坐標系;對于目標物體的位置為 P x ( t ) P^x(t) Px(t),其中x∈{g,e(T),e(T-1)},代表坐標系,而t∈{T,T-1},因為我們只進行兩幀的融合; T s r c d s t T_{src}^{dst} Tsrcdst?代表從src坐標系到dst坐標系的變換矩陣。
相比于學習速度,這里選擇預測物體兩幀間的位移,并且對于位移要求與自車移動解耦,這是因為自車移動會使得位移變得復雜。舉例來說,靜態的物體在自車運動下,在自車坐標系下看是移動的,這是由于自車坐標系是以自車為中心。如果按照下面式子則會導致位移與自車移動相關。
P s e ( T ) ( T ) ? P s e ( T ? 1 ) ( T ? 1 ) = T g e ( T ) P