標題: Far3D: Expanding the Horizon for Surround-view 3D Object Detection
motivation
作者覺得市面上的方法對遠處的long-range 的3d-od檢測沒有深入研究,于是作者提出FAR3D. 基于環視圖像的3D物體檢測取得了顯著進展,且其部署成本較低。然而,大多數研究主要集中在近距離感知范圍內,而對遠距離檢測的探索較少。直接將現有方法擴展到覆蓋遠距離面臨著高計算成本和不穩定收斂等挑戰。為了解決這些限制,本文提出了一種新穎的稀疏查詢基礎框架,稱為Far3D。通過利用高質量的2D物體先驗,我們生成與3D全局查詢互補的3D自適應查詢。為了有效捕捉不同視角和尺度下的具有區分性的特征以應對遠距離物體,我們引入了一個感知視角聚合模塊。此外,我們提出了一種范圍調制3D去噪方法,以解決查詢誤差傳播并緩解遠距離任務中的收斂問題。值得注意的是,Far3D在挑戰性的Argoverse 2數據集上表現出最先進的性能,覆蓋150米的廣泛范圍,超越了多個基于LiDAR的方法。
[代碼] ( https://github.com/megvii-research/Far3D )
methods
- 將環視圖像輸入主干網絡和 FPN 層,編碼得到 2D 圖像特征,并將其與相機參數進行編碼。
- 利用 2D 檢測器和深度預測網絡,生成可靠的 2D 物體框及其相應深度,然后通過相機變換投影到 3D 空間。
- 生成的3D adaptive query 與初始的 3D global query 相結合,由解碼器層迭代回歸,以預測 3D 物體框。更進一步,該模型可通過長時序的 query 傳播實現時序建模。
背景介紹: 現有的環視感知方法可以大致分為兩類:基于BEV表征和基于稀疏查詢表征的方法。基于BEV表征的方法由于需要計算密集的BEV特征,計算量非常大,難以擴展到遠距離場景。而基于稀疏查詢表征的方法會從訓練數據中學習到全局的3D查詢,計算量相對較小,且具有較強的擴展性。然而,它也存在一些弱點,盡管可以避免查詢數量的平方增長,但全局固定查詢不易適應動態場景,在遠距離檢測中通常會遺漏目標。
在遠距離檢測中,基于稀疏 query 表征的方法有兩個主要挑戰:
- 首先是召回性能較差。由于 query 在 3D 空間分布的稀疏性,在遠距離范圍只能產生少量匹配的 positive query。如上圖所示,3D 檢測的召回率較低,而現有 2D 檢測的召回率要高得多,兩者之間存在明顯的性能差距。因此,利用高質量的 2D 物體先驗來改進 3D query 是一種很有潛力的方法,它有利于實現物體的精確定位和全面覆蓋。
- 其次,直接引入 2D 檢測結果來幫助 3D 檢測會面臨誤差傳播的問題。如下圖所示,兩種主要來源是 1) 由于深度預測不準的物體定位誤差;2) 隨著距離的增大,視錐變換中的 3D 位置誤差也會增大。這些 noisy query 會影響訓練的穩定性,需要有效的去噪方法來優化。此外,在訓練過程中,模型會表現出對密集的近距離物體過度擬合的傾向,而忽略稀疏分布的遠距離物體。
Adaptive Query Generation
具體方法:在 FPN 頸部之后,我們將圖像特征輸入 YOLOX 的無錨檢測頭和一個輕量級深度估計網絡,輸出 2D 框坐標、得分和深度圖。2D 檢測頭遵循原始設計,而深度估計則通過將深度離散化為多個區間被視為分類任務。然后,我們將 2D 框和相應的深度配對。為了避免低質量提議的干擾,我們設定了一個得分閾值 τ(例如 0.1),僅保留可靠的proposals。對于每個視圖 i,來自 2D 預測的框中心 (cw, ch) 和深度圖中的深度 depth 被組合并, 投影到 3D-proposal中心 c3d。
K,I內外參。
然后把它編碼到query中去:
生成的3D adaptive query 與初始的 3D global query 相結合,由解碼器層迭代回歸,以預測 3D 物體框。
Perspective-aware Aggregation
為了給遠距離檢測模型引入多尺度特征,作者應用了 3D spatial deformable attention。它先在 query 對應的 3D 位置附近進行偏移采樣,而后通過 3D-2D 視圖變換聚合圖像特征。這種方法替代 PETR 系列中的 global attention 的優勢在于,計算量可以大幅降低。具體地,對于 3D 空間中的每個 query 的參考點,模型會學習其周圍的 M 個采樣偏移,并將這些偏移點投影到不同的 2D 視圖特征中。
接下來,3D對象查詢根據上述的2D參考點P2d,與F 中的多尺度采樣特征進行交互。通過這種方式,來自不同視覺和尺度的多樣特征通過考慮它們的相對重要性聚合到3D查詢中。
Range-modulated 3D Denoising
不同距離的 3D query 具有不同的回歸難度,這不同于現有的 2D Denoising 方法(如 DN-DETR, 通常同等對待的2D query)。難度差異來自于 query 匹配密度和誤差傳播。一方面,與遠處物體相對應的 query 匹配度低于近處物體。另一方面,在 3D adaptive query 中引入二維先驗時,2D 物體框的微小誤差會被放大,更不用說這種影響會隨著物體距離的增加而增大。因此,GT 框附近的一些 query 可被視為 positive query,而其他有明顯偏差則應被視為 negative query。本文提出一種 3D Denoising 方法,旨在優化那些正樣本,并直接舍棄負樣本。
作者通過同時添加正樣本和負樣本組來構建基于 GT 的嘈雜查詢。對于這兩種類型,都會根據物體的位置和大小應用隨機噪聲,以促進遠距離感知中的去噪學習。具體來說,正樣本是在3D框內的隨機點,而負樣本則在GT上施加更大的偏移,偏移范圍隨著物體的距離變化。這種方法可以在訓練過程中模擬有噪聲的候選正樣本和誤報樣本;
experiments
Far3D 在 150m 感知范圍的 Argoverse 2 上取得了最高的性能。并且模型 scale up 之后,可以達到幾個 Lidar-based 方法的性能,展現了純視覺方法的潛力。
為了驗證泛化性能,作者也在 nuScenes 數據集上做了實驗,表明其在驗證集和測試集上都達到 SoTA 性能。
就是看的遠,好好好!
【完結】