【導讀】
還記得那個曾經在單目3D目標檢測領域掀起熱潮的 FCOS3D 嗎?在后續更新中他們又推出了全新升級版——PGD(Probabilistic and Geometric Depth)最有意思的是,這次他們徹底換了路線:從原先的“直接回歸深度”,轉向了一個更加聰明、更加魯棒的方向——結合幾何關系和深度不確定性來建模目標的3D位置。>>更多資訊可加入CV技術群獲取了解哦
你可以把?PGD?看作是?FCOS3D?的幾何感知增強版(FCOS3D++)。不僅在?KITTI?和?nuScenes?兩大主流數據集上拿下SOTA,更難得的是——它依然保持了實時推理的效率。
為什么深度估計會成為單目3D檢測中的最大瓶頸?PGD 是如何只改“頭部”模塊就實現顯著性能躍升的?這篇文章帶你詳細拆解這個“最聰明的升級方案”。
目錄
一、單目3D檢測難在哪?關鍵在“深”
二、FCOS3D 的基礎上,如何升級為 PGD?
概率建模(Probabilistic Depth Estimation)
幾何建模(Geometric Graph-based Propagation)
自適應融合(Depth Fusion with Learnable Attention)
三、實驗展示與評估結果
KITTI 數據集:單目檢測中的黃金指標
nuScenes 數據集:更復雜更全面的挑戰
消融實驗:每個模塊都“有價值”
誤差來源分析(Oracle Study)
總結
一、單目3D檢測難在哪?關鍵在“深”
相比于LiDAR和雙目視覺,單目圖像做3D檢測的最大挑戰是沒有直接的深度信息。PGD 作者對當前主流方法進行了系統性的分析,驚訝地發現:
只要深度估計不準,其他模塊再優秀也無法提高整體性能!
換句話說,“instance-level depth”是單目3D檢測的核心瓶頸。基于這個結論,作者大膽提出:我們不妨把單目3D檢測簡化為一個深度估計問題!
二、FCOS3D 的基礎上,如何升級為 PGD?
PGD 并不是從零設計一個新的檢測框架,而是繼承了?FCOS3D?的整體結構與優勢設計,并針對其中最關鍵的“深度估計”模塊進行專項改進。整體來看,PGD的升級路徑可劃分為三大核心技術模塊:
-
概率建模(Probabilistic Depth Estimation)
傳統 FCOS3D 是將深度作為一個連續值進行直接回歸,訓練不穩定、泛化能力較弱。PGD 在此基礎上新增一條“概率分支”:
-
將深度范圍離散為多個區間(例如每10米一個區間);
-
通過 Softmax 輸出一個概率分布;
-
最終深度由分布的期望值計算得出;
-
從分布中提取出的“置信分數”還能作為后續融合時的權重指標。
這種方式一方面增強了模型的穩定性,另一方面也為下一步“幾何傳播”提供了不確定性評估能力。
-
幾何建模(Geometric Graph-based Propagation)
FCOS3D 只對每個實例單點預測深度,完全忽略了圖像中多個物體間的相對位置與幾何關系。
PGD 則引入了一種透視幾何驅動的圖結構,每個檢測到的實例是圖中的一個節點,邊的方向代表深度傳播路徑。
-
基于透視投影公式,推導任意兩個物體之間的相對深度關系;
-
對于高置信度的“錨點物體”,可以推算出低置信度物體的深度;
-
為避免誤差擴散,采用邊剪枝(edge pruning)和邊門控(edge gating)機制:優先考慮同類物體、距離較近、類別置信度相近的傳播路徑;最多保留 top-k 條邊用于計算;所有傳播過程無額外參數,僅作為輔助輸入。
這種圖結構相當于讓網絡“看懂透視規律”,從場景上下文中進行深度校準。
-
自適應融合(Depth Fusion with Learnable Attention)
得到了兩個深度預測值后(一個是局部概率估計的DL?,另一個是圖傳播后的DG?),PGD 并不手動加權,而是引入一個位置感知的融合權重圖α:?
這樣融合具有以下優勢:
-
不同區域可根據實際復雜度自動決定更依賴哪一項;
-
相比固定融合系數,更具場景自適應性;
-
學習過程無額外引導,只在最終整體損失中回傳。
三、實驗展示與評估結果
PGD 的各項設計是否真的有效?作者在兩個權威自動駕駛數據集上(KITTI 和 nuScenes)進行了系統對比,結果如下:
-
KITTI 數據集:單目檢測中的黃金指標
在 3D IoU ≥ 0.7 的評估標準下,PGD 相比于 FCOS3D 提升非常明顯:
PGD 不僅在各項指標上全面超越,推理時間還縮短至 0.028s,達到 36FPS 實時水平,說明其引入的模塊幾乎無推理開銷。
-
nuScenes 數據集:更復雜更全面的挑戰
PGD 同樣在 nuScenes 數據集上展現出強勁性能,作為純視覺方法,其表現甚至超過了使用雷達融合的部分多模態方法:
尤其在 mAP 上,PGD 提升了近 3 個點,說明其對物體空間位置的預測更加準確。
-
消融實驗:每個模塊都“有價值”
作者依次在 FCOS3D 基礎上加入 PGD 的各個模塊,展示它們對性能的實際貢獻:
說明 PGD 的每個設計都不是冗余的,而是為了解決明確問題、層層遞進所設。
-
誤差來源分析(Oracle Study)
作者還特別做了一項“oracle 替換分析”——逐個將模型輸出替換為GT真值,觀察性能上限。結果發現:
只有深度估計準確后,其他預測才能發揮作用。
這也從實驗角度再次印證了 PGD 設計的正確方向——專注解決“深度估計”瓶頸,能成就整張檢測大圖。
總結
PGD 的貢獻,不在于構建一個復雜的網絡,而在于——
專注解決單目3D檢測中最關鍵的問題,用最合理的方式。
相比堆疊復雜子網絡或引入額外模態,PGD 展現了“從問題出發,設計目標模塊”的范式,是近年來值得借鑒的輕量級創新之一。