從FCOS3D到PGD:看深度估計如何快速搭建你的3D檢測項目

【導讀】

還記得那個曾經在單目3D目標檢測領域掀起熱潮的 FCOS3D 嗎?在后續更新中他們又推出了全新升級版——PGD(Probabilistic and Geometric Depth)最有意思的是,這次他們徹底換了路線:從原先的“直接回歸深度”,轉向了一個更加聰明、更加魯棒的方向——結合幾何關系和深度不確定性來建模目標的3D位置。>>更多資訊可加入CV技術群獲取了解哦

你可以把?PGD?看作是?FCOS3D?的幾何感知增強版(FCOS3D++)。不僅在?KITTI?和?nuScenes?兩大主流數據集上拿下SOTA,更難得的是——它依然保持了實時推理的效率。

為什么深度估計會成為單目3D檢測中的最大瓶頸?PGD 是如何只改“頭部”模塊就實現顯著性能躍升的?這篇文章帶你詳細拆解這個“最聰明的升級方案”。

目錄

一、單目3D檢測難在哪?關鍵在“深”

二、FCOS3D 的基礎上,如何升級為 PGD?

概率建模(Probabilistic Depth Estimation)

幾何建模(Geometric Graph-based Propagation)

自適應融合(Depth Fusion with Learnable Attention)

三、實驗展示與評估結果

KITTI 數據集:單目檢測中的黃金指標

nuScenes 數據集:更復雜更全面的挑戰

消融實驗:每個模塊都“有價值”

誤差來源分析(Oracle Study)

總結


一、單目3D檢測難在哪?關鍵在“深”

相比于LiDAR和雙目視覺,單目圖像做3D檢測的最大挑戰是沒有直接的深度信息。PGD 作者對當前主流方法進行了系統性的分析,驚訝地發現:

只要深度估計不準,其他模塊再優秀也無法提高整體性能!

換句話說,“instance-level depth”是單目3D檢測的核心瓶頸。基于這個結論,作者大膽提出:我們不妨把單目3D檢測簡化為一個深度估計問題!


二、FCOS3D 的基礎上,如何升級為 PGD?

image.png

PGD 并不是從零設計一個新的檢測框架,而是繼承了?FCOS3D?的整體結構與優勢設計,并針對其中最關鍵的“深度估計”模塊進行專項改進。整體來看,PGD的升級路徑可劃分為三大核心技術模塊:

  • 概率建模(Probabilistic Depth Estimation

image.png

傳統 FCOS3D 是將深度作為一個連續值進行直接回歸,訓練不穩定、泛化能力較弱。PGD 在此基礎上新增一條“概率分支”:

  • 將深度范圍離散為多個區間(例如每10米一個區間);

  • 通過 Softmax 輸出一個概率分布;

  • 最終深度由分布的期望值計算得出;

  • 從分布中提取出的“置信分數”還能作為后續融合時的權重指標。

這種方式一方面增強了模型的穩定性,另一方面也為下一步“幾何傳播”提供了不確定性評估能力。

  • 幾何建模(Geometric Graph-based Propagation

image.png

FCOS3D 只對每個實例單點預測深度,完全忽略了圖像中多個物體間的相對位置與幾何關系。

PGD 則引入了一種透視幾何驅動的圖結構,每個檢測到的實例是圖中的一個節點,邊的方向代表深度傳播路徑。

  • 基于透視投影公式,推導任意兩個物體之間的相對深度關系;

  • 對于高置信度的“錨點物體”,可以推算出低置信度物體的深度;

  • 為避免誤差擴散,采用邊剪枝(edge pruning)和邊門控(edge gating)機制:優先考慮同類物體、距離較近、類別置信度相近的傳播路徑;最多保留 top-k 條邊用于計算;所有傳播過程無額外參數,僅作為輔助輸入。

這種圖結構相當于讓網絡“看懂透視規律”,從場景上下文中進行深度校準。

  • 自適應融合(Depth Fusion with Learnable Attention

得到了兩個深度預測值后(一個是局部概率估計的DL?,另一個是圖傳播后的DG?),PGD 并不手動加權,而是引入一個位置感知的融合權重圖α:?

image.png

這樣融合具有以下優勢:

  • 不同區域可根據實際復雜度自動決定更依賴哪一項;

  • 相比固定融合系數,更具場景自適應性;

  • 學習過程無額外引導,只在最終整體損失中回傳。


三、實驗展示與評估結果

PGD 的各項設計是否真的有效?作者在兩個權威自動駕駛數據集上(KITTI 和 nuScenes)進行了系統對比,結果如下:

  • KITTI 數據集:單目檢測中的黃金指標

在 3D IoU ≥ 0.7 的評估標準下,PGD 相比于 FCOS3D 提升非常明顯:

image.png

PGD 不僅在各項指標上全面超越,推理時間還縮短至 0.028s,達到 36FPS 實時水平,說明其引入的模塊幾乎無推理開銷。

  • nuScenes 數據集:更復雜更全面的挑戰

PGD 同樣在 nuScenes 數據集上展現出強勁性能,作為純視覺方法,其表現甚至超過了使用雷達融合的部分多模態方法:

image.png

尤其在 mAP 上,PGD 提升了近 3 個點,說明其對物體空間位置的預測更加準確。

  • 消融實驗:每個模塊都“有價值”

作者依次在 FCOS3D 基礎上加入 PGD 的各個模塊,展示它們對性能的實際貢獻:

image.png

說明 PGD 的每個設計都不是冗余的,而是為了解決明確問題、層層遞進所設。

  • 誤差來源分析(Oracle Study)

作者還特別做了一項“oracle 替換分析”——逐個將模型輸出替換為GT真值,觀察性能上限。結果發現:

image.png

只有深度估計準確后,其他預測才能發揮作用。

這也從實驗角度再次印證了 PGD 設計的正確方向——專注解決“深度估計”瓶頸,能成就整張檢測大圖。


總結

PGD 的貢獻,不在于構建一個復雜的網絡,而在于——

專注解決單目3D檢測中最關鍵的問題,用最合理的方式。

相比堆疊復雜子網絡或引入額外模態,PGD 展現了“從問題出發,設計目標模塊”的范式,是近年來值得借鑒的輕量級創新之一。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/88453.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/88453.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/88453.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Apache Cloudberry 向量化實踐(三)重塑表達式構建路徑:Gandiva 優化實戰

在向量化執行系統中,表達式構建是不可或缺的基礎環節。無論是 SQL 中的投影、篩選,還是分區、聚合、排序,最終都需轉化為底層執行引擎能識別和執行的表達式樹。而在 Apache Cloudberry 向量化執行框架中,這一過程由 Gandiva 表達式…

Windows刪除文件或者拔出U盤顯示正在使用/占用解決辦法

1、復制文件地址2、打開任務管理器,選擇左側【性能】3、打開資源監視器4、選擇資源監視器中的CPU5、粘貼你復制的占用文件地址6、除了explore.exe以外,其他的關聯的句柄都選中,然后右鍵結束

自由學習記錄(68)

🧠 blender為什么不用 M 或 T? 鍵位含義為什么沒選MMove?其實被用作「Move to Collection」等功能不符合歷史定義,而且功能太多了TTransform? 但 transform 是一個總稱(含移動、旋轉、縮放)T 被…

ReactNative【實戰系列教程】我的小紅書 8 -- 我(含左側彈窗菜單,右下角圖標等)

最終效果點左上角菜單按鈕,彈出左側菜單后代碼實現app/(tabs)/mine.tsx import icon_add from "/assets/icons/icon_add.png"; import mine_bg from "/assets/images/mine_bg.png"; import Heart from "/components/Heart"; import a…

C++性能優化實戰:從理論到落地的五大核心策略

在當今這個對計算效率要求極高的時代,C作為系統級編程語言的王者,其性能優化能力依然是無可替代的核心競爭力。本文將分享我在大型分布式系統開發中積累的C性能優化實戰經驗,這些經驗幫助我們將關鍵組件的吞吐量提升了300%,延遲降…

字節 Seed 團隊聯合清華大學智能產業研究院開源 MemAgent: 基于多輪對話強化學習記憶代理的長文本大語言模型重構

🔥 最新動態!!! [2025/07] 我們提供了快速啟動腳本,讓使用MemAgent變得超級簡單,詳情請見下方"快速入門"部分。[2025/06] 我們發布了RL-MemAgent-14B和RL-MemAgent-7B模型,在350萬token上下文任務中實現了近乎無損的性…

【unitrix】 4.20 類型級二進制數減法實現解析(sub.rs)

一、源碼 這段代碼實現了一個用于統計二進制補碼整數位數的系統,支持多種自定義數值類型(Z0、P1、N1、B0、B1)。 use core::mem::size_of; use crate::number::{Z0, P1, N1, B0, B1, Var};/// 統計二進制位數的 trait pub trait BitLength {f…

手把手教你安全刪除Anaconda虛擬環境(避坑指南)

文章目錄一、刪除前必看清單(超級重要)二、三種刪除方法對比(建議收藏)方法1:官方推薦命令(最安全)方法2:暴力刪除大法(快速但需謹慎)方法3:核彈級…

Effective Modern C++ 條款7:區分使用 `()` 和 `{}` 創建對象

在 C11 及以后的版本中,初始化對象的方式變得更加靈活,但也帶來了選擇上的困惑。() 和 {} 是兩種常見的初始化語法,它們在語義、行為和適用場景上有顯著差異。本文將通過具體示例,深入解析這兩種初始化方式的區別,并探…

Java基礎-String常用的方法

String常用的三種構造方法 public static void main(String[] args) {//1.使用常量字符串構造String s1 "1.Hello world";System.out.println(s1);//2.使用new關鍵字構造String s2 new String("2.Hello world");System.out.println(s2);//3。使用字符數組…

數學建模:多目標規劃:ε約束法、 理想點法

一、ε約束法定義ε約束法通過將部分目標函數轉化為約束條件,保留一個主要目標進行優化。1、選擇一個主要目標 fk?(x) 進行優化。2、其他目標 fi?(x) 轉化為約束 fi?(x)≤εi?,其中 εi? 是決策者設定的容許閾值。??原理????目標選擇??&…

linux kernel struct regmap_config結構詳解

在 Linux 內核中,struct regmap_config 是 ?Regmap 子系統的核心配置結構體,用于定義如何與底層硬件寄存器進行交互。Regmap(Register Map)子系統通過抽象不同總線(如 I2C、SPI、MMIO 等)的寄存器訪問細節…

【Python3教程】Python3高級篇之CGI編程

博主介紹:?全網粉絲23W+,CSDN博客專家、Java領域優質創作者,掘金/華為云/阿里云/InfoQ等平臺優質作者、專注于Java技術領域? 技術范圍:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大數據、物聯網、機器學習等設計與開發。 感興趣的可…

docker安裝Consul筆記

安裝過程 詳細步驟如下: 首先拉取Consul的Docker鏡像: docker pull hashicorp/consul:1.18.1創建Consul的配置文件和數據目錄: mkdir -p /srv/docker/consul/data mkdir -p /srv/docker/consul/config在config目錄下創建一個config.json配置文…

.net數據脫敏

.NET數據脫敏技術:保障數據安全的有效手段 在當今數字化時代,數據安全至關重要。尤其是涉及到用戶的敏感信息,如密碼、手機號碼等,必須采取有效的措施進行保護。數據脫敏就是這樣一種技術,它能夠在不影響數據可用性的…

【openp2p】 學習2:源碼閱讀P2PNetwork和P2PTunnel

【openp2p】 學習1:P2PApp和優秀的go跨平臺項目已經做了初步分析。閱讀原版工程,感覺工程是一個暴露內網服務端口,讓外部可以用的一個實現是一個完整的、跨平臺的可商業化的應用。感謝作者需要學習作者的設計思路工程構建 F:\GolandProjects\openp2p\core\p2pnetwork.go通常…

網安學習NO.14

防火墻基礎實驗 傳統防火墻配置實驗拓撲圖PC: ip 192.168.10.1 255.255.255.0 192.168.10.254 ip dns 114.114.114.114二層交換機 vl 10 ex int e0/0 sw mo ac sw ac vl 10 ex inr e0/1 sw tr en do sw mo tr三層交換機 vl 10 ex int g0/0 sw tr en do sw mo tr ex …

ESP32語音喚醒

兩種喚醒方式AfeWakeWord與EspWakeWord對比 底層技術 AfeWakeWord:基于ESP-IDF的AFE框架(esp_afe_sr_iface_t),高性能模式(AFE_MODE_HIGH_PERF)EspWakeWord:基于WakeNet接口(esp_wn_…

借助 Wisdom SSH AI 助手,輕松安裝 CentOS 8 LNMP 環境

打開Wisdom SSH軟件,在AI對話區輸入“在CentOS 8服務器安裝LNMP環境”,AI助手會按以下步驟分析并執行安裝: 安裝Nginx 分析:CentOS 8默認軟件源可能沒有Nginx,所以要先啟用Nginx官方軟件源,然后才能安裝Ngi…

WD0407 40V 7A 超級肖特基二極管,應用于開關汽車工業控制

WD0407 40V 7A 超級肖特基二極管說明? 產品概述? WD0407 是一款性能卓越的超級肖特基二極管,專為滿足現代電子設備對高效、可靠電源管理的需求而設計。它采用先進的半導體制造工藝,在諸多關鍵性能指標上表現出色,能夠為各類電路提供穩定、高…