從FCOS3D到PGD：看深度估計如何快速搭建你的3D檢測項目

從FCOS3D到PGD：看深度估計如何快速搭建你的3D檢測項目

pingmian/2025/7/12 22:05:54/文章來源:https://blog.csdn.net/CooVally_AI/article/details/149253815

【導讀】

還記得那個曾經在單目3D目標檢測領域掀起熱潮的 FCOS3D 嗎？在后續更新中他們又推出了全新升級版——PGD（Probabilistic and Geometric Depth）最有意思的是，這次他們徹底換了路線：從原先的“直接回歸深度”，轉向了一個更加聰明、更加魯棒的方向——結合幾何關系和深度不確定性來建模目標的3D位置。>>更多資訊可加入CV技術群獲取了解哦

你可以把?PGD?看作是?FCOS3D?的幾何感知增強版（FCOS3D++）。不僅在?KITTI?和?nuScenes?兩大主流數據集上拿下SOTA，更難得的是——它依然保持了實時推理的效率。

為什么深度估計會成為單目3D檢測中的最大瓶頸？PGD 是如何只改“頭部”模塊就實現顯著性能躍升的？這篇文章帶你詳細拆解這個“最聰明的升級方案”。

目錄

一、單目3D檢測難在哪？關鍵在“深”

二、FCOS3D 的基礎上，如何升級為 PGD？

概率建模（Probabilistic Depth Estimation）

幾何建模（Geometric Graph-based Propagation）

自適應融合（Depth Fusion with Learnable Attention）

三、實驗展示與評估結果

KITTI 數據集：單目檢測中的黃金指標

nuScenes 數據集：更復雜更全面的挑戰

消融實驗：每個模塊都“有價值”

誤差來源分析（Oracle Study）

總結

一、單目3D檢測難在哪？關鍵在“深”

相比于LiDAR和雙目視覺，單目圖像做3D檢測的最大挑戰是沒有直接的深度信息。PGD 作者對當前主流方法進行了系統性的分析，驚訝地發現：

只要深度估計不準，其他模塊再優秀也無法提高整體性能！

換句話說，“instance-level depth”是單目3D檢測的核心瓶頸。基于這個結論，作者大膽提出：我們不妨把單目3D檢測簡化為一個深度估計問題！

二、FCOS3D 的基礎上，如何升級為 PGD？

PGD 并不是從零設計一個新的檢測框架，而是繼承了?FCOS3D?的整體結構與優勢設計，并針對其中最關鍵的“深度估計”模塊進行專項改進。整體來看，PGD的升級路徑可劃分為三大核心技術模塊：

概率建模（Probabilistic Depth Estimation）

傳統 FCOS3D 是將深度作為一個連續值進行直接回歸，訓練不穩定、泛化能力較弱。PGD 在此基礎上新增一條“概率分支”：

將深度范圍離散為多個區間（例如每10米一個區間）；
通過 Softmax 輸出一個概率分布；
最終深度由分布的期望值計算得出；
從分布中提取出的“置信分數”還能作為后續融合時的權重指標。

這種方式一方面增強了模型的穩定性，另一方面也為下一步“幾何傳播”提供了不確定性評估能力。

幾何建模（Geometric Graph-based Propagation）

FCOS3D 只對每個實例單點預測深度，完全忽略了圖像中多個物體間的相對位置與幾何關系。

PGD 則引入了一種透視幾何驅動的圖結構，每個檢測到的實例是圖中的一個節點，邊的方向代表深度傳播路徑。

基于透視投影公式，推導任意兩個物體之間的相對深度關系；
對于高置信度的“錨點物體”，可以推算出低置信度物體的深度；
為避免誤差擴散，采用邊剪枝（edge pruning）和邊門控（edge gating）機制：優先考慮同類物體、距離較近、類別置信度相近的傳播路徑；最多保留 top-k 條邊用于計算；所有傳播過程無額外參數，僅作為輔助輸入。

這種圖結構相當于讓網絡“看懂透視規律”，從場景上下文中進行深度校準。

自適應融合（Depth Fusion with Learnable Attention）

得到了兩個深度預測值后（一個是局部概率估計的DL?，另一個是圖傳播后的DG?），PGD 并不手動加權，而是引入一個位置感知的融合權重圖α：?

這樣融合具有以下優勢：

不同區域可根據實際復雜度自動決定更依賴哪一項；
相比固定融合系數，更具場景自適應性；
學習過程無額外引導，只在最終整體損失中回傳。

三、實驗展示與評估結果

PGD 的各項設計是否真的有效？作者在兩個權威自動駕駛數據集上（KITTI 和 nuScenes）進行了系統對比，結果如下：

KITTI 數據集：單目檢測中的黃金指標

在 3D IoU ≥ 0.7 的評估標準下，PGD 相比于 FCOS3D 提升非常明顯：

PGD 不僅在各項指標上全面超越，推理時間還縮短至 0.028s，達到 36FPS 實時水平，說明其引入的模塊幾乎無推理開銷。

nuScenes 數據集：更復雜更全面的挑戰

PGD 同樣在 nuScenes 數據集上展現出強勁性能，作為純視覺方法，其表現甚至超過了使用雷達融合的部分多模態方法：

尤其在 mAP 上，PGD 提升了近 3 個點，說明其對物體空間位置的預測更加準確。

消融實驗：每個模塊都“有價值”

作者依次在 FCOS3D 基礎上加入 PGD 的各個模塊，展示它們對性能的實際貢獻：

說明 PGD 的每個設計都不是冗余的，而是為了解決明確問題、層層遞進所設。

誤差來源分析（Oracle Study）

作者還特別做了一項“oracle 替換分析”——逐個將模型輸出替換為GT真值，觀察性能上限。結果發現：

只有深度估計準確后，其他預測才能發揮作用。

這也從實驗角度再次印證了 PGD 設計的正確方向——專注解決“深度估計”瓶頸，能成就整張檢測大圖。

總結

PGD 的貢獻，不在于構建一個復雜的網絡，而在于——

專注解決單目3D檢測中最關鍵的問題，用最合理的方式。

相比堆疊復雜子網絡或引入額外模態，PGD 展現了“從問題出發，設計目標模塊”的范式，是近年來值得借鑒的輕量級創新之一。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/88453.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/88453.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/88453.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Apache Cloudberry 向量化實踐（三）重塑表達式構建路徑：Gandiva 優化實戰

Apache Cloudberry 向量化實踐（三）重塑表達式構建路徑：Gandiva 優化實戰

在向量化執行系統中，表達式構建是不可或缺的基礎環節。無論是 SQL 中的投影、篩選，還是分區、聚合、排序，最終都需轉化為底層執行引擎能識別和執行的表達式樹。而在 Apache Cloudberry 向量化執行框架中，這一過程由 Gandiva 表達式…

閱讀更多...

Windows刪除文件或者拔出U盤顯示正在使用/占用解決辦法

Windows刪除文件或者拔出U盤顯示正在使用/占用解決辦法

1、復制文件地址2、打開任務管理器，選擇左側【性能】3、打開資源監視器4、選擇資源監視器中的CPU5、粘貼你復制的占用文件地址6、除了explore.exe以外，其他的關聯的句柄都選中，然后右鍵結束

閱讀更多...

自由學習記錄（68）

自由學習記錄（68）

🧠 blender為什么不用 M 或 T？ 鍵位含義為什么沒選MMove？其實被用作「Move to Collection」等功能不符合歷史定義，而且功能太多了TTransform？ 但 transform 是一個總稱（含移動、旋轉、縮放）T 被…

閱讀更多...

ReactNative【實戰系列教程】我的小紅書 8 -- 我（含左側彈窗菜單，右下角圖標等）

ReactNative【實戰系列教程】我的小紅書 8 -- 我（含左側彈窗菜單，右下角圖標等）

最終效果點左上角菜單按鈕，彈出左側菜單后代碼實現app/(tabs)/mine.tsx import icon_add from "/assets/icons/icon_add.png"; import mine_bg from "/assets/images/mine_bg.png"; import Heart from "/components/Heart"; import a…

閱讀更多...

C++性能優化實戰：從理論到落地的五大核心策略

C++性能優化實戰：從理論到落地的五大核心策略

在當今這個對計算效率要求極高的時代，C作為系統級編程語言的王者，其性能優化能力依然是無可替代的核心競爭力。本文將分享我在大型分布式系統開發中積累的C性能優化實戰經驗，這些經驗幫助我們將關鍵組件的吞吐量提升了300%，延遲降…

閱讀更多...

字節 Seed 團隊聯合清華大學智能產業研究院開源 MemAgent: 基于多輪對話強化學習記憶代理的長文本大語言模型重構

字節 Seed 團隊聯合清華大學智能產業研究院開源 MemAgent: 基于多輪對話強化學習記憶代理的長文本大語言模型重構

🔥 最新動態!!! [2025/07] 我們提供了快速啟動腳本，讓使用MemAgent變得超級簡單，詳情請見下方"快速入門"部分。[2025/06] 我們發布了RL-MemAgent-14B和RL-MemAgent-7B模型，在350萬token上下文任務中實現了近乎無損的性…

閱讀更多...

【unitrix】 4.20 類型級二進制數減法實現解析(sub.rs)

【unitrix】 4.20 類型級二進制數減法實現解析(sub.rs)

一、源碼這段代碼實現了一個用于統計二進制補碼整數位數的系統，支持多種自定義數值類型（Z0、P1、N1、B0、B1）。 use core::mem::size_of; use crate::number::{Z0, P1, N1, B0, B1, Var};/// 統計二進制位數的 trait pub trait BitLength {f…

閱讀更多...

手把手教你安全刪除Anaconda虛擬環境（避坑指南）

手把手教你安全刪除Anaconda虛擬環境（避坑指南）

文章目錄一、刪除前必看清單（超級重要）二、三種刪除方法對比（建議收藏）方法1：官方推薦命令（最安全）方法2：暴力刪除大法（快速但需謹慎）方法3：核彈級…

閱讀更多...

Effective Modern C++ 條款7：區分使用 `()` 和 `{}` 創建對象

Effective Modern C++ 條款7：區分使用 `()` 和 `{}` 創建對象

在 C11 及以后的版本中，初始化對象的方式變得更加靈活，但也帶來了選擇上的困惑。() 和 {} 是兩種常見的初始化語法，它們在語義、行為和適用場景上有顯著差異。本文將通過具體示例，深入解析這兩種初始化方式的區別，并探…

閱讀更多...

Java基礎-String常用的方法

Java基礎-String常用的方法

String常用的三種構造方法 public static void main(String[] args) {//1.使用常量字符串構造String s1 "1.Hello world";System.out.println(s1);//2.使用new關鍵字構造String s2 new String("2.Hello world");System.out.println(s2);//3。使用字符數組…

閱讀更多...

數學建模：多目標規劃：ε約束法、理想點法

數學建模：多目標規劃：ε約束法、理想點法

一、ε約束法定義ε約束法通過將部分目標函數轉化為約束條件，保留一個主要目標進行優化。1、選擇一個主要目標 fk?(x) 進行優化。2、其他目標 fi?(x) 轉化為約束 fi?(x)≤εi?，其中 εi? 是決策者設定的容許閾值。??原理????目標選擇??&…

閱讀更多...

linux kernel struct regmap_config結構詳解

linux kernel struct regmap_config結構詳解

在 Linux 內核中，struct regmap_config 是 ?Regmap 子系統的核心配置結構體，用于定義如何與底層硬件寄存器進行交互。Regmap（Register Map）子系統通過抽象不同總線（如 I2C、SPI、MMIO 等）的寄存器訪問細節…

閱讀更多...

【Python3教程】Python3高級篇之CGI編程

【Python3教程】Python3高級篇之CGI編程

博主介紹：?全網粉絲23W+，CSDN博客專家、Java領域優質創作者，掘金/華為云/阿里云/InfoQ等平臺優質作者、專注于Java技術領域? 技術范圍：SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大數據、物聯網、機器學習等設計與開發。感興趣的可…

閱讀更多...

docker安裝Consul筆記

docker安裝Consul筆記

安裝過程詳細步驟如下： 首先拉取Consul的Docker鏡像： docker pull hashicorp/consul:1.18.1創建Consul的配置文件和數據目錄： mkdir -p /srv/docker/consul/data mkdir -p /srv/docker/consul/config在config目錄下創建一個config.json配置文…

閱讀更多...

.net數據脫敏

.net數據脫敏

.NET數據脫敏技術：保障數據安全的有效手段在當今數字化時代，數據安全至關重要。尤其是涉及到用戶的敏感信息，如密碼、手機號碼等，必須采取有效的措施進行保護。數據脫敏就是這樣一種技術，它能夠在不影響數據可用性的…

閱讀更多...

【openp2p】學習2：源碼閱讀P2PNetwork和P2PTunnel

【openp2p】學習2：源碼閱讀P2PNetwork和P2PTunnel

【openp2p】學習1：P2PApp和優秀的go跨平臺項目已經做了初步分析。閱讀原版工程，感覺工程是一個暴露內網服務端口，讓外部可以用的一個實現是一個完整的、跨平臺的可商業化的應用。感謝作者需要學習作者的設計思路工程構建 F:\GolandProjects\openp2p\core\p2pnetwork.go通常…

閱讀更多...

網安學習NO.14

網安學習NO.14

防火墻基礎實驗傳統防火墻配置實驗拓撲圖PC： ip 192.168.10.1 255.255.255.0 192.168.10.254 ip dns 114.114.114.114二層交換機 vl 10 ex int e0/0 sw mo ac sw ac vl 10 ex inr e0/1 sw tr en do sw mo tr三層交換機 vl 10 ex int g0/0 sw tr en do sw mo tr ex …

閱讀更多...

ESP32語音喚醒

ESP32語音喚醒

兩種喚醒方式AfeWakeWord與EspWakeWord對比底層技術 AfeWakeWord：基于ESP-IDF的AFE框架（esp_afe_sr_iface_t），高性能模式（AFE_MODE_HIGH_PERF）EspWakeWord：基于WakeNet接口（esp_wn_…

閱讀更多...

借助 Wisdom SSH AI 助手，輕松安裝 CentOS 8 LNMP 環境

借助 Wisdom SSH AI 助手，輕松安裝 CentOS 8 LNMP 環境

打開Wisdom SSH軟件，在AI對話區輸入“在CentOS 8服務器安裝LNMP環境”，AI助手會按以下步驟分析并執行安裝： 安裝Nginx 分析：CentOS 8默認軟件源可能沒有Nginx，所以要先啟用Nginx官方軟件源，然后才能安裝Ngi…

閱讀更多...

WD0407 40V 7A 超級肖特基二極管，應用于開關汽車工業控制

WD0407 40V 7A 超級肖特基二極管，應用于開關汽車工業控制

WD0407 40V 7A 超級肖特基二極管說明? 產品概述? WD0407 是一款性能卓越的超級肖特基二極管，專為滿足現代電子設備對高效、可靠電源管理的需求而設計。它采用先進的半導體制造工藝，在諸多關鍵性能指標上表現出色，能夠為各類電路提供穩定、高…

閱讀更多...

最新文章