登山第二十六梯：單目3D檢測一切—

文章目錄

一摘要

二資源

三內容

一摘要

????????盡管深度學習在近距離 3D 對象檢測方面取得了成功，但現有方法難以實現對新對象和相機配置的零鏡頭泛化。我們介紹了 DetAny3D，這是一種可提示的 3D 檢測基礎模型，能夠在任意相機配置下僅使用單目輸入檢測任何新物體。從根本上說，訓練用于 3D 檢測的基礎模型受到注釋 3D 數據可用性有限的限制，這促使 DetAny3D 利用嵌入在廣泛預訓練的 2D 基礎模型中的豐富先驗知識來彌補這種稀缺性。為了有效地將 2D 知識轉移到 3D 中，DetAny3D 整合了兩個核心模塊：2D Aggregator，用于對齊來自不同 2D 基礎模型的特征，以及具有零嵌入映射的 3D 解釋器，用于減少 2D 到 3D 知識轉移中的災難性遺忘。實驗結果驗證了DetAny3D 的強泛化性，它不僅在看不見的類別和新穎的相機配置上實現了最先進的性能，而且在域內數據方面也超越了大多數競爭對手。DetAny3D 闡明了 3D 基礎模型在實際場景中各種應用的潛力，例如自動駕駛中的稀有物體檢測，并展示了在開放世界環境中進一步探索以 3D 為中心的任務的前景。

二資源

文章：Detect Anything 3D in the Wild

代碼：https://github.com/OpenDriveLab/DetAny3D

日期：2025年

三內容

1）摘要

2）創新點

①開發了 DetAny3D，這是一種可提示的 3D 檢測基礎模型，能夠在現實世界場景中使用任意單目輸入檢測任何 3D 對象。

②DetAny3D 引入了 2D Aggregator，以有效地融合兩個 2D 基礎模型 SAM 和深度預訓練 DINO 的特征，它分別為各種對象提供樞軸形狀和 3D 幾何先驗。

③在 2D 到 3D 知識轉移中，DetAny3D 在 3D Interpreter 中涉及零嵌入映射，以解決災難性的遺忘困境，使模型能夠在具有不同相機參數、不同場景和不同深度分布的數據集之間穩定訓練。

④實驗結果表明 DetAny3D 具有顯著優勢，特別是在零鏡頭設置中使用任意相機參數準確檢測看不見的 3D 對象，展示了其在廣泛的實際應用中的潛力。

3）算法結構

????????如上圖（a）所示，DetAny3D 采用單目 RGB 圖像和提示（例如，框、點、文本、內部函數）作為輸入。框、點和文本提示用于指定對象，而內部提示是可選的。如果未提供，模型將預測固有參數和相應的 3D 檢測結果。如果 intrinsic 可用，模型可以將它們用作幾何約束，以減輕單目深度估計的病態性質并校準其檢測結果。

????????具體來說，單目圖像由兩個基礎模型并行嵌入：SAM用于低級像素信息，支撐著整個可提示架構。而深度預訓練的 DINO 提供了豐富的高級幾何知識，在與深度相關的任務中表現出色。然后，這些互補的 2D 特征通過我們提出的 2D 聚合器（參見圖（b））進行融合，它使用交叉注意力層對低級和高級信息進行分層對齊。融合的特征隨后被傳遞到深度/攝像頭模塊，該模塊提取攝像頭和攝像頭感知深度嵌入，統稱為幾何嵌入。

????????然后，幾何嵌入和帶有編碼提示標記的 3D 邊界框標記被饋送到 3D 解釋器中（參見圖（c）），它采用類似于 SAM 解碼器的結構以及專門的零嵌入映射（ZEM）機制。3D Interpreter 注入 3D 幾何特征，同時防止 2D 到 3D 知識傳遞中的災難性遺忘困境，實現漸進式 3D Grounding。最后，該模型根據 3D 包圍盒標記的隱藏狀態預測 3D 包圍盒。DetAny3D 在選定的可見類上進行訓練，可以零鏡頭方式檢測任何不可見的類。

A 2D Aggregator

????????為了有效地融合多個基礎模型，我們提出了 2D Aggregator 來聚合來自 SAM 和 DINO 的特征，從而減少它們異構表示之間的潛在沖突。如上圖（b）所示，2D Aggregator 以分層方式融合 SAM 和 DINO 的特征，逐步集成四個級聯對齊單元的空間和幾何信息。

????????特征提取：給定輸入圖像，SAM 編碼器提取高分辨率空間特征 Fs ∈ R Hs×Ws×C ，捕獲精細的細節和邊界。同時，DINO 編碼器輸出幾何感知嵌入 Fd ∈ R Hd×Wd×C ，它由 Unidepth 進行深度預訓練，并為深度和內部函數提供穩健的先驗。遵循 ViT 適配器的設計，還采用卷積結構來產生初步的圖像特征，表示為 F 0 q ，作為后續基于注意力的融合的初始查詢。

分級融合：四個對準單元中的每一個都通過交叉注意融合 SAM 和 DINO 功能。在第 i 個單元中，首先應用可學習的門控權重 αi（初始化為 0.5）來組合 SAM 特征 F i s 和 DINO 特征 F i d 的第 i 個塊，如下所示：

????????使用 F_i_fused作為鍵和值，而查詢特征 F_i?1_q 在交叉注意力機制中充當查詢：

????????這種設計使模型能夠在不同的層次結構級別動態強調 SAM 的空間細節或 DINO 的語義和幾何線索，同時最大限度地減少兩種表示之間的干擾。

幾何編碼：融合特征 F?i 融合的 i ∈ [1， 2， 3， 4] 隨后由深度和相機模塊處理，遵循 Unidepth 架構。具體來說，這些模塊預測相機嵌入 C 和相機感知深度嵌入 D|C，稱為幾何嵌入 G = {D|C， C}。這些模塊在單目深度病態問題下提供對齊的深度和相機參數。

????????總體而言，通過逐步調整多尺度特征并自適應地集成它們的貢獻，2D Aggregator 有效地利用了兩種基礎模型的優勢，同時最大限度地減少了潛在的沖突。

B 3D Interpreter

????????跨各種場景、深度和相機內部函數的不同 3D 對象監督給模型訓練帶來了挑戰。文章的 3D 解釋器旨在逐步整合幾何信息，同時防止 2D 到 3D 知識轉移中的災難性遺忘。引入了零嵌入映射（ZEM）機制，該機制通過零初始化層將 3D 幾何圖形逐步注入解碼器，而不會中斷原始 2D 特征。如上圖（c）所示，3D 解釋器由三個主要組件組成：Two-Way Transformer、Geometric Transformer 和 3D 邊界框頭。

Two-Way Transformer：按照 SAM 設計，我們首先將 3D 邊界框標記與 promptrelated 標記連接起來，形成查詢：

其中 T3D，i 表示第 i 個對象的 3D 邊界框標記，Tp，i 是與提示相關的標記，[·; ·] 表示向量連接。SAM 編碼器輸出 Fs 用作第一個 Two-Way Transformer 層的鍵和值，得到：

????????使用預先訓練的 SAM 解碼器復制 two-way transformer 的初始化參數。

Geometric Transformer：然后，我們零初始化的 1 × 1 卷積層 ZEM 處理幾何嵌入 G（來自 2D 聚合器），并將其添加到 Fs 中，用作幾何轉換器中的鍵和值：

????????ZEM 集成了幾何嵌入，避免了 2D 特征中的災難性遺忘。接下來，G′ 再次通過 ZEM 并與 F ′ s 結合。這種豐富的表示形式在第二個 Two-Way Transformer 圖層中用作鍵和值，以生成對象特征 O ：

????????ZEM 還有助于穩定雙向和幾何Transformer訓練中的參數更新，防止因不同的 3D 對象監控而引起的沖突。

3D Bounding Box Heads：最后，O 被輸入到 3D 邊界框頭中以計算最終預測，這遵循標準 3D 檢測框架的典型架構：B3D（x， y， z， w， h， l， R， S ）其中 x， y， z 指定 3D 框中心，w， h， l 是其維度，R 是旋轉矩陣， S 是預測的 3D 交交并比（IoU）分數。

4）實驗

A Dataset

????????DA3D Benchmark。我們推出了 DA3D，這是一個統一的 3D 檢測數據集，它聚合了 16 個不同的數據集，用于 3D 檢測和深度估計。在 Omni3D 的原始數據集（Hypersim、ARKitScenes、Objectron、SUNRGBD、KITTI 和 nuScenes）的基礎上，整合了另外四個室外檢測數據集（Argoverse2、A2D2、Waymo、Cityscapes3D）、一個室內檢測數據集（3RScan）和五個深度和內參數據集（Scannet、Taskonomy、DrivingStereo、Middlebury、 IBIMS-1）。所有數據都使用單目圖像、相機內參數、3D 邊界框和深度圖進行標準化。

B Baseline

????????Cube R-CNN和OVMono3D

C 未見類別推理

????????在本實驗中，使用兩個來源進行提示輸入：由 Grounding DINO 處理的文本提示和來自 groundtruth 2D 邊界框的框提示。在 KITTI、SUNRGBD 和 ARKitScenes 數據集上評估了模型，這些數據集具有與 OVMono3D 相同的零鏡頭類別。如下表（左）所示，與 OVMono3D 基線相比，DetAny3D 表現出卓越的零鏡頭適應性能。當使用 Grounding DINO 進行文本提示輸入時，文章方法在目標感知度量下實現了 KITTI 上 21.02 AP3D 、SUNRGBD 上 4.29 AP3D 和 ARKitScenes 上 11.35 AP3D 的顯著改進。當使用 2D 真實值作為框提示輸入時，DetAny3D 在 KITTI 上獲得 28.96 AP3D，在 SUNRGBD 上獲得 39.09 AP3D，在 ARKitScenes 上獲得 57.72 AP3D，分別比基線高出 3.4×、2.3× 和 4.1×。這種巨大的性能差距凸顯了文章方法推廣到新對象類別的增強能力。

D 新相機推理

????????為了評估新相機參數的魯棒性，進行了跨數據集評估，如上表（右）所示。對于 Cityscapes3D 和 Waymo，使用 Cube R-CNN 的 2D 檢測和地面實況作為框提示和 Grounding DINO 處理的文本提示進行比較。對于 3RScan，由于命名空間與 Cube R-CNN 的預定義類別不一致，并且存在新穎的類，只使用文本提示和真實框提示，與 OVMono3D 進行基準測試。DetAny3D 對未見相機配置表現出很強的適應性。當使用 Cube RCNN 對齊提示時，文章模型在 Cityscapes3D 和 Waymo 上分別獲得了 10.33 和 15.17 的 AP3D 分數，比 Cube R-CNN 高出 2.11 和 5.74。通過文本提示，在與 OVMono3D相同的設置下，文章方法在目標感知指標下將 AP3D 在 Cityscapes3D 上提高了 4.73 分，在 Waymo 上提高了 5.68 分，在 3RScan 上提高了 1.1 分。由于嚴重的命名歧義和缺失注釋，這兩個模型在 3RScan 的常規指標上都顯示得分較低。使用 2D 真實值作為框提示，DetAny3D 在三個數據集中獲得了 16.88、15.83 和 21.36 的 AP3D，分別比 OVMono3D 高出 6.82、5.6 和 3.31。這些結果突出了文章模型架構的有效性及其在具有任意相機配置的實際應用中的潛力。

E 域內檢測能力

????????還使用兩個提示源評估模型的域內檢測能力：來自 Cube R-CNN 的 2D 檢測和 2D 地面實況。除了統一模型之外，作者還在 Omni3D 上訓練模型以進行比較。如上表所示，當提供對齊輸入時，DetAny3D 使用 Cube R-CNN 獲得了有競爭力的檢測結果。此外，當使用 GT 作為 2D 提示時，DetAny3D 的性能明顯優于 OVMono3D，在 Omni3D 上的整體 AP3D 提高了 9.06。這種性能差距表明，當 Cube R-CNN 用作 2D 輸入時，Cube R-CNN 的限制部分限制了文章模型的性能。通過匹配更強的 2D 提示，文章模型有可能獲得更高的性能。

????????提供了來自開放世界檢測的定性示例。在每對圖像中，頂行由 OVMono3D 生成，底行由 DetAny3D 生成。對于每個示例，左側的子圖覆蓋了投影的 3D 邊界框，而右側的子圖顯示了相應的鳥瞰圖，背景為 1m×1m。

F 消融實驗

????????如上表所示，對 DetAny3D 的關鍵組件進行了消融研究，說明了從基于普通 SAM 的基線到能夠提取可推廣 3D 特征的成熟 DetAny3D 的演變。基本模型通過引入 3D 框標記和 3D 預測頭來擴展 SAM，從而實現直接 3D 邊界框估計。其他消融，包括 backbone 選擇和 prompt 類型。

5）結論

????????提出了 DetAny3D，這是一種可提示的 3D 檢測基礎模型，可以從任何單目圖像輸入中檢測任意 3D 對象。DetAny3D 在不同領域表現出顯著的零鏡頭檢測能力，以及在各種任務中有效的零鏡頭傳輸，突出了其在動態和非結構化環境中實際部署的適用性。此外，其靈活而強大的檢測能力為收集大規模、多源數據以執行更多 3D 感知引導任務打開了大門，為開放世界系統鋪平了道路。