登山第二十六梯:單目3D檢測一切——一只眼看世界

文章目錄

一 摘要

二 資源

三 內容


一 摘要

????????盡管深度學習在近距離 3D 對象檢測方面取得了成功,但現有方法難以實現對新對象和相機配置的零鏡頭泛化。我們介紹了 DetAny3D,這是一種可提示的 3D 檢測基礎模型,能夠在任意相機配置下僅使用單目輸入檢測任何新物體。從根本上說,訓練用于 3D 檢測的基礎模型受到注釋 3D 數據可用性有限的限制,這促使 DetAny3D 利用嵌入在廣泛預訓練的 2D 基礎模型中的豐富先驗知識來彌補這種稀缺性。為了有效地將 2D 知識轉移到 3D 中,DetAny3D 整合了兩個核心模塊:2D Aggregator,用于對齊來自不同 2D 基礎模型的特征,以及具有零嵌入映射的 3D 解釋器,用于減少 2D 到 3D 知識轉移中的災難性遺忘。實驗結果驗證了DetAny3D 的強泛化性,它不僅在看不見的類別和新穎的相機配置上實現了最先進的性能,而且在域內數據方面也超越了大多數競爭對手。DetAny3D 闡明了 3D 基礎模型在實際場景中各種應用的潛力,例如自動駕駛中的稀有物體檢測,并展示了在開放世界環境中進一步探索以 3D 為中心的任務的前景。

二 資源

文章:Detect Anything 3D in the Wild

代碼:https://github.com/OpenDriveLab/DetAny3D

日期:2025

三 內容

1)摘要

????????盡管深度學習在近距離 3D 對象檢測方面取得了成功,但現有方法難以實現對新對象和相機配置的零鏡頭泛化。我們介紹了 DetAny3D,這是一種可提示的 3D 檢測基礎模型,能夠在任意相機配置下僅使用單目輸入檢測任何新物體。從根本上說,訓練用于 3D 檢測的基礎模型受到注釋 3D 數據可用性有限的限制,這促使 DetAny3D 利用嵌入在廣泛預訓練的 2D 基礎模型中的豐富先驗知識來彌補這種稀缺性。為了有效地將 2D 知識轉移到 3D 中,DetAny3D 整合了兩個核心模塊:2D Aggregator,用于對齊來自不同 2D 基礎模型的特征,以及具有零嵌入映射的 3D 解釋器,用于減少 2D 到 3D 知識轉移中的災難性遺忘。實驗結果驗證了DetAny3D 的強泛化性,它不僅在看不見的類別和新穎的相機配置上實現了最先進的性能,而且在域內數據方面也超越了大多數競爭對手。DetAny3D 闡明了 3D 基礎模型在實際場景中各種應用的潛力,例如自動駕駛中的稀有物體檢測,并展示了在開放世界環境中進一步探索以 3D 為中心的任務的前景。

2)創新點

開發了 DetAny3D,這是一種可提示的 3D 檢測基礎模型,能夠在現實世界場景中使用任意單目輸入檢測任何 3D 對象。

DetAny3D 引入了 2D Aggregator,以有效地融合兩個 2D 基礎模型 SAM 和深度預訓練 DINO 的特征,它分別為各種對象提供樞軸形狀和 3D 幾何先驗。

在 2D 到 3D 知識轉移中,DetAny3D 在 3D Interpreter 中涉及零嵌入映射,以解決災難性的遺忘困境,使模型能夠在具有不同相機參數、不同場景和不同深度分布的數據集之間穩定訓練。

實驗結果表明 DetAny3D 具有顯著優勢,特別是在零鏡頭設置中使用任意相機參數準確檢測看不見的 3D 對象,展示了其在廣泛的實際應用中的潛力。

3)算法結構

????????如上圖(a) 所示,DetAny3D 采用單目 RGB 圖像和提示(例如,框、點、文本、內部函數)作為輸入。框、點和文本提示用于指定對象,而內部提示是可選的。如果未提供,模型將預測固有參數和相應的 3D 檢測結果。如果 intrinsic 可用,模型可以將它們用作幾何約束,以減輕單深度估計的病態性質并校準其檢測結果。

????????具體來說,單目圖像由兩個基礎模型并行嵌入:SAM用于低級像素信息,支撐著整個可提示架構。而深度預訓練的 DINO 提供了豐富的高級幾何知識,在與深度相關的任務中表現出色。然后,這些互補的 2D 特征通過我們提出的 2D 聚合器(參見圖 (b))進行融合,它使用交叉注意力層對低級和高級信息進行分層對齊。融合的特征隨后被傳遞到深度/攝像頭模塊,該模塊提取攝像頭和攝像頭感知深度嵌入,統稱為幾何嵌入。

????????然后,幾何嵌入和帶有編碼提示標記的 3D 邊界框標記被饋送到 3D 解釋器中(參見圖(c)),它采用類似于 SAM 解碼器的結構以及專門的零嵌入映射 (ZEM) 機制。3D Interpreter 注入 3D 幾何特征,同時防止 2D 到 3D 知識傳遞中的災難性遺忘困境,實現漸進式 3D Grounding。最后,該模型根據 3D 包圍盒標記的隱藏狀態預測 3D 包圍盒。DetAny3D 在選定的可見類上進行訓練,可以零鏡頭方式檢測任何不可見的類。

A 2D Aggregator

????????為了有效地融合多個基礎模型,我們提出了 2D Aggregator 來聚合來自 SAM 和 DINO 的特征,從而減少它們異構表示之間的潛在沖突。如上圖(b) 所示,2D Aggregator 以分層方式融合 SAM 和 DINO 的特征,逐步集成四個級聯對齊單元的空間和幾何信息。

????????特征提取:給定輸入圖像,SAM 編碼器提取高分辨率空間特征 Fs ∈ R Hs×Ws×C ,捕獲精細的細節和邊界。同時,DINO 編碼器輸出幾何感知嵌入 Fd ∈ R Hd×Wd×C ,它由 Unidepth 進行深度預訓練,并為深度和內部函數提供穩健的先驗。遵循 ViT 適配器的設計,還采用卷積結構來產生初步的圖像特征,表示為 F 0 q ,作為后續基于注意力的融合的初始查詢

分級融合:四個對準單元中的每一個都通過交叉注意融合 SAM 和 DINO 功能。在第 i 個單元中,首先應用可學習的門控權重 αi(初始化為 0.5)來組合 SAM 特征 F i s 和 DINO 特征 F i d 的第 i 個塊,如下所示:

????????使用 F_i_fused作為鍵和值,而查詢特征 F_i?1_q 在交叉注意力機制中充當查詢:

????????這種設計使模型能夠在不同的層次結構級別動態強調 SAM 的空間細節或 DINO 的語義和幾何線索,同時最大限度地減少兩種表示之間的干擾。

幾何編碼:融合特征 F?i 融合的 i ∈ [1, 2, 3, 4] 隨后由深度和相機模塊處理,遵循 Unidepth 架構。具體來說,這些模塊預測相機嵌入 C 和相機感知深度嵌入 D|C,稱為幾何嵌入 G = {D|C, C}。這些模塊在單深度病態問題下提供對齊的深度和相機參數。

????????總體而言,通過逐步調整多尺度特征并自適應地集成它們的貢獻,2D Aggregator 有效地利用了兩種基礎模型的優勢,同時最大限度地減少了潛在的沖突。

B 3D Interpreter

????????跨各種場景、深度和相機內部函數的不同 3D 對象監督給模型訓練帶來了挑戰。文章的 3D 解釋器旨在逐步整合幾何信息,同時防止 2D 到 3D 知識轉移中的災難性遺忘。引入了零嵌入映射 (ZEM) 機制,該機制通過零初始化層將 3D 幾何圖形逐步注入解碼器,而不會中斷原始 2D 特征。如圖(c) 所示,3D 解釋器由三個主要組件組成:Two-Way Transformer、Geometric Transformer 和 3D 邊界框頭。

Two-Way Transformer按照 SAM 設計,我們首先將 3D 邊界框標記與 promptrelated 標記連接起來,形成查詢:

其中 T3D,i 表示第 i 個對象的 3D 邊界框標記,Tp,i 是與提示相關的標記,[·; ·] 表示向量連接。SAM 編碼器輸出 Fs 用作第一個 Two-Way Transformer 層的鍵和值,得到:

????????使用預先訓練的 SAM 解碼器復制 two-way transformer 的初始化參數。

Geometric Transformer然后,我們零初始化的 1 × 1 卷積層 ZEM 處理幾何嵌入 G(來自 2D 聚合器),并將其添加到 Fs 中,用作幾何轉換器中的鍵和值:

????????ZEM 集成了幾何嵌入,避免了 2D 特征中的災難性遺忘。接下來,G′ 再次通過 ZEM 并與 F ′ s 結合。這種豐富的表示形式在第二個 Two-Way Transformer 圖層中用作鍵和值,以生成對象特征 O :

????????ZEM 還有助于穩定雙向和幾何Transformer訓練中的參數更新,防止因不同的 3D 對象監控而引起的沖突

3D Bounding Box Heads最后,O 被輸入到 3D 邊界框頭中以計算最終預測,這遵循標準 3D 檢測框架的典型架構:B3D(x, y, z, w, h, l, R, S ) 其中 x, y, z 指定 3D 框中心,w, h, l 是其維度,R 是旋轉矩陣, S 是預測的 3D 交交并比 (IoU) 分數

4)實驗

A Dataset

????????DA3D Benchmark。我們推出了 DA3D,這是一個統一的 3D 檢測數據集,它聚合了 16 個不同的數據集,用于 3D 檢測和深度估計。在 Omni3D 的原始數據集(Hypersim、ARKitScenes、Objectron、SUNRGBD、KITTI 和 nuScenes)的基礎上,整合了另外四個室外檢測數據集(Argoverse2、A2D2、Waymo、Cityscapes3D)、一個室內檢測數據集(3RScan)和五個深度和內參數據集(Scannet、Taskonomy、DrivingStereo、Middlebury、 IBIMS-1)。所有數據都使用單目圖像、相機內參數、3D 邊界框和深度圖進行標準化。

B Baseline

????????Cube R-CNN和OVMono3D

C 未見類別推理

????????在本實驗中,使用兩個來源進行提示輸入:由 Grounding DINO 處理的文本提示和來自 groundtruth 2D 邊界框的框提示。在 KITTI、SUNRGBD 和 ARKitScenes 數據集上評估了模型,這些數據集具有與 OVMono3D 相同的零鏡頭類別。如下表(左)所示,與 OVMono3D 基線相比,DetAny3D 表現出卓越的零鏡頭適應性能。當使用 Grounding DINO 進行文本提示輸入時,文章方法在目標感知度量下實現了 KITTI 上 21.02 AP3D 、SUNRGBD 上 4.29 AP3D 和 ARKitScenes 上 11.35 AP3D 的顯著改進。當使用 2D 真實值作為框提示輸入時,DetAny3D 在 KITTI 上獲得 28.96 AP3D,在 SUNRGBD 上獲得 39.09 AP3D,在 ARKitScenes 上獲得 57.72 AP3D,分別比基線高出 3.4×、2.3× 和 4.1×。這種巨大的性能差距凸顯了文章方法推廣到新對象類別的增強能力。

D 相機推理

????????為了評估新相機參數的魯棒性,進行了跨數據集評估,如上表(右)所示。對于 Cityscapes3D 和 Waymo,使用 Cube R-CNN 的 2D 檢測和地面實況作為框提示和 Grounding DINO 處理的文本提示進行比較。對于 3RScan,由于命名空間與 Cube R-CNN 的預定義類別不一致,并且存在新穎的類,只使用文本提示和真實框提示,與 OVMono3D 進行基準測試。DetAny3D 對未見相機配置表現出很強的適應性。當使用 Cube RCNN 對齊提示時,文章模型在 Cityscapes3D 和 Waymo 上分別獲得了 10.33 和 15.17 的 AP3D 分數,比 Cube R-CNN 高出 2.11 和 5.74。通過文本提示,在與 OVMono3D相同的設置下,文章方法在目標感知指標下將 AP3D 在 Cityscapes3D 上提高了 4.73 分,在 Waymo 上提高了 5.68 分,在 3RScan 上提高了 1.1 分。由于嚴重的命名歧義和缺失注釋,這兩個模型在 3RScan 的常規指標上都顯示得分較低。使用 2D 真實值作為框提示,DetAny3D 在三個數據集中獲得了 16.88、15.83 和 21.36 的 AP3D,分別比 OVMono3D 高出 6.82、5.6 和 3.31。這些結果突出了文章模型架構的有效性及其在具有任意相機配置的實際應用中的潛力。

E 域內檢測能力

????????還使用兩個提示源評估模型的域內檢測能力:來自 Cube R-CNN 的 2D 檢測和 2D 地面實況。除了統一模型之外,作者還在 Omni3D 上訓練模型以進行比較。如上表 所示,當提供對齊輸入時,DetAny3D 使用 Cube R-CNN 獲得了有競爭力的檢測結果。此外,當使用 GT 作為 2D 提示時,DetAny3D 的性能明顯優于 OVMono3D,在 Omni3D 上的整體 AP3D 提高了 9.06。這種性能差距表明,當 Cube R-CNN 用作 2D 輸入時,Cube R-CNN 的限制部分限制了文章模型的性能。通過匹配更強的 2D 提示,文章模型有可能獲得更高的性能。

????????提供了來自開放世界檢測的定性示例。在每對圖像中,頂行由 OVMono3D 生成,底行由 DetAny3D 生成。對于每個示例,左側的子圖覆蓋了投影的 3D 邊界框,而右側的子圖顯示了相應的鳥瞰圖,背景為 1m×1m。

F 消融實驗

????????如上表所示,對 DetAny3D 的關鍵組件進行了消融研究,說明了從基于普通 SAM 的基線到能夠提取可推廣 3D 特征的成熟 DetAny3D 的演變。基本模型通過引入 3D 框標記和 3D 預測頭來擴展 SAM,從而實現直接 3D 邊界框估計。其他消融,包括 backbone 選擇和 prompt 類型。

5)結論

????????提出了 DetAny3D,這是一種可提示的 3D 檢測基礎模型,可以從任何單目圖像輸入中檢測任意 3D 對象。DetAny3D 在不同領域表現出顯著的零鏡頭檢測能力,以及在各種任務中有效的零鏡頭傳輸,突出了其在動態和非結構化環境中實際部署的適用性。此外,其靈活而強大的檢測能力為收集大規模、多源數據以執行更多 3D 感知引導任務打開了大門,為開放世界系統鋪平了道路。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/90182.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/90182.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/90182.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ROS2簡記一:第一個ros2程序,海龜模擬與C++和python的《你好,世界!》

目錄 引言 一、控制小海龜 二、鍵盤控制海龜 三、控制海龜案例的簡單分析 四、ROS2之linux基礎 4.1 linux終端命令 4.1.1 查看當前終端所在目錄 pwd 4.1.2 切換終端所在目錄 cd 4.1.3 查看當前目錄下的文件 ls 4.1.4 主目錄 ~ 4.1.5 文件的操作 4.1.6 命令使用幫助…

監控的基本理論和prometheus安裝

監控的基本理論和prometheus安裝 前言 這篇博客主要講的是關于理論的知識,大家盡可能的消化和吸收,也能擴展大家的知識面 監控的基本概念 監控俗稱為運維的第三只眼。沒有了監控,業務運維都是“瞎子”。所以說監控室運維這個職業的根本&…

互聯網生態下贏家群體的崛起與“開源AI智能名片鏈動2+1模式S2B2C商城小程序“的賦能效應

摘要:本文聚焦未來互聯網贏家群體的構成特征,剖析網紅經濟與專業主播的差異化發展路徑,結合開源AI智能名片鏈動21模式與S2B2C商城小程序的融合創新,提出技術賦能下互聯網商業生態的重構路徑。研究表明,開源AI技術通過智…

OneCode 圖表組件核心優勢解析

一、全方位的可視化能力 OneCode 圖表組件提供了15種專業圖表類型,覆蓋從基礎到高級的數據可視化需求: 基礎圖表:柱狀圖、折線圖、餅圖、面積圖等高級圖表:金字塔圖、雷達圖、儀表盤、LED圖表等實時圖表:實時折線圖、實…

【Linux】RHCE中ansible的配置

1.安裝并配置ansible 第一步先安裝ansible所需軟件 #安裝ansible所需軟件 [devopsworkstation ~]$ sudo dnf install ansible ansible-navigator rhel-system-roles -y 第二步登錄鏡像倉庫,在鏡像倉庫下載鏡像容器來運行ansible 由于ansible-navigator 知ansible…

ubuntu server系統 安裝寶塔

更新系統軟件包sudo apt update && sudo apt upgrade -y提示,如果想博主這樣是存綠色liunx系統,要先安裝python3腳本才可以python3 --version有pyhton版本號就是安裝了,沒有的話就要安裝安裝 Pythonsudo apt update sudo apt install…

用C++實現五子棋游戲

#include <iostream> #include <vector> #include <string> #include <iomanip> // 用于控制輸出格式 #include <limits> // 用于numeric_limitsusing namespace std;// 游戲常量定義 const int BOARD_SIZE 15; // 定義棋盤大小為15x15// 棋…

【LeetCode 熱題 100】73. 矩陣置零——(解法一)空間復雜度 O(M + N)

Problem: 73. 矩陣置零 題目&#xff1a;給定一個 m x n 的矩陣&#xff0c;如果一個元素為 0 &#xff0c;則將其所在行和列的所有元素都設為 0 。請使用 原地 算法。 文章目錄整體思路完整代碼時空復雜度時間復雜度&#xff1a;O(M * N)空間復雜度&#xff1a;O(M N)整體思路…

【深度學習新浪潮】國內零樣本抗體設計的科研進展如何?

什么是AI零樣本抗體設計? AI零樣本抗體設計(Zero-shot AI Antibody Design)是指不依賴任何已知抗體序列或結構數據,僅根據靶點抗原信息,通過人工智能直接生成具有高親和力、高特異性的全新抗體序列的技術。其核心在于突破傳統抗體研發的“數據依賴瓶頸”,實現真正的“從…

【論文閱讀】A Diffusion model for POI recommendation

論文出處&#xff1a;ACM Transactions on Information Systems (TOIS) SCI一區 CCF-A期刊 論文地址&#xff1a;[2304.07041] A Diffusion model for POI recommendation 論文代碼&#xff1a;Yifang-Qin/Diff-POI: The official PyTorch implementation of Diff-POI. 目…

Rust實現FasterR-CNN目標檢測全流程

使用 Rust 和 FasterR-CNN 進行目標檢測 FasterR-CNN 是目標檢測領域廣泛使用的深度學習模型。Rust 生態中可以通過 tch-rs(Torch 綁定)調用預訓練的 PyTorch 模型實現。以下為完整實現步驟: 環境準備 安裝 Rust 和必要的依賴: cargo add tch cargo add anyhow # 錯誤…

Github 2025-07-03Go開源項目日報Top10

根據Github Trendings的統計,今日(2025-07-03統計)共有10個項目上榜。根據開發語言中項目的數量,匯總情況如下: 開發語言項目數量Go項目10JavaScript項目2Go編程語言:構建簡單、可靠和高效的軟件 創建周期:3474 天開發語言:Go協議類型:BSD 3-Clause “New” or “Revise…

XML Schema 安裝使用教程

一、XML Schema 簡介 XML Schema&#xff08;XSD&#xff0c;全稱 XML Schema Definition&#xff09;是用于定義 XML 文檔結構、數據類型和數據約束的標準方式。它比 DTD 更加強大&#xff0c;支持數據類型、默認值、命名空間等&#xff0c;是企業級 XML 應用推薦的驗證方式。…

【字節跳動】數據挖掘面試題0008:計算西瓜視頻內容好評率

文章大綱題目描述題目描述 西瓜視頻近期開展了”2020百大人氣創作者”優質內容扶持項目&#xff0c;鼓勵用戶產出優質的視頻內容。 現需要統計2020年11月01日至2020年11月30日期間創作的視頻中&#xff0c; “科技”大類下“數碼測評"子類的視頻好評率&#xff08;好評率好…

Linux 進程控制:全面深入剖析進程創建、終止、替換與等待

文章目錄引言一、進程創建&#xff1a;fork()系統調用的奧秘1.1 fork()的基本原理1.2 代碼示例與解讀1.3 寫時復制&#xff08;COW&#xff09;優化二、進程終止&#xff1a;exit()與_exit()的抉擇2.1 exit()和_exit()的區別2.2 代碼示例與分析三、進程替換&#xff1a;exec()函…

PJSIP 中的 TCP 傳輸配置指南

PJSIP 支持通過 TCP 傳輸 SIP 消息&#xff0c;相比 UDP 提供了更可靠的傳輸機制。以下是關于在 PJSIP 中使用 TCP 的詳細指南。1. 創建 TCP 傳輸基本 TCP 傳輸配置cpjsua_transport_config tcp_cfg; pjsua_transport_config_default(&tcp_cfg); tcp_cfg.port 5060; // SI…

小菜狗的云計算之旅,今天學習MySQL數據庫基礎知識及操作

目錄 一、概述 數據庫概念 數據庫的類型 關系型數據庫模型 關系數據庫相關概念 二、安裝 1、mariadb安裝 2、mysql安裝 3、啟動并開機自啟 4、本地連接&#xff08;本地登錄&#xff09; 三、mysql數據庫配置與命令 yum安裝后生成的目錄 mysql服務器的啟動腳本 數…

為什么是直接在**原型(prototype)上**添加函數

這是一個非常經典、核心的 JavaScript 面向對象編程問題&#xff1a;> 為什么是直接在**原型&#xff08;prototype&#xff09;上**添加函數&#xff0c;而不是在類/構造函數內部直接添加&#xff1f;你提到的代碼中&#xff1a;javascript function TopSearchComponent() …

深入理解 classnames:React 動態類名管理的最佳實踐

在現代前端開發中&#xff0c;我們經常需要根據組件的狀態、屬性或用戶交互來動態切換 CSS 類名。雖然 JavaScript 提供了多種方式來處理字符串拼接&#xff0c;但隨著應用復雜性的增加&#xff0c;傳統的類名管理方式很快就會變得混亂不堪。這時&#xff0c;classnames 庫就像…

C++系列(七):深度探索C++內存 --- 分區、堆棧、new/delete與高效編程實踐

引言 程序運行的本質是對數據的處理&#xff0c;而內存則是程序執行的核心舞臺。理解內存的物理與邏輯分區&#xff0c;是掌握程序底層行為、編寫高效可靠代碼的關鍵基石。內存并非混沌一片&#xff0c;而是被嚴格劃分為代碼區、全局區、棧區和堆區。每個區域擁有獨特的生命周…