突破閉集限制:3D-MOOD 實現開集單目 3D 檢測新 SOTA

【導讀】

單目 3D 目標檢測是計算機視覺領域的熱門研究方向,但如何在真實復雜場景中識別“未見過”的物體,一直是個難題。本文介紹的 3D-MOOD 框架,首次提出端到端的開集單目 3D 檢測方案,并在多個數據集上刷新了 SOTA。

目錄

一、研究背景

二、3D-MOOD 方法

規范圖像空間 (Canonical Image Space)

幾何感知的3D查詢生成?(Geometry-Aware 3D Query Generation)

三、實驗與結果

開集實驗

跨領域實驗

消融實驗

總結


近年來,三維目標檢測在自動駕駛、機器人和 AR/VR 等應用中扮演著越來越重要的角色。相比多攝像頭或激光雷達,單目方案更具成本優勢和部署靈活性,因此備受關注。然而,現有方法普遍基于“閉集設定”——訓練和測試數據共享相同的類別與場景。這一假設在現實中顯然過于理想化。試想,一個自動駕駛系統若只能識別訓練中見過的車輛和行人,而無法應對新環境中的未知物體,那它的實用性必然大打折扣。

這正是 3D-MOOD 想要解決的問題。研究者提出了一種全新的端到端框架,能夠在保持單目檢測優勢的同時,突破閉集限制,將 二維檢測結果提升至三維空間,并通過幾何先驗與規范化設計,使模型能夠在完全陌生的場景和類別中依然穩健工作。

screenshot_2025-09-02_15-50-57.png


一、研究背景

傳統單目 3D 檢測方法雖然在 Omni3D 等大規模基準上取得了不錯的成績,但仍停留在特定類別和特定場景的優化,缺乏對未知類別的適應性。

為了打破這一局限,研究者們提出了 開放集3D檢測 的概念,要求模型不僅能檢測已知類別,還要能泛化到任意未知類別。這對于構建更智能、更通用的3D感知系統至關重要。然而,這一任務極具挑戰性,因為它要求模型:

  • 開放詞匯識別:能夠理解自然語言描述,識別任意對象。

  • 精確3D定位:在缺乏直接深度信息的情況下,從單張2D圖像中準確推斷出物體的3D邊界框(包括位置、尺寸和方向)。

  • 跨場景泛化:在多樣的室內外場景中保持穩健性能。

為此,一些工作嘗試借助大規模視覺語言模型生成偽標注來拓展類別空間,但受限于不能端到端訓練,性能依舊有限。3D-MOOD 的出現為這一難題提供了新思路:它不再依賴繁瑣的偽標注流程,而是直接設計出一個可以 端到端訓練的開集單目 3D 檢測器,真正意義上推動了單目檢測向開放世界應用邁進。

在Coovally平臺上包括多模態3D檢測、目標追蹤、目標檢測、文字識別、實例分割、關鍵點檢測等全新任務類型。

模型數據集.GIF

!!點擊下方鏈接,立即體驗Coovally!!

平臺鏈接:https://www.coovally.com

平臺匯聚國內外開源社區超1000+熱門模型,覆蓋YOLO系列、Transformer、ResNet等主流視覺算法。同時集成300+公開數據集,一鍵下載即可投入訓練,徹底告別“找模型、配環境、改代碼”的繁瑣流程!

IMG_2734.GIF


二、3D-MOOD 方法

3D-MOOD 的核心思想是 “從 2D 到 3D 的提升”。研究者在強大的開集 2D 檢測模型 G-DINO 的基礎上,設計了一個 3D Bounding Box Head,用來預測物體的三維中心、深度、尺寸和旋轉,將二維檢測框自然地擴展為三維框。

與此同時,論文還提出了兩個關鍵模塊來增強泛化能力。其一是 Canonical Image Space,通過對圖像分辨率和相機內參的規范化,使訓練和測試在不同數據集間保持一致,避免了常見的跨域退化。其二是 Geometry-aware 3D Query Generation,利用相機參數和深度特征生成幾何感知的查詢,顯著提升了在陌生場景下的表現。此外,模型還配備了 輔助深度估計頭,進一步增強了對三維幾何的理解。

screenshot_2025-09-02_15-51-58.png

  • 規范圖像空間 (Canonical Image Space)

范圖像空間 (Canonical Image Space)在單目3D檢測中,相機內參(如焦距)對于從2D像素坐標推斷3D空間位置至關重要。然而,在訓練和推理過程中,輸入圖像通常會經過縮放和填充(resizing and padding)以適應網絡輸入尺寸,這會隱式地改變相機內參,導致3D定位不準確。

為解決此問題,3D-MOOD引入了 規范圖像空間(Canonical Image Space, CI)。其思想是在預處理圖像的同時,對相機內參進行相應的、顯式的變換,從而將不同分辨率、不同焦距的圖像統一到一個標準化的坐標空間中。這使得模型能夠學習到一種與原始圖像尺寸和相機參數無關的、更具泛化性的幾何表示。

screenshot_2025-09-02_15-52-38.png

如上圖所示,傳統方法(左側)在圖像縮放后并未調整相機內參,導致幾何信息不一致。而3D-MOOD提出的CI(右側)通過同步調整內參,確保了3D幾何投影的一致性。實驗證明,這種方法不僅提升了精度,還因其高效的批處理能力降低了訓練時的GPU內存消耗。

screenshot_2025-09-02_15-53-21.png

  • 幾何感知的3D查詢生成?(Geometry-Aware 3D Query Generation)

現代檢測器(如DETR系列)通常使用一組可學習的“查詢”(queries)來代表潛在的物體。如何初始化這些查詢對于模型的性能至關重要。在3D檢測中,理想的查詢應包含場景的幾何先驗信息。

3D-MOOD提出了一種幾何感知的3D查詢生成(Geometry-Aware 3D Query Generation, GA)機制。它首先利用一個輕量級的深度估計頭(auxiliary depth estimation head)預測出粗略的深度圖,然后將圖像特征與這個深度圖結合,生成一組與場景幾何結構緊密相關的3D查詢。這些查詢能夠更有效地聚焦于場景中可能存在物體的區域,從而加速模型收斂并提升檢測精度。與之前方法(如Cube R-CNN中的虛擬深度)相比,GA機制被證明能取得更好的收斂效果。

screenshot_2025-09-02_15-53-52.png


三、實驗與結果

  • 開集實驗

為了驗證方法的有效性,作者在 Omni3D 上進行了訓練,并在 Argoverse 2(室外自動駕駛場景) 和 ScanNet(室內場景) 上開展了開集測試。

screenshot_2025-09-02_15-55-38.png

screenshot_2025-09-02_15-57-23.png

結果顯示,3D-MOOD 在新類別和新環境中均大幅超越了 Cube R-CNN 和 OVM3D-Det 等基線方法,證明其在開集檢測中的顯著優勢。

  • 跨領域實驗

在跨域實驗中,3D-MOOD 在不同數據集間實現了更強的遷移能力,優于 Uni-MODE 等統一模型;在閉集設定下,它同樣在 Omni3D 上刷新了 SOTA,說明方法不僅適用于開放場景,在標準評測中也具備領先性能。

screenshot_2025-09-02_15-58-08.png

screenshot_2025-09-02_15-57-51.png

  • 消融實驗

進一步的消融實驗則表明,Canonical Image Space、輔助深度估計與幾何感知查詢生成模塊均對性能提升有所貢獻,尤其是幾何感知查詢,在開集場景中的作用尤為明顯。

screenshot_2025-09-02_15-59-41.png


總結

3D-MOOD 的提出,首次將 單目 3D 檢測從閉集擴展到開集,并通過端到端設計解決了跨場景與新類別檢測的難題。它不僅在多個數據集上刷新了 SOTA,還為未來的三維感知研究打開了新的方向。隨著更多跨模態學習和大規模數據的加入,類似 3D-MOOD 的方法有望進一步提升開放世界下的三維理解能力,推動其在自動駕駛、機器人等領域的實際落地。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/98233.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/98233.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/98233.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python爬蟲數據清洗實戰:從雜亂無章到整潔可用

小伙伴們,做爬蟲最頭疼的不是抓數據,而是抓回來那一堆亂七八糟的內容!價格里混著符號、日期格式千奇百怪、還有重復和缺失的值,看著就頭大。別慌,咱們用Python幾招就能搞定。Pandas處理表格數據是真香,正則…

打工人日報#20250906

打工人日報#20250906 周六了! 今天出門讀者特別痛,本來都想爽約了,不過忍下來了了,現在看來很值得! 不過還是要好好吃早餐、和熱水! 閱讀 《小米創業思考》 第一章 奇跡時代 看完了 就是快呀 好的產品 好的…

小型磨床設計cad+三維圖+設計說明書

摘 要 隨著現代加工技術的發展,各種各樣的加工技術得到了廣泛的應用,磨床在機械制造領域得到了廣泛的應用,本文經過查閱相關文獻,完成了一種小型磨床的結構設計。 本文設計的小型磨床其主要是由三部分組成的,第一部分…

音響皇帝BO,牽手全球第一AR眼鏡雷鳥,耳機黨坐不住了?

【潮汐商業評論/原創】自AI大模型技術實現突破以來,即引發一場終端革命,關于下一個智能終端入口,或者說關于下一代計算平臺,市場有過很多“狼來了”的聲音,大家紛紛猜測,在智能手機之后,究竟誰有…

中斷和異常

中斷和異常簡介 在計算機體系結構和操作系統中,中斷(Interrupt) 和 異常(Exception) 是CPU應對突發事件、實現多任務并發和錯誤處理的核心機制。二者均通過暫停當前任務、轉去執行特定處理程序來響應事件,但…

Fab資源快速導入UE

有時候在Epic啟動器導入進度會卡住可以直接使用ue內置Fab來導入資源 這樣是百分百能導入的

Python錯誤測試與調試——文檔測試

Doctest 通過解析文檔字符串(docstring)中的交互式 Python 代碼片段(以 >>>開頭)進行測試,驗證代碼輸出是否與預期一致。測試用例直接嵌入代碼中,實現“文檔即測試”核心語法:def func…

c#核心筆記

111,面向對象 1,面向過程編程:是一種以過程為中心的編程思想分析出解決問題所需要的步驟然后用函數把步驟一步一步實現使用的時候,一個一個依次調用。 2,面向對象編程:面向對象是一種對現實世界理解和抽象的…

【MySQL】從零開始了解數據庫開發 --- 初步認識數據庫

永遠記住,你的存在是有意義的, 你很重要, 你是被愛著的, 而且你為這個世界帶來了無可取代的東西。 -- 麥克西 《男孩、鼴鼠、狐貍和馬》-- 從零開始了解數據庫開發安裝MySQL什么是數據庫常見主流數據庫初步了解SQL語句存儲引擎安裝…

Altium Designer(AD24)切換工作界面為淺灰色的方法

??《專欄目錄》 目錄 1,概述 2,界面介紹 1,概述 本文演示AD24軟件黑色界面切換為淺灰色的方法。 2,界面介紹 第1步:點擊設置小圖標,然后點擊View 第2步:在UI Theme,點擊Current旁邊的Altium Dark Gtay ,在下拉選項中選擇Altium Light Gtay,然后點擊OK確認 第4步…

SDRAM詳細分析—07 存儲器陣列尋址

大家好,這里是大話硬件 這篇文章將分析實際SDRAM內部是如何進行尋址以及內存單元分布方式。 根據前面的內容,從小容量到大容量進行迭代分析。 1. 1bit容量 這個存儲單元只能存儲1個bit位。假設現在需要8bit內存容量顆粒,則需要8顆這樣的存儲器件。 2. 4bit容量 這個存儲…

【GitOps】Argo CD高級操作鉤子

Argo CD高級操作鉤子 文章目錄Argo CD高級操作鉤子資源列表一、Argo CD鉤子1.1、鉤子介紹1.2、構建的幾個執行階段1.3、鉤子刪除策略1.4、示例二、鉤子演示2.1、創建GitLab公共倉庫2.2、Argo CD創建Application2.3、同步(SYNC)資源列表 操作系統配置主機…

諳流 ASK 技術解析(一):秒級擴容

諳流 ASK 是諳流團隊自主研發的國產新一代云原生流平臺,與 Apache Kafka 100% 協議兼容,全棧自主可控,專注私有化部署與行業場景賦能。傳統Kafka存儲之殤IO模型缺陷每個分區對應獨立文件,采用單分區異步批量順序寫機制。當多分區并…

從挑西瓜到樹回歸:用生活智慧理解機器學習算法

一、生活中的決策樹:媽媽的挑瓜秘籍夏天的菜市場里,媽媽總能精準挑出最甜的西瓜。她的秘訣是一套簡單的決策流程:先看色澤,青綠有光澤的優先;再敲一敲,聲音沉悶的更可能熟;最后摸硬度&#xff0…

SpringBoot+PDF.js實現按需分片加載(包含可運行樣例源碼)

SpringBootPDF.js實現按需分片加載前言一、實現思路與實現效果1.1 pdf.js的分片加載的實現思路1.2 pdf分片加載的效果二、前端項目2.1 項目引入2.2 核心代碼2.3 項目運行三、后端項目3.1 項目結構3.2 核心代碼3.3 項目運行四、項目運行效果4.1 首次訪問4.2 分片加載五、項目優化…

常見Bash腳本漏洞分析與防御

引言 在Unix/Linux系統中,Bash腳本因其簡潔、高效而成為自動化任務、系統管理和快速原型開發的首選工具。然而,Bash的強大功能和其獨特的語法特性,也為安全漏洞埋下了隱患。許多開發者在追求便捷性的過程中,無意間引入了命令注入、…

JAVA快速學習(二)

類與對象因為本質是寫python的所以類與對象的概念就不贅述了,先看java中類與對象的創建方式public class Main {public static void main(String[] args) {Cat cat new Cat(); // Cat cat new Cat("zh",18); 這樣直接不對,這樣傳參就需要寫構造函數…

登錄優化(雙JWT+Redis)

流程 前端 → 后端 → 攔截器 → 限流 → AOP → Controller → 刷新 → 退出 前端登錄并獲取雙 JWT 1、前端:用戶在前端輸入用戶名和密碼,調用 /auth/login 接口。 fetch("/auth/login", {method: "POST",headers: {"Content-Type": &quo…

【雜類】Spring 自動裝配原理

這張圖,??正是理解現代 Spring Boot 自動配置的鑰匙??。它指出的 AutoConfiguration.imports 文件,是 Spring Boot 2.7 之后的新標準,比老式的 spring.factories 更簡潔。咱們就從這個文件開始說。一、自動配置是啥?為啥需要它…

【CSS,DaisyUI】自定義選取內容的顏色主題

當你的網站使用了多個主題,比如 light/dark。當用戶選擇一段文本,常常會出現一個主題沒問題,另一個主題顏色怪怪的。是因為選擇區域的主題通常沒有變化,導致與當前主題不配合。 下面四種方法可解決這個問題: The probl…