突破閉集限制：3D-MOOD 實現開集單目 3D 檢測新 SOTA

【導讀】

單目 3D 目標檢測是計算機視覺領域的熱門研究方向，但如何在真實復雜場景中識別“未見過”的物體，一直是個難題。本文介紹的 3D-MOOD 框架，首次提出端到端的開集單目 3D 檢測方案，并在多個數據集上刷新了 SOTA。

一、研究背景

二、3D-MOOD 方法

規范圖像空間 (Canonical Image Space)

幾何感知的3D查詢生成?(Geometry-Aware 3D Query Generation)

三、實驗與結果

開集實驗

跨領域實驗

消融實驗

總結

近年來，三維目標檢測在自動駕駛、機器人和 AR/VR 等應用中扮演著越來越重要的角色。相比多攝像頭或激光雷達，單目方案更具成本優勢和部署靈活性，因此備受關注。然而，現有方法普遍基于“閉集設定”——訓練和測試數據共享相同的類別與場景。這一假設在現實中顯然過于理想化。試想，一個自動駕駛系統若只能識別訓練中見過的車輛和行人，而無法應對新環境中的未知物體，那它的實用性必然大打折扣。

這正是 3D-MOOD 想要解決的問題。研究者提出了一種全新的端到端框架，能夠在保持單目檢測優勢的同時，突破閉集限制，將二維檢測結果提升至三維空間，并通過幾何先驗與規范化設計，使模型能夠在完全陌生的場景和類別中依然穩健工作。

一、研究背景

傳統單目 3D 檢測方法雖然在 Omni3D 等大規模基準上取得了不錯的成績，但仍停留在特定類別和特定場景的優化，缺乏對未知類別的適應性。

為了打破這一局限，研究者們提出了開放集3D檢測的概念，要求模型不僅能檢測已知類別，還要能泛化到任意未知類別。這對于構建更智能、更通用的3D感知系統至關重要。然而，這一任務極具挑戰性，因為它要求模型：

開放詞匯識別：能夠理解自然語言描述，識別任意對象。
精確3D定位：在缺乏直接深度信息的情況下，從單張2D圖像中準確推斷出物體的3D邊界框（包括位置、尺寸和方向）。
跨場景泛化：在多樣的室內外場景中保持穩健性能。

為此，一些工作嘗試借助大規模視覺語言模型生成偽標注來拓展類別空間，但受限于不能端到端訓練，性能依舊有限。3D-MOOD 的出現為這一難題提供了新思路：它不再依賴繁瑣的偽標注流程，而是直接設計出一個可以端到端訓練的開集單目 3D 檢測器，真正意義上推動了單目檢測向開放世界應用邁進。

在Coovally平臺上包括多模態3D檢測、目標追蹤、目標檢測、文字識別、實例分割、關鍵點檢測等全新任務類型。

模型數據集.GIF

！！點擊下方鏈接，立即體驗Coovally！！

平臺鏈接：https://www.coovally.com

平臺匯聚國內外開源社區超1000+熱門模型，覆蓋YOLO系列、Transformer、ResNet等主流視覺算法。同時集成300+公開數據集，一鍵下載即可投入訓練，徹底告別“找模型、配環境、改代碼”的繁瑣流程！

二、3D-MOOD 方法

3D-MOOD 的核心思想是 “從 2D 到 3D 的提升”。研究者在強大的開集 2D 檢測模型 G-DINO 的基礎上，設計了一個 3D Bounding Box Head，用來預測物體的三維中心、深度、尺寸和旋轉，將二維檢測框自然地擴展為三維框。

與此同時，論文還提出了兩個關鍵模塊來增強泛化能力。其一是 Canonical Image Space，通過對圖像分辨率和相機內參的規范化，使訓練和測試在不同數據集間保持一致，避免了常見的跨域退化。其二是 Geometry-aware 3D Query Generation，利用相機參數和深度特征生成幾何感知的查詢，顯著提升了在陌生場景下的表現。此外，模型還配備了輔助深度估計頭，進一步增強了對三維幾何的理解。

規范圖像空間 (Canonical Image Space)

范圖像空間 (Canonical Image Space)在單目3D檢測中，相機內參（如焦距）對于從2D像素坐標推斷3D空間位置至關重要。然而，在訓練和推理過程中，輸入圖像通常會經過縮放和填充（resizing and padding）以適應網絡輸入尺寸，這會隱式地改變相機內參，導致3D定位不準確。

為解決此問題，3D-MOOD引入了 規范圖像空間（Canonical Image Space, CI）。其思想是在預處理圖像的同時，對相機內參進行相應的、顯式的變換，從而將不同分辨率、不同焦距的圖像統一到一個標準化的坐標空間中。這使得模型能夠學習到一種與原始圖像尺寸和相機參數無關的、更具泛化性的幾何表示。

如上圖所示，傳統方法（左側）在圖像縮放后并未調整相機內參，導致幾何信息不一致。而3D-MOOD提出的CI（右側）通過同步調整內參，確保了3D幾何投影的一致性。實驗證明，這種方法不僅提升了精度，還因其高效的批處理能力降低了訓練時的GPU內存消耗。

幾何感知的3D查詢生成?(Geometry-Aware 3D Query Generation)

現代檢測器（如DETR系列）通常使用一組可學習的“查詢”（queries）來代表潛在的物體。如何初始化這些查詢對于模型的性能至關重要。在3D檢測中，理想的查詢應包含場景的幾何先驗信息。

3D-MOOD提出了一種幾何感知的3D查詢生成（Geometry-Aware 3D Query Generation, GA）機制。它首先利用一個輕量級的深度估計頭（auxiliary depth estimation head）預測出粗略的深度圖，然后將圖像特征與這個深度圖結合，生成一組與場景幾何結構緊密相關的3D查詢。這些查詢能夠更有效地聚焦于場景中可能存在物體的區域，從而加速模型收斂并提升檢測精度。與之前方法（如Cube R-CNN中的虛擬深度）相比，GA機制被證明能取得更好的收斂效果。

三、實驗與結果

開集實驗

為了驗證方法的有效性，作者在 Omni3D 上進行了訓練，并在 Argoverse 2（室外自動駕駛場景）和 ScanNet（室內場景）上開展了開集測試。

結果顯示，3D-MOOD 在新類別和新環境中均大幅超越了 Cube R-CNN 和 OVM3D-Det 等基線方法，證明其在開集檢測中的顯著優勢。

跨領域實驗

在跨域實驗中，3D-MOOD 在不同數據集間實現了更強的遷移能力，優于 Uni-MODE 等統一模型；在閉集設定下，它同樣在 Omni3D 上刷新了 SOTA，說明方法不僅適用于開放場景，在標準評測中也具備領先性能。

消融實驗

進一步的消融實驗則表明，Canonical Image Space、輔助深度估計與幾何感知查詢生成模塊均對性能提升有所貢獻，尤其是幾何感知查詢，在開集場景中的作用尤為明顯。

總結

3D-MOOD 的提出，首次將單目 3D 檢測從閉集擴展到開集，并通過端到端設計解決了跨場景與新類別檢測的難題。它不僅在多個數據集上刷新了 SOTA，還為未來的三維感知研究打開了新的方向。隨著更多跨模態學習和大規模數據的加入，類似 3D-MOOD 的方法有望進一步提升開放世界下的三維理解能力，推動其在自動駕駛、機器人等領域的實際落地。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/98233.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/98233.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/98233.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！