摘要
近年來,多個數據集和開放挑戰已被引入用于目標檢測研究。為了構建更通用且強大 的目標檢測系統,本文提出了一個新的大規模基準數據集,稱為 BigDetection。我們的目標是 整合現有數據集(LVIS、OpenImages 和 Object365)的訓練數據,并遵循精心設計的原則,構建一個更大規模的數據集,以 提升檢測器的預訓練效果。具體而言,我們重新定義了一個新的類別體系,統一了來自不同數據源的異構標簽空間。BigDetection 數據集包含 600 個物體類別,超過 340 萬張訓練圖像,標注有 3600 萬個邊界框,在多個維度上都遠超現有的目標檢測基準數據集,既提供了 機遇,也帶來了 挑戰。大量實驗表明,BigDetection 作為目標檢測方法的評測基準具有較高的有效性,同時作為預訓練數據集也展現出了顯著的提升效果。代碼與模型開源地址:https://github.com/amazonresearch/bigdetection。
1. 引言
回顧 2014 年,Microsoft COCO 數據集 [33] 曾是極具挑戰性的目標檢測基準,當時的最佳檢測方法在80類物體上的 平均精度(AP) 甚至 低于20。如今,最先進的檢測器 [10, 62] 已能在 COCO test-dev 上達到 60+ AP。作為目標檢測的黃金標準,COCO 數據集催生了眾多流行的目標檢測算法。
為了構建 更魯棒、更通用的目標檢測系統,近年來發布了多個 大規模目標檢測數據集,例如 OpenImages [26]、Objects365 [44] 和 LVIS [24]。然而,每個數據集 都有其局限性和挑戰:
OpenImages 約 10% 的邊界框標注由機器生成,可能導致標簽錯誤或邊界框重疊(圖 1 頂部)。
LVIS 旨在覆蓋 1200+ 類密集標注類別,但存在 無效標注、嚴重的長尾分布 等問題(圖 1 底部)。
Objects365 詞匯量相對較小,可能遺漏某些常見類別(如昆蟲)。
BigDetection 數據集
為解決上述問題,我們提出了一個 新的大規模目標檢測基準數據集,稱為 BigDetection。
我們的目標是整合現有數據集(LVIS、OpenImages 和 Objects365),遵循精心設計的標注原則,構建一個更適合 目標檢測器預訓練 的大規模數據集。
與現有的 多數據集訓練 方法 [59, 67, 70] 不同,我們使用語言模型構建初始的統一標簽空間,并手動驗證 以 獲得最終的類別體系。
BigDetection 數據集 具有 600 個物體類別,包含 340 萬張訓練圖像,3600 萬個邊界框。表 1 對比了 BigDetection 與其他數據集的統計信息。
此外,我們進行了 多種實驗,以驗證 BigDetection 作為新基準的有效性,以及其作為預訓練數據集的提升效果。
特別地,如表 3 所示,使用 Swin-Base 作為主干網絡的 CBNetV2 [31],在 BigDetection 預訓練后,在 COCO test-dev 上達到 59.8 AP。令人驚訝的是,這一性能甚至可以媲美未在 BigDetection 預訓練的 Swin-Large(Swin-Large 的計算量是 Swin-Base 的 2 倍)。此外,在 COCO 部分標注數據設置 [48] 下,BigDetection 預訓練展現了極高的數據效率,例如,在僅使用 1% 的 COCO 訓練數據 時,即可在 COCO 驗證集 上達到 25.3 AP。
主要貢獻
我們的貢獻可總結如下:
提出了一個新的目標檢測數據集 BigDetection,其規模在多個維度上遠超現有基準,可作為更具挑戰性的 目標檢測評測基準。
驗證了 BigDetection 作為預訓練數據集的有效性,在 COCO 驗證集和 test-dev 集 上取得了 最先進的檢測結果,同時在 數據效率設定下 也表現出色。
進行了廣泛的消融實驗,提供了在大規模數據集上訓練目標檢測器的最佳實踐。
相關工作
數據集在目標檢測中的作用
大規模、高質量標注的數據集對于推動更優秀的計算機視覺模型至關重要。在目標檢測領域,PASCAL VOC?[16] 是早期的基準數據集之一,包含 20 個類別、約 1.7 萬張圖像。盡管與當今的數據集相比規模較小,PASCAL VOC 卻培養了許多經典的目標檢測器 [18,?60] 和基于深度學習的檢測器 [22,?23,?25]。隨后,微軟在 2014 年推出了 Microsoft COCO?[33],至今已成為最廣泛使用的目標檢測基準。COCO 包含 11.8 萬張圖像、86 萬個實例標注,覆蓋 80 個類別。得益于其大規模和高標注質量,COCO 與深度學習一起徹底改變了計算機視覺的格局。最近,隨著大量高質量標注工作的推進,更大規模的數據集如 LVIS?[24]、OpenImages?[26] 和 Objects365?[44] 相繼問世,擁有數百萬級的實例標注。它們不僅使我們能夠學習更多樣化、細粒度的物體概念,還為新場景上的少樣本/零樣本學習提供了可能。此外,還有許多針對特定領域的目標檢測數據集(如?[9,?20,?40,?45,?49,?54]),以支持各種實際應用。
多數據集檢測器訓練
由于完全依賴人工標注的方式無法擴展到超大規模數據集,近期有研究開始探索多數據集聯合訓練策略,目標是在現有數據集上利用更多標注數據來學習更好的特征表示。
早期的一項工作 [59] 提出在多個數據集上訓