目標檢測公開數據集全解析:從經典到前沿
一、引言
目標檢測(Object Detection)是計算機視覺領域的核心任務之一,旨在在圖像或視頻中識別并定位感興趣的物體。與圖像分類不同,目標檢測不僅需要判斷物體的類別,還需要確定其在圖像中的位置(通常以邊界框或分割掩碼的形式)。近年來,深度學習技術尤其是卷積神經網絡(CNN)和 Transformer 架構的快速發展,使目標檢測在多個領域取得了突破性進展。
然而,深度學習模型的成功離不開數據。正如一句經典的話所說:“數據是新的石油”,對于目標檢測來說,大規模、高質量的標注數據集是算法性能提升的基石。一個優秀的目標檢測數據集不僅要涵蓋足夠多的類別和樣本,還需要在多樣性、標注精度、任務難度等方面達到平衡,從而幫助模型學到魯棒且泛化性強的特征。
本文將系統介紹當前公開的幾個具有代表性的重要目標檢測數據集,從早期的 Pascal VOC 到廣泛應用的 MS COCO,從規模龐大的 Open Images 到長尾挑戰的 LVIS,再到特定場景下的自動駕駛、無人機、生態監測等數據集,并結合它們的特點、適用場景和局限性,為研究者和工程師提供參考。
📥 數據集快速索引與下載鏈接
數據集名稱 | 官方下載地址 | 說明 / 文檔 |
---|---|---|
Pascal VOC | http://host.robots.ox.ac.uk/pascal/VOC/ | Evaluation & Devkit |
MS COCO | https://cocodataset.org/#download | COCO API 文檔 |
ImageNet Detection | http://image-net.org/challenges/LSVRC/ | ImageNet 官網 |
Open Images Dataset | https://storage.googleapis.com/openimages/web/download.html | Open Images 文檔 |
LVIS | https://www.lvisdataset.org/dataset | LVIS API |
Objects365 | https://www.objects365.org/ | Objects365 GitHub |
Visual Genome | https://visualgenome.org/api/v0/api_home.html | VG 數據說明 |
WIDER FACE | http://shuoyang1213.me/WIDERFACE/ | 評測協議 |
CrowdHuman | https://www.crowdhuman.org/ | CrowdHuman GitHub |
PASCAL Context | https://cs.stanford.edu/~roozbeh/pascal-context/ | 數據集論文 |
二、經典通用數據集
2.1 Pascal VOC —— 目標檢測的里程碑
背景與意義
Pascal VOC(Visual Object Classes Challenge)最早由英國 PASCAL 網絡組織于 2005 年發起,是計算機視覺歷史上最重要的基準數據集之一。在深度學習興起之前,Pascal VOC 就已經為傳統機器學習方法(如 HOG + SVM)提供了一個標準化的測試平臺。自 2005 年到 2012 年,Pascal VOC 每年更新數據,并舉辦競賽,對目標檢測、分割、分類等任務提出了明確的評測標準。
數據規模與類別
以 Pascal VOC 2012 為例:
-
圖像總數:11,530 張
-
目標類別:20 類(包括人、動物、車輛、室內物品等)
-
實例總數:27,450 個
-
標注形式:矩形邊界框(Bounding Box),部分數據提供像素級分割掩碼
-
數據集劃分:train、val、test 三個子集
評測指標
Pascal VOC 引入了 mAP(mean Average Precision)作為檢測任務的主要評測指標,IoU 閾值通常設為 0.5,這一標準后來被 COCO 等數據集沿用并改進(如引入不同 IoU 閾值的 mAP 平均)。
研究應用與影響
R-CNN、Fast R-CNN、Faster R-CNN、YOLO 等開創性檢測算法都是在 Pascal VOC 上首次亮相的。盡管如今數據規模已被 COCO 等大數據集超越,Pascal VOC 仍是入門目標檢測和快速模型驗證的經典選擇。
優缺點分析
-
優點:類別均衡、標注質量高、任務定義清晰
-
缺點:類別數少、場景較為單一,不足以支持復雜模型的全面訓練
2.2 Microsoft COCO —— 場景化與多任務標注的典范
數據集概述
COCO(Common Objects in Context)由微軟研究院于 2014 年發布,旨在解決早期數據集場景單一、物體孤立的問題。COCO 的圖像來源多樣且貼近真實生活,物體經常以遮擋、不同尺度、不同姿態出現,極大提升了檢測任務的挑戰性。
數據規模
-
圖像總數:約 328,000 張
-
目標類別:80 類 “things” 類目標
-
實例總數:約 250 萬
-
其他標注:91 類 “stuff” 類語義區域、5 個關鍵點(人體姿態)、實例分割、多句圖像描述
-
數據劃分:
-
Train2017:約 118K 張圖像
-
Val2017:5K 張圖像
-
Test2017:20K 張圖像(評測需提交結果)
-
標注特色
-
每個實例都有精細的分割掩碼(而不僅是矩形框)
-
提供關鍵點標注,支持人體姿態估計
-
標注背景(stuff),有助于場景理解
評測指標
COCO mAP 采用多個 IoU 閾值(0.5:0.05:0.95)的平均結果,考察模型在不同精度要求下的表現,較 VOC 的單一 IoU=0.5 評測更嚴格。
應用與競賽
COCO 每年都會舉辦 COCO Challenge,吸引全球頂尖研究團隊參賽,是目標檢測、實例分割、關鍵點檢測等任務的黃金標準。
優缺點分析
-
優點:場景復雜、標注全面、任務多樣、評測標準嚴格
-
缺點:類別數量相對有限(80 類),對長尾類別不夠友好;數據集規模較大,訓練開銷高
2.3 ImageNet Detection —— 從分類到檢測的延伸
背景
ImageNet 最初是大規模圖像分類數據集(超過 1400 萬張圖,1000+ 類別),在 2013–2017 年間的 ImageNet Large Scale Visual Recognition Challenge(ILSVRC)中,增加了檢測任務子集(ImageNet Detection)。
數據規模
-
圖像數量:約 450,000 張
-
類別數:200 類
-
標注形式:矩形邊界框
應用
ImageNet Detection 更多用于大規模預訓練,再遷移到下游檢測任務(如 COCO、VOC)中,顯著提升模型精度。
2.4 Open Images —— 大規模多標注數據集
簡介
Open Images 是由 Google 發布的開放數據集,規模巨大,涵蓋豐富的標注類型,包括邊界框、實例分割、多標簽分類、視覺關系等。
數據規模
-
圖像總數:約 900 萬張
-
檢測類別:約 600 類
-
實例總數:數千萬個標注框
-
額外標注:視覺關系(如“人-騎-自行車”)、圖像級標簽
特點
-
類別數量多,適合大詞匯量目標檢測
-
包含大量稀有類別,適合少樣本學習
-
圖像來源多樣,包括網絡爬取與人工標注
2.5 LVIS —— 長尾挑戰的試金石
背景
LVIS(Large Vocabulary Instance Segmentation)是 COCO 的擴展,旨在解決類別分布的長尾問題。
數據規模
-
圖像總數:164,000+
-
類別數:1000+
-
標注:實例分割掩碼
-
類別分布:少樣本類別占大多數
2.6 Objects365 —— 大規模物體檢測專用數據集
簡介
Objects365 由 Megvii(曠視科技)發布,專門為目標檢測任務構建。相比 COCO 的 80 類,它大幅擴展到 365 類,類別覆蓋日常生活、室內外物品、自然物體等多個領域。
數據規模
-
圖像總數:約 63 萬張(訓練集)+ 5 萬張(驗證集)
-
類別數:365
-
標注數量:約 1000 萬個邊界框
-
場景:街景、室內、自然環境、商店等多樣化場景
特點與應用
-
類別數量多,適合大詞匯量目標檢測研究
-
場景多樣性高,涵蓋物體尺度差異大、遮擋嚴重等復雜情況
-
在大模型預訓練中常作為補充數據集使用,例如 DETR、YOLOv8 等模型的多數據混合訓練
2.7 Visual Genome —— 視覺關系與密集標注
簡介
Visual Genome 是斯坦福大學發布的一個多任務視覺數據集,主要用于圖像理解與視覺問答,但它也包含豐富的目標檢測標注(物體框)。
數據規模
-
圖像總數:108,077 張
-
標注物體數:約 380 萬個
-
類別數:約 33,877(包括同義詞和細分類別)
-
其他標注:物體屬性、物體之間的關系(如“人-騎-馬”)、區域描述
特點
-
極大詞匯量(33K 類別),適合長尾分布研究
-
同時提供視覺關系圖譜,可擴展到 scene graph generation(場景圖生成)任務
-
物體類別細粒度化,但存在標注噪聲和同義詞冗余
2.8 WIDER FACE —— 面部檢測的黃金標準
簡介
WIDER FACE 由香港中文大學發布,是人臉檢測任務的權威數據集,適合檢測小目標與密集目標。
數據規模
-
圖像總數:32,203 張
-
人臉實例:393,703 個
-
數據劃分:Train(40%)、Val(10%)、Test(50%)
-
難度等級:Easy、Medium、Hard(根據人臉尺寸、遮擋、姿態劃分)
特點與應用
-
覆蓋不同姿態、光照、遮擋、尺度的人臉
-
在安全監控、行人分析、人臉識別前置檢測等領域應用廣泛
-
檢測算法如 MTCNN、RetinaFace 等在此評測
2.9 CrowdHuman —— 高密度行人檢測
簡介
CrowdHuman 數據集專門針對行人檢測中的密集人群場景,旨在解決遮擋與重疊問題。
數據規模
-
圖像總數:約 15K 張(訓練集)+ 4K 張(驗證集)
-
行人實例:超過 33 萬個標注框
-
標注類型:
-
Full body:完整人體框
-
Visible body:可見部分框
-
Head box:頭部框
-
特點
-
平均每張圖像有 22+ 行人,遮擋嚴重
-
對算法的密集檢測能力和 NMS(非極大值抑制)策略提出更高要求
-
常與 CityPersons、WIDER Pedestrian 一起用于行人檢測算法評測
2.10 PASCAL Context —— VOC 的場景理解升級版
簡介
PASCAL Context 是在 Pascal VOC 2010 數據集的基礎上擴展的場景標注版本,包含更多物體類別與“stuff”背景標注。
數據規模
-
圖像總數:10,103 張
-
類別數:400+(包含“thing”和“stuff”類別)
-
標注:像素級分割(每個像素標注類別)
特點與應用
-
相比 VOC 的 20 類,Context 提供了更加全面的場景信息
-
適合多任務學習,將檢測與語義分割、場景理解結合
-
類別分布依舊偏向常見物體,長尾類別樣本少
意義
LVIS 非常適合測試模型在長尾分布下的泛化能力,也是 few-shot detection 研究的重要基準。
三、特定領域數據集
3.1 自動駕駛
-
KITTI:包含實車采集的街景圖像,標注 2D/3D 邊界框
-
Cityscapes:高質量城市街道語義分割與檢測
-
BDD100K:10 萬張多任務標注駕駛場景
-
nuScenes:多傳感器融合(攝像頭、激光雷達、雷達)數據
3.2 航拍與無人機
-
DOTA:高分辨率遙感影像,多種旋轉目標標注
-
VisDrone:無人機視角圖像和視頻,含檢測與跟蹤任務
-
xView:覆蓋多種地理區域與目標類型的遙感檢測數據
3.3 生態與農業
-
iNaturalist Detection:真實物種分布,長尾特性
-
Global Wheat:小麥穗檢測,農業產量分析
四、數據集對比表
數據集 | 圖像數 | 類別數 | 標注類型 | 特點 |
---|---|---|---|---|
Pascal VOC | 11K | 20 | 邊界框/分割 | 經典入門,場景簡單 |
COCO | 328K | 80 | 邊界框/分割/關鍵點 | 場景復雜,多任務 |
ImageNet Det | 450K | 200 | 邊界框 | 大規模預訓練 |
Open Images | 9M | 600+ | 多標注 | 類別豐富,長尾分布 |
LVIS | 164K | 1000+ | 分割 | 長尾挑戰 |
KITTI | 15K | 多 | 2D/3D 框 | 自動駕駛 |
DOTA | 2800+ 圖 | 15+ | 旋轉框 | 航拍遙感 |
iNaturalist | 859K | 5000+ | 邊界框 | 生態物種檢測 |
五、趨勢與挑戰
-
長尾分布與少樣本學習:LVIS、Open Images 等長尾數據集對模型提出了更高要求。
-
多任務融合:COCO 等數據集同時包含檢測、分割、姿態估計等任務。
-
3D 與多模態:nuScenes 等結合多傳感器信息,推動 3D 檢測發展。
-
自動化標注:弱監督、半監督方法減少人工標注成本。
-
跨域泛化:模型需要在不同數據分布間保持性能穩定。
六、結語
目標檢測數據集的發展,推動了從簡單物體識別到復雜場景理解的技術演進。選擇合適的數據集,不僅關乎模型訓練效果,也決定了研究的方向與價值。從 Pascal VOC 到 LVIS,從自動駕駛到生態保護,數據集的多樣性正不斷拓展目標檢測的邊界。未來,隨著多模態感知、弱監督標注和跨域泛化等方向的推進,數據集的形態與規模也將繼續演化,為計算機視覺帶來新的挑戰與機遇。