目標檢測公開數據集全解析:從經典到前沿

目標檢測公開數據集全解析:從經典到前沿

一、引言

目標檢測(Object Detection)是計算機視覺領域的核心任務之一,旨在在圖像或視頻中識別并定位感興趣的物體。與圖像分類不同,目標檢測不僅需要判斷物體的類別,還需要確定其在圖像中的位置(通常以邊界框或分割掩碼的形式)。近年來,深度學習技術尤其是卷積神經網絡(CNN)和 Transformer 架構的快速發展,使目標檢測在多個領域取得了突破性進展。

然而,深度學習模型的成功離不開數據。正如一句經典的話所說:“數據是新的石油”,對于目標檢測來說,大規模、高質量的標注數據集是算法性能提升的基石。一個優秀的目標檢測數據集不僅要涵蓋足夠多的類別和樣本,還需要在多樣性、標注精度、任務難度等方面達到平衡,從而幫助模型學到魯棒且泛化性強的特征。

本文將系統介紹當前公開的幾個具有代表性的重要目標檢測數據集,從早期的 Pascal VOC 到廣泛應用的 MS COCO,從規模龐大的 Open Images 到長尾挑戰的 LVIS,再到特定場景下的自動駕駛、無人機、生態監測等數據集,并結合它們的特點、適用場景和局限性,為研究者和工程師提供參考。

📥 數據集快速索引與下載鏈接

數據集名稱官方下載地址說明 / 文檔
Pascal VOChttp://host.robots.ox.ac.uk/pascal/VOC/Evaluation & Devkit
MS COCOhttps://cocodataset.org/#downloadCOCO API 文檔
ImageNet Detectionhttp://image-net.org/challenges/LSVRC/ImageNet 官網
Open Images Datasethttps://storage.googleapis.com/openimages/web/download.htmlOpen Images 文檔
LVIShttps://www.lvisdataset.org/datasetLVIS API
Objects365https://www.objects365.org/Objects365 GitHub
Visual Genomehttps://visualgenome.org/api/v0/api_home.htmlVG 數據說明
WIDER FACEhttp://shuoyang1213.me/WIDERFACE/評測協議
CrowdHumanhttps://www.crowdhuman.org/CrowdHuman GitHub
PASCAL Contexthttps://cs.stanford.edu/~roozbeh/pascal-context/數據集論文


二、經典通用數據集

2.1 Pascal VOC —— 目標檢測的里程碑

背景與意義
Pascal VOC(Visual Object Classes Challenge)最早由英國 PASCAL 網絡組織于 2005 年發起,是計算機視覺歷史上最重要的基準數據集之一。在深度學習興起之前,Pascal VOC 就已經為傳統機器學習方法(如 HOG + SVM)提供了一個標準化的測試平臺。自 2005 年到 2012 年,Pascal VOC 每年更新數據,并舉辦競賽,對目標檢測、分割、分類等任務提出了明確的評測標準。

數據規模與類別
以 Pascal VOC 2012 為例:

  • 圖像總數:11,530 張

  • 目標類別:20 類(包括人、動物、車輛、室內物品等)

  • 實例總數:27,450 個

  • 標注形式:矩形邊界框(Bounding Box),部分數據提供像素級分割掩碼

  • 數據集劃分:train、val、test 三個子集

評測指標
Pascal VOC 引入了 mAP(mean Average Precision)作為檢測任務的主要評測指標,IoU 閾值通常設為 0.5,這一標準后來被 COCO 等數據集沿用并改進(如引入不同 IoU 閾值的 mAP 平均)。

研究應用與影響
R-CNN、Fast R-CNN、Faster R-CNN、YOLO 等開創性檢測算法都是在 Pascal VOC 上首次亮相的。盡管如今數據規模已被 COCO 等大數據集超越,Pascal VOC 仍是入門目標檢測和快速模型驗證的經典選擇。

優缺點分析

  • 優點:類別均衡、標注質量高、任務定義清晰

  • 缺點:類別數少、場景較為單一,不足以支持復雜模型的全面訓練


2.2 Microsoft COCO —— 場景化與多任務標注的典范

數據集概述
COCO(Common Objects in Context)由微軟研究院于 2014 年發布,旨在解決早期數據集場景單一、物體孤立的問題。COCO 的圖像來源多樣且貼近真實生活,物體經常以遮擋、不同尺度、不同姿態出現,極大提升了檢測任務的挑戰性。

數據規模

  • 圖像總數:約 328,000 張

  • 目標類別:80 類 “things” 類目標

  • 實例總數:約 250 萬

  • 其他標注:91 類 “stuff” 類語義區域、5 個關鍵點(人體姿態)、實例分割、多句圖像描述

  • 數據劃分

    • Train2017:約 118K 張圖像

    • Val2017:5K 張圖像

    • Test2017:20K 張圖像(評測需提交結果)

標注特色

  • 每個實例都有精細的分割掩碼(而不僅是矩形框)

  • 提供關鍵點標注,支持人體姿態估計

  • 標注背景(stuff),有助于場景理解

評測指標
COCO mAP 采用多個 IoU 閾值(0.5:0.05:0.95)的平均結果,考察模型在不同精度要求下的表現,較 VOC 的單一 IoU=0.5 評測更嚴格。

應用與競賽
COCO 每年都會舉辦 COCO Challenge,吸引全球頂尖研究團隊參賽,是目標檢測、實例分割、關鍵點檢測等任務的黃金標準。

優缺點分析

  • 優點:場景復雜、標注全面、任務多樣、評測標準嚴格

  • 缺點:類別數量相對有限(80 類),對長尾類別不夠友好;數據集規模較大,訓練開銷高


2.3 ImageNet Detection —— 從分類到檢測的延伸

背景
ImageNet 最初是大規模圖像分類數據集(超過 1400 萬張圖,1000+ 類別),在 2013–2017 年間的 ImageNet Large Scale Visual Recognition Challenge(ILSVRC)中,增加了檢測任務子集(ImageNet Detection)。

數據規模

  • 圖像數量:約 450,000 張

  • 類別數:200 類

  • 標注形式:矩形邊界框

應用
ImageNet Detection 更多用于大規模預訓練,再遷移到下游檢測任務(如 COCO、VOC)中,顯著提升模型精度。


2.4 Open Images —— 大規模多標注數據集

簡介
Open Images 是由 Google 發布的開放數據集,規模巨大,涵蓋豐富的標注類型,包括邊界框、實例分割、多標簽分類、視覺關系等。

數據規模

  • 圖像總數:約 900 萬張

  • 檢測類別:約 600 類

  • 實例總數:數千萬個標注框

  • 額外標注:視覺關系(如“人-騎-自行車”)、圖像級標簽

特點

  • 類別數量多,適合大詞匯量目標檢測

  • 包含大量稀有類別,適合少樣本學習

  • 圖像來源多樣,包括網絡爬取與人工標注


2.5 LVIS —— 長尾挑戰的試金石

背景
LVIS(Large Vocabulary Instance Segmentation)是 COCO 的擴展,旨在解決類別分布的長尾問題。

數據規模

  • 圖像總數:164,000+

  • 類別數:1000+

  • 標注:實例分割掩碼

  • 類別分布:少樣本類別占大多數

2.6 Objects365 —— 大規模物體檢測專用數據集

簡介
Objects365 由 Megvii(曠視科技)發布,專門為目標檢測任務構建。相比 COCO 的 80 類,它大幅擴展到 365 類,類別覆蓋日常生活、室內外物品、自然物體等多個領域。

數據規模

  • 圖像總數:約 63 萬張(訓練集)+ 5 萬張(驗證集)

  • 類別數:365

  • 標注數量:約 1000 萬個邊界框

  • 場景:街景、室內、自然環境、商店等多樣化場景

特點與應用

  • 類別數量多,適合大詞匯量目標檢測研究

  • 場景多樣性高,涵蓋物體尺度差異大、遮擋嚴重等復雜情況

  • 在大模型預訓練中常作為補充數據集使用,例如 DETR、YOLOv8 等模型的多數據混合訓練


2.7 Visual Genome —— 視覺關系與密集標注

簡介
Visual Genome 是斯坦福大學發布的一個多任務視覺數據集,主要用于圖像理解與視覺問答,但它也包含豐富的目標檢測標注(物體框)。

數據規模

  • 圖像總數:108,077 張

  • 標注物體數:約 380 萬個

  • 類別數:約 33,877(包括同義詞和細分類別)

  • 其他標注:物體屬性、物體之間的關系(如“人-騎-馬”)、區域描述

特點

  • 極大詞匯量(33K 類別),適合長尾分布研究

  • 同時提供視覺關系圖譜,可擴展到 scene graph generation(場景圖生成)任務

  • 物體類別細粒度化,但存在標注噪聲和同義詞冗余


2.8 WIDER FACE —— 面部檢測的黃金標準

簡介
WIDER FACE 由香港中文大學發布,是人臉檢測任務的權威數據集,適合檢測小目標與密集目標。

數據規模

  • 圖像總數:32,203 張

  • 人臉實例:393,703 個

  • 數據劃分:Train(40%)、Val(10%)、Test(50%)

  • 難度等級:Easy、Medium、Hard(根據人臉尺寸、遮擋、姿態劃分)

特點與應用

  • 覆蓋不同姿態、光照、遮擋、尺度的人臉

  • 在安全監控、行人分析、人臉識別前置檢測等領域應用廣泛

  • 檢測算法如 MTCNN、RetinaFace 等在此評測


2.9 CrowdHuman —— 高密度行人檢測

簡介
CrowdHuman 數據集專門針對行人檢測中的密集人群場景,旨在解決遮擋與重疊問題。

數據規模

  • 圖像總數:約 15K 張(訓練集)+ 4K 張(驗證集)

  • 行人實例:超過 33 萬個標注框

  • 標注類型:

    • Full body:完整人體框

    • Visible body:可見部分框

    • Head box:頭部框

特點

  • 平均每張圖像有 22+ 行人,遮擋嚴重

  • 對算法的密集檢測能力和 NMS(非極大值抑制)策略提出更高要求

  • 常與 CityPersons、WIDER Pedestrian 一起用于行人檢測算法評測


2.10 PASCAL Context —— VOC 的場景理解升級版

簡介
PASCAL Context 是在 Pascal VOC 2010 數據集的基礎上擴展的場景標注版本,包含更多物體類別與“stuff”背景標注。

數據規模

  • 圖像總數:10,103 張

  • 類別數:400+(包含“thing”和“stuff”類別)

  • 標注:像素級分割(每個像素標注類別)

特點與應用

  • 相比 VOC 的 20 類,Context 提供了更加全面的場景信息

  • 適合多任務學習,將檢測與語義分割、場景理解結合

  • 類別分布依舊偏向常見物體,長尾類別樣本少

意義
LVIS 非常適合測試模型在長尾分布下的泛化能力,也是 few-shot detection 研究的重要基準。


三、特定領域數據集

3.1 自動駕駛

  • KITTI:包含實車采集的街景圖像,標注 2D/3D 邊界框

  • Cityscapes:高質量城市街道語義分割與檢測

  • BDD100K:10 萬張多任務標注駕駛場景

  • nuScenes:多傳感器融合(攝像頭、激光雷達、雷達)數據

3.2 航拍與無人機

  • DOTA:高分辨率遙感影像,多種旋轉目標標注

  • VisDrone:無人機視角圖像和視頻,含檢測與跟蹤任務

  • xView:覆蓋多種地理區域與目標類型的遙感檢測數據

3.3 生態與農業

  • iNaturalist Detection:真實物種分布,長尾特性

  • Global Wheat:小麥穗檢測,農業產量分析


四、數據集對比表

數據集圖像數類別數標注類型特點
Pascal VOC11K20邊界框/分割經典入門,場景簡單
COCO328K80邊界框/分割/關鍵點場景復雜,多任務
ImageNet Det450K200邊界框大規模預訓練
Open Images9M600+多標注類別豐富,長尾分布
LVIS164K1000+分割長尾挑戰
KITTI15K2D/3D 框自動駕駛
DOTA2800+ 圖15+旋轉框航拍遙感
iNaturalist859K5000+邊界框生態物種檢測


五、趨勢與挑戰

  1. 長尾分布與少樣本學習:LVIS、Open Images 等長尾數據集對模型提出了更高要求。

  2. 多任務融合:COCO 等數據集同時包含檢測、分割、姿態估計等任務。

  3. 3D 與多模態:nuScenes 等結合多傳感器信息,推動 3D 檢測發展。

  4. 自動化標注:弱監督、半監督方法減少人工標注成本。

  5. 跨域泛化:模型需要在不同數據分布間保持性能穩定。


六、結語

目標檢測數據集的發展,推動了從簡單物體識別到復雜場景理解的技術演進。選擇合適的數據集,不僅關乎模型訓練效果,也決定了研究的方向與價值。從 Pascal VOC 到 LVIS,從自動駕駛到生態保護,數據集的多樣性正不斷拓展目標檢測的邊界。未來,隨著多模態感知、弱監督標注和跨域泛化等方向的推進,數據集的形態與規模也將繼續演化,為計算機視覺帶來新的挑戰與機遇。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/93063.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/93063.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/93063.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

數據備份與進程管理

一、數據備份1.Linux服務器中需要備份的數據(1)Linux系統重要數據:/root/目錄,/home/目錄,/etc/目錄(2)安裝服務的數據:Apache(配置文件,網頁主目錄&#xff…

docker volume卷入門教程

1. 基礎概念 Docker卷是專門用于持久化容器數據的存儲方案,獨立于容器生命周期。其核心優勢包括: 數據持久化:容器刪除后數據仍保留跨容器共享:多個容器可訪問同一卷備份與遷移:支持直接復制卷數據驅動支持&#xff1a…

計算機網絡——協議

1. 計算機網絡分層1.1 OSI 7層模型應用層表示層會話層傳輸層網絡層數據鏈路層物理層1.2 TCP/IP 4 層模型應用層運輸層網際層網絡接口層1.3 5層體系機構應用層傳輸層網絡層數據鏈路層物理層2. 應用層協議2.1 HTTP協議2.1.1 基本介紹HTTP(HyperText Transfer Protocol…

【React】hooks 中的閉包陷阱

在 React Hooks 中的 閉包陷阱(Closure Trap)在 useEffect、事件回調、定時器等場景里很常見。1. 閉包陷阱是什么 當你在函數組件里定義一個回調(比如事件處理函數),這個回調會捕獲當時渲染時的變量值。如果后面狀態更…

校園快遞小程序(騰訊地圖API、二維碼識別、Echarts圖形化分析)

🎈系統亮點:騰訊地圖API、二維碼識別、Echarts圖形化分析;一.系統開發工具與環境搭建1.系統設計開發工具后端使用Java編程語言的Spring boot框架 項目架構:B/S架構 運行環境:win10/win11、jdk17小程序: 技術…

Python網絡爬蟲(二) - 解析靜態網頁

文章目錄一、網頁解析技術介紹二、Beautiful Soup庫1. Beautiful Soup庫介紹2. Beautiful Soup庫幾種解析器比較3. 安裝Beautiful Soup庫3.1 安裝 Beautiful Soup 43.2 安裝解析器4. Beautiful Soup使用步驟4.1 創建Beautiful Soup對象4.2 獲取標簽4.2.1 通過標簽名獲取4.2.2 通…

【Linux基礎知識系列】第九十四篇 - 如何使用traceroute命令追蹤路由

在網絡環境中,了解數據包從源主機到目標主機的路徑是非常重要的。這不僅可以幫助我們分析網絡連接問題,還可以用于診斷網絡延遲、丟包等問題。traceroute命令是一個強大的工具,它能夠追蹤數據包在網絡中的路徑,顯示每一跳的延遲和…

達夢數據閃回查詢-快速恢復表

Time:2025/08/12Author:skatexg一、環境說明DM數據庫:DM8.0及以上版本二、適用場景研發在誤操作或變更數據后,想馬上恢復表到某個時間點,可以通過閃回查詢功能快速實現(通過全量備份恢復時間長,成本高)三、…

力扣(LeetCode) ——225 用隊列實現棧(C語言)

題目:用隊列實現棧示例1: 輸入: [“MyStack”, “push”, “push”, “top”, “pop”, “empty”] [[], [1], [2], [], [], []] 輸出: [null, null, null, 2, 2, false] 解釋: MyStack myStack new MyStack(); mySta…

微軟推出AI惡意軟件檢測智能體 Project Ire

開篇 在8月5號,微軟研究院發布了一篇博客文章,在該篇博客中推出了一款名為Project Ire的AI Agent。該Agent可以在無需人類協助的情況下,自主分析和分類二進制文件。它可以在無需了解二進制文件來源或用途的情況下,對文件進行完全的…

哪些對會交由SpringBoot容器管理?

在 Spring Boot 中,交由容器管理的對象通常稱為“Spring Bean”,這些對象的創建、依賴注入、生命周期等由 Spring 容器統一管控。以下是常見的會被 Spring Boot 容器管理的對象類型及識別方式: 一、通過注解聲明的組件(最常見) Spring Boot 通過類級別的注解自動掃描并注…

Android POS應用在android運行常見問題及解決方案

概述 本文檔記錄了在Android POS應用開發過程中遇到的兩個關鍵問題及其解決方案: UnsatisfiedLinkError: couldnt find "libnative.so" 錯誤ActivityNotFoundException 錯誤商戶信息一致性檢查繞過 問題1:UnsatisfiedLinkError - libnative.so…

基于SpringBoot的旅游網站系統

1. 項目簡介 旅游線路管理系統是一個基于Spring Boot的在線旅游服務平臺,提供旅游線路展示、分類、預訂、訂單管理等功能。系統包含前臺用戶界面和后臺管理模塊,支持用戶注冊登錄、線路瀏覽、收藏、下單支付、客服咨詢等核心功能。管理員可管理線路信息、…

CVPR 2025 | 機器人操控 | RoboGround:用“掩碼”中介表示,讓機器人跨場景泛化更聰明

點擊關注gongzhonghao【計算機sci論文精選】1.導讀1.1論文基本信息論文標題:ROBOGROUND: Robotic Manipulation with Grounded Vision-Language Priors作者:Haifeng Huang, Xinyi Chen, Hao Li, Xiaoshen Han, Yilun Chen, Tai Wang, Zehan W…

構建Node.js單可執行應用(SEA)的方法

如果為了降低部署復雜度,可以考慮使用vercel/ncc。除非有特別理由,不建議使用SEA。1. 環境準備1.1. 基礎要求Node.js: > 19.0.0 (推薦最新LTS版本)1.2. 安裝依賴npm install postject typescript1.3. 驗證環境node -v # 確認版本 > 19 ts…

Java19 Integer 位操作精解:compress與expand《Hacker‘s Delight》(第二版,7.4節)

compress(int i, int mask) 這個方法是Java 19中新增的一個強大的位操作函數。compress 方法的核心功能可以理解為 “按位過濾和壓縮” 。過濾 (Filter): 它使用 mask(掩碼)作為過濾器。對于輸入整數 i,只有那些在 mask 中對應位為 1 的比特才…

minio部署和雙機熱備

安裝單機版MinIO(準備2臺機器A、B,A、B服務器操作一致)切換目錄并下載MinIO二進制文件cd /usr/local/bin wget https://dl.minio.org.cn/server/minio/release/linux-amd64/minio chmod x minio編輯配置文件vi /etc/default/minio.confMINIO_VOLUMES&quo…

【Java】 Java 21 革命性升級:虛擬線程與結構化并發的深度實踐指南

還在為高昂的AI開發成本發愁?這本書教你如何在個人電腦上引爆DeepSeek的澎湃算力! Java 21 作為 Oracle JDK 的長期支持版本,引入了多項革命性特性,其中虛擬線程(Virtual Threads)和結構化并發(Structured Concurrency)尤為突出。這些特性旨在解決傳統線程模型在高并發…

Apache IoTDB 全場景部署:基于 Apache IoTDB 的跨「端-邊-云」的時序數據庫 DB+AI

Apache IoTDB 全場景部署:基于 Apache IoTDB 的跨「端-邊-云」的時序數據庫 DBAI 文章目錄Apache IoTDB 全場景部署:基于 Apache IoTDB 的跨「端-邊-云」的時序數據庫 DBAIApache IoTDB 介紹Docker部署指導企業版數據庫配套工具 WorkbenchTimechoDB&…

計算機網絡---傳輸控制協議Transmission Control Protocol(TCP)

一、TCP的定位與核心特性 TCP(Transmission Control Protocol,傳輸控制協議)是TCP/IP協議棧中傳輸層的核心協議,與UDP(用戶數據報協議)共同承擔端到端數據傳輸功能。其設計目標是在不可靠的IP網絡上提供可靠…