一、如何找數據集
-
paperswithcode,但好像沒了
-
AutoDL
-
Roboflow
-
Kaggle
-
Hungging Face
-
百度飛漿PP AIStudio
二、目標檢測數據集格式
常用數據集坐標格式
- MSCOCO : 坐標格式(x,y,w,h),其中 x , y 是左上角的坐標
- Pascal VOC :坐標格式(xmin,ymin,xmax,ymax),其中 (xmin, ymin) 是左上角的坐標,(ymin, ymax)是右下角的坐標
- YOLO 要求坐標格式為(cx,cy,w,h), 其中 cx,cy 是 bbox 中心點的坐標
Pascal VOC
簡介,官方
PASCAL 全稱:Pattern Analysis, Statical Modeling and Computational Learning?
?PASCAL VOC(The PASCAL Visual Object Classes )是一個經典的計算機視覺數據集,由牛津大學、馬里蘭大學和微軟劍橋研究院的研究人員創建的。 該數據集于2005年首次發布,從那時起就被用于訓練和評估目標檢測算法。? ?
PASCAL VOC 從 2005年開始舉辦挑戰賽,每年的內容都有所不同,主要包括:?
- 圖像分類(Classification )?
- 目標檢測(Detection)?
- 目標分割(Segmentation)?
- 人體布局(Human Layout)?
- 動作識別(Action Classification)? ?
我們知道在 ImageNet挑戰賽上涌現了一大批優秀的分類模型,而PASCAL挑戰賽上則是涌現了一大批優秀的目標檢測和分割模型,這項挑戰賽已于2012年停止舉辦了,但是研究者仍然可以在其服務器上提交預測結果以評估模型的性能。? ?
雖然近期的目標檢測或分割模型更傾向于使用MS COCO數據集,但是這絲毫不影響 PASCAL VOC數據集的重要性,畢竟PASCAL對于目標檢測或分割類型來說屬于先驅者的地位。對于現在的研究者來說比較重要的兩個年份的數據集是 PASCAL VOC 2007 與 PASCAL VOC 2012,這兩個數據集頻頻在現在的一些檢測或分割類的論文當中出現。
官網地址:http://host.robots.ox.ac.uk/pascal/VOC/?
官方文檔 : http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.pdf
MS COCO
簡介、官網、論文
全稱為Microsoft Common Objects in Context,是一個由微軟公司創建的用于圖像識別和物體檢測的大型數據集。
官網地址:https://cocodataset.org/
點擊Dataset下的Explore可以查相關類別的示例圖。
論文地址:Microsoft COCO: Common Objects in Context,PDF下載
數據集特點
stuff是指沒有明確邊界的物體,比如天空、街道、草地等等。
版本,下載
MS COCO數據集有兩個版本:MS COCO 2014和MS COCO 2017。這里介紹2017版本,2017版數據集是對2014版數據集的擴展和更新,2017版較2014版的變化有:
- 2017版和2014版使用完全相同的圖像
- 2017版訓練集/驗證集的劃分是118K/5K,而2014版是83K/41K
- 2017版中用于檢測類任務 / 關鍵點檢測的注釋和2014版是一樣的,但是增加了40K張訓練圖像(118K訓練集中的子集)和所有驗證集的stuff標注(后面有介紹stuff categories)
- 2017年的測試集只有兩個部分(開發集/挑戰集),而2014版的測試集有四個部分(開發集/標準集/儲備集/挑戰集)。開發集用于比賽選手自己測試,挑戰集用于競賽。
- 2017版發布12萬張來自COCO的無標記的圖像,這些圖像遵循與標記圖像相同的類分布,可用于半監督學習。
數據結構
.
├── annotations
│ ├── captions_train2017.json 圖像描述的 訓練集標注文件
│ ├── captions_val2017.json 圖像描述的 驗證集標注文件
│ ├── instances_train2017.json 對應目標檢測、分割任務的 訓練集標注文件
│ ├── instances_val2017.json 目標檢測、分割任務的 驗證集標注文件
│ ├── person_keypoints_train2017.json 人體關鍵點檢測的 訓練集標注文件
│ └── person_keypoints_val2017.json 人體關鍵點檢測的 驗證集標注文件
├── train2017
│ ├── 000000000009.jpg
│ ├── 000000000025.jpg
│ ├── 000000000030.jpg
│ ├── 000000000034.jpg
│ ├── 000000000036.jpg
│ └── ... (共118287張圖像)
└── val2017├── 000000000139.jpg├── 000000000285.jpg├── 000000000632.jpg├── 000000000724.jpg├── 000000000776.jpg└── ... (共5000張圖像)