本文按目標檢測、實例分割、姿態估計、多目標跟蹤、單目標跟蹤、圖像分類、單目深度估計七個任務分類,融合數據集介紹、評價指標及推薦算法,方便查閱:
一、目標檢測
目標檢測任務需定位圖像中目標的邊界框(bounding box)并識別其類別。
常用數據集
-
PASCAL VOC:最早于 2005 年發布,常用版本是 PASCAL VOC 2007 和 PASCAL VOC 2012。包含 20 個類別,如人、動物、交通工具等,PASCAL VOC 2007 有 9963 張標注圖片,標注出 24640 個目標物體;PASCAL VOC 2012 包含 1530 張圖片,標注出 27450 個目標物體,圖像有對應的 XML 文件標注目標位置和類別。
-
ImageNet & ILSVRC:由斯坦福大學和普林斯頓大學合作建立,包含 1400 多萬張圖片,2 萬多個類別。常用子數據集 ILSVRC 涵蓋 1000 個對象類別,有 1281167 張訓練圖像,50000 張驗證圖像和 100000 張測試圖像,是計算機視覺領域圖像算法性能檢驗的標準數據集。
-
MS-COCO:2015 年發布,含 32.8 萬張圖片(20 萬 + 帶詳細標注)、91 個類別,特點是場景復雜、單圖目標多(平均每張圖 7.7 個)、小目標多(如遠處行人、小物體),標注包括邊界框、類別、分割掩碼等,是當前目標檢測最主流的數據集之一。
-
Open Images:谷歌團隊發布,2020 年發布的 Open Images V6 包含 900 萬張圖片,600 種對象,1600 萬個 bounding - box 標注,是較大的帶圖像位置標注的數據集,圖像場景復雜,平均每張圖片 8.3 個目標。
-
DOTA:航空遙感圖像檢測常用數據集,包含 2806 張各種尺度圖像,劃分為 1/6 驗證集,1/3 測試集,1/2 訓練集,有 15 個類別共 188282 個目標對象,圖像由領域內人士標注。
評價指標
- mAP(mean Average Precision):
核心指標,計算每個類別的 AP(Precision-Recall 曲線下面積),再取平均值。不同數據集可能采用不同 IoU(交并比)閾值,如 COCO 默認 IoU=0.5:0.95(從 0.5 到 0.95 間隔 0.05 的 10 個閾值),VOC 常用 IoU=0.5。 - FPS(Frames Per Second):
衡量模型實時性,每秒處理的圖像數量,越高說明速度越快,適合實時場景(如自動駕駛、監控)。
推薦算法
- YOLO 系列(YOLOv5/v7/v8/v10/v11/v12):單階段模型,將檢測視為回歸問題,速度極快(YOLOv8 在 GPU 上可達數百 FPS),適合實時場景(如監控、無人機)。
-RT-DETR:由百度開發的實時檢測 Transformer (RT-DETR) 是一種先進的端到端目標檢測器,可在保持高精度的同時提供實時性能。它基于 DETR(無 NMS 框架)的思想,同時引入了基于 conv 的backbone和一個高效的混合編碼器以獲得實時速度。
二、實例分割
實例分割需同時定位目標(邊界框)并分割出每個目標的像素區域(區分同一類別的不同個體)。
常用數據集
- MS-COCO:
最常用的實例分割數據集,標注包含每個目標的掩碼(mask),91 個類別,支持訓練和評估分割模型(如 Mask R-CNN 在 COCO 上的基準測試)。 - ADE20K:2016 年 MIT 開放的場景理解數據集,由 27000 張圖像組成,包含超過 3000 個物體類別,標注了實例 id,可用于實例分割,還可用于語義分割和零部件分割。
- Cityscapes:有精細標注數據集(3475 張訓練圖像,1525 張測試圖像)和粗糙標注數據集,主要包含城市街區的場景數據,可用于實例分割任務,幫助理解城市環境中的物體。
評價指標
- mAP(mask):
類似目標檢測的 mAP,但以分割掩碼的 IoU(掩碼交并比)為基準,計算每個類別的 AP 后取平均,是實例分割的核心指標。 - Mask IoU:
單個目標的掩碼與真實標注的交并比,衡量分割的精細度。
推薦算法
- YOLO 系列(YOLOv5/v7/v8/v10/v11/v12):
單階段實例分割模型,在 YOLO基礎上增加分割頭,速度快(接近實時),適合對效率要求高的場景(如機器人視覺)。 - SOLO(Segmenting Objects by Locations):
無錨框(anchor-free)模型,通過目標位置和大小直接生成掩碼,避免錨框設計的復雜性,精度和速度均較優。
三、姿態估計
姿態估計需定位目標(通常是人)的關鍵關節點(如頭部、肩膀、手腕),輸出點坐標及連接關系。
常用數據集
- Leeds Sports Pose (LSP) Dataset:
含 2000 張圖像(1000 張訓練、1000 張測試),基于 8 項運動(如跑步、體操)采集,每張圖標注 14 個全身關鍵點,適合單人姿態估計入門。 - MPII 數據集:
大型數據集,從 491 個 YouTube 視頻中提取 24920 幀,標注 16 個關鍵點(含可見性標簽),共 40522 人,場景涵蓋日常活動(如做飯、走路),是姿態估計的主流基準。 - MS-COCO(關鍵點子集):
標注 17 個人體關鍵點(如鼻子、眼睛、手肘),含可見性標簽、邊界框和身體分割區域,支持多人姿態估計,常作為模型性能的重要測試集。
評價指標
- PCK(Percentage of Correct Keypoints):
核心指標,計算關鍵點預測坐標與真實坐標的距離小于閾值(如頭部直徑的 0.5 倍)的比例,閾值越大,對誤差的容忍度越高。 - PCKh(PCK for Head):
以頭部長度為基準計算閾值的 PCK 變體,更適合全身姿態估計(因不同人體型差異大,頭部尺寸更穩定)。 - mAP(keypoint):
COCO 采用的指標,基于關鍵點預測的精度(距離閾值)和召回率計算 AP,再取平均值。
推薦算法
- HRNet(High-Resolution Network):
保持高分辨率特征圖貫穿網絡,避免低分辨率特征導致的細節丟失,在 MPII、COCO 等數據集上精度領先,適合對關鍵點定位精度要求高的場景(如動作捕捉)。 - YOLO-Pose:
基于 YOLO 框架的單階段姿態估計模型,速度快(支持實時推理),適合實時場景(如舞蹈動作分析、監控中的行為識別)。 - AlphaPose:
專為多人姿態估計設計,通過目標檢測 + 姿態估計聯合優化,支持復雜場景下的多人關鍵點定位,開源工具鏈完善。
四、多目標跟蹤(MOT)
多目標跟蹤需在視頻序列中同時跟蹤多個目標,輸出每個目標的軌跡(ID + 邊界框)。
常用數據集
- MOT Challenge 系列:最主流的 MOT 數據集,逐年更新(MOT15-MOT20),以行人跟蹤為主,場景包括城市街道、商場等,含動態背景、遮擋、目標進出等挑戰。例如 MOT17 含 14 段視頻,提供 3 種檢測器的檢測框;MOT20 增加了小目標和密集場景。
- KITTI Tracking:面向自動駕駛,由車載傳感器(攝像頭、激光雷達)采集,含行人、汽車、自行車等目標,場景涵蓋城市、鄉村、高速,標注含 3D 位置信息,適合多模態跟蹤。
- UA-DETRAC:
專注車輛跟蹤,含 60 段視頻(10 萬 + 幀),涵蓋不同天氣(晴、雨、霧)和交通密度,目標包括轎車、卡車等,挑戰在于尺度變化和遮擋。
評價指標
- MOTA(Multiple Object Tracking Accuracy):
綜合考慮誤檢、漏檢、ID 切換的核心指標,取值范圍 (-∞,1],越高越好(1 為完美跟蹤)。 - MOTP(Multiple Object Tracking Precision):
跟蹤框與真實框的平均 IoU,衡量定位精度,取值 [0,1],越高越好。 - IDF1(ID F1-Score):
基于目標 ID 匹配的 F1 分數,衡量軌跡連貫性,越高說明 ID 切換越少。
推薦算法
- SORT(Simple Online and Realtime Tracking):
經典的在線跟蹤算法,結合卡爾曼濾波(預測目標運動)和匈牙利算法(匹配檢測框與軌跡),速度快但 ID 切換較多。 - DeepSORT:
SORT 的改進版,引入外觀特征(CNN 提取目標特征)輔助匹配,減少 ID 切換,在 MOT Challenge 中表現優異,適合實時場景(如監控)。 - ByteTrack:
創新地利用低置信度檢測框輔助跟蹤,解決遮擋和小目標丟失問題,在 MOT17/20 上的 MOTA 指標領先,適合密集場景。
五、單目標跟蹤(SOT)
單目標跟蹤需在視頻首幀指定目標后,在后續幀中持續跟蹤該目標(僅關注一個目標的軌跡)。
常用數據集
- OTB 數據集:
分為 OTB50(50 段視頻)和 OTB100(100 段視頻),含灰度和彩色圖像,涵蓋 11 種挑戰屬性(光照變化、尺度變化、遮擋等),評價初始化魯棒性,是 SOT 的基礎測試集。 - VOT 數據集:
每年更新(VOT2013-VOT2023),均為彩色視頻,標注更精細(含目標消失 / 出現標記),分辨率更高,評價指標側重跟蹤與檢測的結合(允許目標暫時丟失后重新檢測)。 - LaSOT:
大規模長視頻數據集,含 1400 段視頻(每段 1000 + 幀),涵蓋 70 個類別,挑戰包括長期遮擋、快速運動等,適合測試跟蹤算法的穩定性。
評價指標
- Success Plot:
以跟蹤框與真實框的 IoU 為閾值(0-1),繪制成功跟蹤的幀數比例曲線,曲線下面積(AUC)越大越好。 - Precision Plot:
以中心位置誤差(跟蹤框中心與真實框中心的距離)為閾值,繪制精度曲線,常用閾值為 20 像素,精度越高越好。 - EAO(Expected Average Overlap):
VOT 數據集專用指標,綜合考慮跟蹤成功率和魯棒性(目標丟失后重新初始化的成本),值越高越好。
推薦算法
- SiamRPN++:
基于孿生網絡(Siamese Network)和 RPN 的跟蹤算法,通過共享權重的特征提取網絡計算目標模板與候選區域的相似度,速度快(實時)且精度高,是 SOT 的經典模型。 - TransT(Transformer Tracking):
引入 Transformer 的自注意力和交叉注意力機制,增強目標與背景的區分能力,在復雜場景(如遮擋、背景干擾)中表現優異。 - Stark:
結合孿生網絡和 Transformer,通過時空注意力建模目標運動,在長視頻跟蹤(LaSOT)中性能領先,適合需要長期跟蹤的場景(如無人機跟拍)。
六、圖像分類
是計算機視覺領域的基礎任務,旨在將圖像劃分到不同的類別中。以下是一些常用圖像分類數據集、評價指標及推薦算法的介紹:
常用數據集
- FruitNet 水果分類 / 識別數據集:包含蘋果、香蕉等 6 種印度水果的 14700 多張高質量圖像,圖像分為優質、劣質和混合質量 3 個子文件夾,可用于水果分類模型訓練。
- intel 自然風光圖像分類數據集:包含約 25000 張大小為 150x150 的圖像,分為建筑物、森林、冰川、山、海、街道 6 個類別。
- 花卉數據集:包含 4242 張花卉圖像,分為洋甘菊、郁金香、玫瑰、向日葵、蒲公英 5 類,可用于植物識別。下載鏈接:http://suo.nz/2fGKVt。
- 90 種動物圖像數據集:有 90 個不同類別的 5400 張動物圖像,如羚羊、獾、蝙蝠等,圖像大小不固定。下載鏈接:http://suo.nz/2ncY0a。
- 衣服數據集:收集了 20 種衣服的 5000 張圖像,包括 T 恤、長袖、褲子等類別,標簽經過手動標注和神經網絡糾正。
- 商標數據集:構建了大規模的 Logo-2K + 數據集,包含 167140 張圖像,有 10 個根類別和 2341 個類別。
- ImageNet:包含約 1400 萬張圖像,跨越約 21000 個類別,其子任務競賽 ILSVRC 推動了深度卷積神經網絡的發展,是圖像分類領域的重要數據集。
- iNaturalist:長尾分布數據集,涵蓋大量動植物物種,如 iNat-2021 包含 10k 類。
- CheXpert:醫學 X 光圖像分類數據集,有 14 類病理標簽,用于醫學圖像分類研究。
評價指標
- 準確率(Accuracy):正確預測的樣本數與總樣本數的比值,適用于類別均衡的二分類或多分類任務,但在數據不均衡時容易產生誤導。
- 混淆矩陣(Confusion Matrix):通過展示 TP(真正例)、TN(真負例)、FP(假正例)、FN(假負例),直觀呈現分類結果,是計算其他指標的基礎。
- 精確率(Precision):預測為正類的樣本中,實際為正類的比例,注重減少誤報。
- 召回率(Recall / Sensitivity):實際為正類的樣本中,被正確預測的比例,注重減少漏報。
- F1-Score:精確率和召回率的調和平均,用于平衡兩者矛盾,適用于類別不均衡或需要綜合評估精確率和召回率的場景。
- 宏平均(Macro-Average):對每個類別的指標單獨計算后取算術平均,平等看待每個類別,適合類別均衡的場景。
- 微平均(Micro-Average):將所有類別的 TP、FP、FN 匯總后計算全局指標。
- 加權平均(Weighted Average):按每個類別的樣本數加權平均,在類別不均衡時更合理。
- Top-k 準確率(Top-k Accuracy):模型預測概率前 k 高的類別中包含真實標簽的比例,適用于細粒度分類或類別語義相似的任務。
推薦算法
- 卷積神經網絡(CNN):是圖像分類的經典算法,如YOLO、 LeNet、AlexNet、VGGNet、ResNet 等。通過卷積層、池化層和全連接層等結構,自動提取圖像特征,具有強大的特征表達能力。
- Transformer:近年來在圖像分類領域也取得了很好的效果,如 ViT(Vision Transformer)。它將 Transformer 結構應用于圖像領域,通過將圖像分塊并映射為序列輸入,利用自注意力機制捕捉圖像全局特征。
- 遷移學習算法:利用在大規模數據集(如 ImageNet)上預訓練的模型,如 ResNet50、EfficientNet 等,然后在自己的數據集上進行微調。可以減少訓練時間和數據量,提高模型性能。
七、單目深度估計
單目深度估計是計算機視覺中通過單張二維圖像推斷出場景三維深度信息的任務,在自動駕駛、機器人導航、增強現實等領域有重要應用。以下是其常用數據集、評價指標及推薦算法的介紹:
常用數據集
- KITTI
- 簡介:基于車載傳感器的真實駕駛場景數據集,包含單目圖像、激光雷達點云(可作為深度真值)等數據,場景涵蓋城市道路、鄉村、高速公路等,深度范圍主要集中在 0-100 米。
- 特點:數據真實且具有挑戰性(如動態物體、光照變化),是單目深度估計的基準數據集之一。
- NYU Depth V2
- 簡介:室內場景數據集,由 RGB-D 相機采集,包含 464 個場景的 1449 張圖像,深度真值通過紅外傳感器獲取,場景以家庭、辦公室等室內環境為主,深度范圍較小(通常 0-10 米)。
- 特點:室內細節豐富,適合室內深度估計模型的訓練與評估。
- Make3D
- 簡介:包含戶外自然場景的單目圖像和對應的激光雷達深度數據,共 134 個訓練樣本和 134 個測試樣本,場景包括街道、公園、建筑物等。
- 特點:數據量較小,但早期常用于單目深度估計的研究。
- DDAD (Dense Depth for Autonomous Driving)
- 簡介:專注于自動駕駛場景的大規模數據集,包含高分辨率單目圖像和精確的深度真值(通過多傳感器融合生成),場景覆蓋復雜城市環境、惡劣天氣等,數據量達 10 萬級。
- 特點:深度真值精度高,更貼近真實自動駕駛需求。
- Matterport3D
- 簡介:大規模室內場景數據集,包含從真實建筑中采集的 RGB 圖像、深度圖、3D 點云等,涵蓋住宅、商業空間等多種室內場景,深度信息通過多視圖重建獲得。
- 特點:場景多樣性強,適合訓練通用室內深度估計模型。
評價指標
單目深度估計的評價指標主要用于衡量預測深度與真實深度的差異,常用的有:
- 絕對相對誤差(Absolute Relative Error, Abs Rel)
- 含義:預測深度與真實深度的相對誤差的平均值,值越小越好。
- 平方相對誤差(Squared Relative Error, Sq Rel)
- 含義:對較大的相對誤差更敏感,值越小越好。
- 均方根誤差(Root Mean Squared Error, RMSE)
- 含義:預測深度與真實深度的絕對誤差的平方和均值的平方根,受異常值影響較大,值越小越好。
- 對數均方根誤差(RMSE log)
- 含義:對深度的對數空間誤差進行衡量,更適合處理大范圍深度數據,值越小越好。
- δ 指標(δ < 1.25, δ < 1.252, δ < 1.253)
- 含義:統計預測深度與真實深度的比值在 1.25 倍、1.56 倍(1.252)、1.95 倍(1.253)范圍內的樣本比例,比例越高越好,反映模型的整體預測精度。
推薦算法
- 基于卷積神經網絡(CNN)的方法
- U-Net 及變體:通過編碼器 - 解碼器結構提取多尺度特征,解碼器逐步恢復深度圖分辨率,如《Depth Map Prediction from a Single Image using a Multi-Scale Deep Network》中提出的多尺度 CNN 模型。
- 帶有注意力機制的 CNN:在 U-Net 基礎上引入注意力模塊(如空間注意力、通道注意力),聚焦于重要區域的特征學習,提升深度估計精度。
- 基于 Transformer 的方法
- ViT-Depth:將圖像分塊轉化為序列,通過 Transformer 的自注意力機制捕捉全局上下文信息,結合解碼器生成深度圖,適合處理長距離依賴關系(如遠景深度估計)。
- 混合模型(CNN + Transformer):如《Depthformer: Exploiting Transformers for Monocular Depth Estimation》,用 CNN 提取局部特征,Transformer 建模全局關系,兼顧局部細節和全局結構。
- 自監督 / 無監督學習方法
- 原理:無需真實深度標簽,通過單目視頻的時序一致性(如相鄰幀運動關系)或雙目圖像的立體匹配約束(如視差估計)進行訓練,降低對標注數據的依賴。
- 代表模型:《Unsupervised Monocular Depth Estimation with Left-Right Consistency》中基于雙目立體匹配的無監督方法,以及《Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos》中基于單目視頻的自監督方法。
- 多任務融合方法
- 結合語義分割、姿態估計等任務,利用任務間的關聯性提升深度估計性能,例如《Joint Semantic Segmentation and Depth Estimation with Deep Convolutional Networks》通過共享特征提取網絡,同時優化多個任務損失。