機器視覺任務（目標檢測、實例分割、姿態估計、多目標跟蹤、單目標跟蹤、圖像分類、單目深度估計）常用算法及公開數據集分享

本文按目標檢測、實例分割、姿態估計、多目標跟蹤、單目標跟蹤、圖像分類、單目深度估計七個任務分類，融合數據集介紹、評價指標及推薦算法，方便查閱：

一、目標檢測

目標檢測任務需定位圖像中目標的邊界框（bounding box）并識別其類別。

常用數據集

PASCAL VOC：最早于 2005 年發布，常用版本是 PASCAL VOC 2007 和 PASCAL VOC 2012。包含 20 個類別，如人、動物、交通工具等，PASCAL VOC 2007 有 9963 張標注圖片，標注出 24640 個目標物體；PASCAL VOC 2012 包含 1530 張圖片，標注出 27450 個目標物體，圖像有對應的 XML 文件標注目標位置和類別。
ImageNet & ILSVRC：由斯坦福大學和普林斯頓大學合作建立，包含 1400 多萬張圖片，2 萬多個類別。常用子數據集 ILSVRC 涵蓋 1000 個對象類別，有 1281167 張訓練圖像，50000 張驗證圖像和 100000 張測試圖像，是計算機視覺領域圖像算法性能檢驗的標準數據集。
MS-COCO：2015 年發布，含 32.8 萬張圖片（20 萬 + 帶詳細標注）、91 個類別，特點是場景復雜、單圖目標多（平均每張圖 7.7 個）、小目標多（如遠處行人、小物體），標注包括邊界框、類別、分割掩碼等，是當前目標檢測最主流的數據集之一。
Open Images：谷歌團隊發布，2020 年發布的 Open Images V6 包含 900 萬張圖片，600 種對象，1600 萬個 bounding - box 標注，是較大的帶圖像位置標注的數據集，圖像場景復雜，平均每張圖片 8.3 個目標。
DOTA：航空遙感圖像檢測常用數據集，包含 2806 張各種尺度圖像，劃分為 1/6 驗證集，1/3 測試集，1/2 訓練集，有 15 個類別共 188282 個目標對象，圖像由領域內人士標注。

評價指標

mAP（mean Average Precision）：
核心指標，計算每個類別的 AP（Precision-Recall 曲線下面積），再取平均值。不同數據集可能采用不同 IoU（交并比）閾值，如 COCO 默認 IoU=0.5:0.95（從 0.5 到 0.95 間隔 0.05 的 10 個閾值），VOC 常用 IoU=0.5。
FPS（Frames Per Second）：
衡量模型實時性，每秒處理的圖像數量，越高說明速度越快，適合實時場景（如自動駕駛、監控）。

二、實例分割

實例分割需同時定位目標（邊界框）并分割出每個目標的像素區域（區分同一類別的不同個體）。

常用數據集

MS-COCO：
最常用的實例分割數據集，標注包含每個目標的掩碼（mask），91 個類別，支持訓練和評估分割模型（如 Mask R-CNN 在 COCO 上的基準測試）。
ADE20K：2016 年 MIT 開放的場景理解數據集，由 27000 張圖像組成，包含超過 3000 個物體類別，標注了實例 id，可用于實例分割，還可用于語義分割和零部件分割。
Cityscapes：有精細標注數據集（3475 張訓練圖像，1525 張測試圖像）和粗糙標注數據集，主要包含城市街區的場景數據，可用于實例分割任務，幫助理解城市環境中的物體。

評價指標

mAP（mask）：
類似目標檢測的 mAP，但以分割掩碼的 IoU（掩碼交并比）為基準，計算每個類別的 AP 后取平均，是實例分割的核心指標。
Mask IoU：
單個目標的掩碼與真實標注的交并比，衡量分割的精細度。

三、姿態估計

姿態估計需定位目標（通常是人）的關鍵關節點（如頭部、肩膀、手腕），輸出點坐標及連接關系。

常用數據集

Leeds Sports Pose (LSP) Dataset：
含 2000 張圖像（1000 張訓練、1000 張測試），基于 8 項運動（如跑步、體操）采集，每張圖標注 14 個全身關鍵點，適合單人姿態估計入門。
MPII 數據集：
大型數據集，從 491 個 YouTube 視頻中提取 24920 幀，標注 16 個關鍵點（含可見性標簽），共 40522 人，場景涵蓋日常活動（如做飯、走路），是姿態估計的主流基準。
MS-COCO（關鍵點子集）：
標注 17 個人體關鍵點（如鼻子、眼睛、手肘），含可見性標簽、邊界框和身體分割區域，支持多人姿態估計，常作為模型性能的重要測試集。

評價指標

PCK（Percentage of Correct Keypoints）：
核心指標，計算關鍵點預測坐標與真實坐標的距離小于閾值（如頭部直徑的 0.5 倍）的比例，閾值越大，對誤差的容忍度越高。
PCKh（PCK for Head）：
以頭部長度為基準計算閾值的 PCK 變體，更適合全身姿態估計（因不同人體型差異大，頭部尺寸更穩定）。
mAP（keypoint）：
COCO 采用的指標，基于關鍵點預測的精度（距離閾值）和召回率計算 AP，再取平均值。

四、多目標跟蹤（MOT）

多目標跟蹤需在視頻序列中同時跟蹤多個目標，輸出每個目標的軌跡（ID + 邊界框）。

常用數據集

MOT Challenge 系列：最主流的 MOT 數據集，逐年更新（MOT15-MOT20），以行人跟蹤為主，場景包括城市街道、商場等，含動態背景、遮擋、目標進出等挑戰。例如 MOT17 含 14 段視頻，提供 3 種檢測器的檢測框；MOT20 增加了小目標和密集場景。
KITTI Tracking：面向自動駕駛，由車載傳感器（攝像頭、激光雷達）采集，含行人、汽車、自行車等目標，場景涵蓋城市、鄉村、高速，標注含 3D 位置信息，適合多模態跟蹤。
UA-DETRAC：
專注車輛跟蹤，含 60 段視頻（10 萬 + 幀），涵蓋不同天氣（晴、雨、霧）和交通密度，目標包括轎車、卡車等，挑戰在于尺度變化和遮擋。

評價指標

MOTA（Multiple Object Tracking Accuracy）：
綜合考慮誤檢、漏檢、ID 切換的核心指標，取值范圍 (-∞,1]，越高越好（1 為完美跟蹤）。
MOTP（Multiple Object Tracking Precision）：
跟蹤框與真實框的平均 IoU，衡量定位精度，取值 [0,1]，越高越好。
IDF1（ID F1-Score）：
基于目標 ID 匹配的 F1 分數，衡量軌跡連貫性，越高說明 ID 切換越少。

五、單目標跟蹤（SOT）

單目標跟蹤需在視頻首幀指定目標后，在后續幀中持續跟蹤該目標（僅關注一個目標的軌跡）。

常用數據集

OTB 數據集：
分為 OTB50（50 段視頻）和 OTB100（100 段視頻），含灰度和彩色圖像，涵蓋 11 種挑戰屬性（光照變化、尺度變化、遮擋等），評價初始化魯棒性，是 SOT 的基礎測試集。
VOT 數據集：
每年更新（VOT2013-VOT2023），均為彩色視頻，標注更精細（含目標消失 / 出現標記），分辨率更高，評價指標側重跟蹤與檢測的結合（允許目標暫時丟失后重新檢測）。
LaSOT：
大規模長視頻數據集，含 1400 段視頻（每段 1000 + 幀），涵蓋 70 個類別，挑戰包括長期遮擋、快速運動等，適合測試跟蹤算法的穩定性。

評價指標

Success Plot：
以跟蹤框與真實框的 IoU 為閾值（0-1），繪制成功跟蹤的幀數比例曲線，曲線下面積（AUC）越大越好。
Precision Plot：
以中心位置誤差（跟蹤框中心與真實框中心的距離）為閾值，繪制精度曲線，常用閾值為 20 像素，精度越高越好。
EAO（Expected Average Overlap）：
VOT 數據集專用指標，綜合考慮跟蹤成功率和魯棒性（目標丟失后重新初始化的成本），值越高越好。

六、圖像分類

是計算機視覺領域的基礎任務，旨在將圖像劃分到不同的類別中。以下是一些常用圖像分類數據集、評價指標及推薦算法的介紹：

常用數據集

FruitNet 水果分類 / 識別數據集：包含蘋果、香蕉等 6 種印度水果的 14700 多張高質量圖像，圖像分為優質、劣質和混合質量 3 個子文件夾，可用于水果分類模型訓練。
intel 自然風光圖像分類數據集：包含約 25000 張大小為 150x150 的圖像，分為建筑物、森林、冰川、山、海、街道 6 個類別。
花卉數據集：包含 4242 張花卉圖像，分為洋甘菊、郁金香、玫瑰、向日葵、蒲公英 5 類，可用于植物識別。下載鏈接：http://suo.nz/2fGKVt。
90 種動物圖像數據集：有 90 個不同類別的 5400 張動物圖像，如羚羊、獾、蝙蝠等，圖像大小不固定。下載鏈接：http://suo.nz/2ncY0a。
衣服數據集：收集了 20 種衣服的 5000 張圖像，包括 T 恤、長袖、褲子等類別，標簽經過手動標注和神經網絡糾正。
商標數據集：構建了大規模的 Logo-2K + 數據集，包含 167140 張圖像，有 10 個根類別和 2341 個類別。
ImageNet：包含約 1400 萬張圖像，跨越約 21000 個類別，其子任務競賽 ILSVRC 推動了深度卷積神經網絡的發展，是圖像分類領域的重要數據集。
iNaturalist：長尾分布數據集，涵蓋大量動植物物種，如 iNat-2021 包含 10k 類。
CheXpert：醫學 X 光圖像分類數據集，有 14 類病理標簽，用于醫學圖像分類研究。

評價指標

準確率（Accuracy）：正確預測的樣本數與總樣本數的比值，適用于類別均衡的二分類或多分類任務，但在數據不均衡時容易產生誤導。
混淆矩陣（Confusion Matrix）：通過展示 TP（真正例）、TN（真負例）、FP（假正例）、FN（假負例），直觀呈現分類結果，是計算其他指標的基礎。
精確率（Precision）：預測為正類的樣本中，實際為正類的比例，注重減少誤報。
召回率（Recall / Sensitivity）：實際為正類的樣本中，被正確預測的比例，注重減少漏報。
F1-Score：精確率和召回率的調和平均，用于平衡兩者矛盾，適用于類別不均衡或需要綜合評估精確率和召回率的場景。
宏平均（Macro-Average）：對每個類別的指標單獨計算后取算術平均，平等看待每個類別，適合類別均衡的場景。
微平均（Micro-Average）：將所有類別的 TP、FP、FN 匯總后計算全局指標。
加權平均（Weighted Average）：按每個類別的樣本數加權平均，在類別不均衡時更合理。
Top-k 準確率（Top-k Accuracy）：模型預測概率前 k 高的類別中包含真實標簽的比例，適用于細粒度分類或類別語義相似的任務。

七、單目深度估計

單目深度估計是計算機視覺中通過單張二維圖像推斷出場景三維深度信息的任務，在自動駕駛、機器人導航、增強現實等領域有重要應用。以下是其常用數據集、評價指標及推薦算法的介紹：

常用數據集

KITTI
- 簡介：基于車載傳感器的真實駕駛場景數據集，包含單目圖像、激光雷達點云（可作為深度真值）等數據，場景涵蓋城市道路、鄉村、高速公路等，深度范圍主要集中在 0-100 米。
- 特點：數據真實且具有挑戰性（如動態物體、光照變化），是單目深度估計的基準數據集之一。
NYU Depth V2
- 簡介：室內場景數據集，由 RGB-D 相機采集，包含 464 個場景的 1449 張圖像，深度真值通過紅外傳感器獲取，場景以家庭、辦公室等室內環境為主，深度范圍較小（通常 0-10 米）。
- 特點：室內細節豐富，適合室內深度估計模型的訓練與評估。
Make3D
- 簡介：包含戶外自然場景的單目圖像和對應的激光雷達深度數據，共 134 個訓練樣本和 134 個測試樣本，場景包括街道、公園、建筑物等。
- 特點：數據量較小，但早期常用于單目深度估計的研究。
DDAD (Dense Depth for Autonomous Driving)
- 簡介：專注于自動駕駛場景的大規模數據集，包含高分辨率單目圖像和精確的深度真值（通過多傳感器融合生成），場景覆蓋復雜城市環境、惡劣天氣等，數據量達 10 萬級。
- 特點：深度真值精度高，更貼近真實自動駕駛需求。
Matterport3D
- 簡介：大規模室內場景數據集，包含從真實建筑中采集的 RGB 圖像、深度圖、3D 點云等，涵蓋住宅、商業空間等多種室內場景，深度信息通過多視圖重建獲得。
- 特點：場景多樣性強，適合訓練通用室內深度估計模型。

評價指標

單目深度估計的評價指標主要用于衡量預測深度與真實深度的差異，常用的有：

絕對相對誤差（Absolute Relative Error, Abs Rel）
- 含義：預測深度與真實深度的相對誤差的平均值，值越小越好。
平方相對誤差（Squared Relative Error, Sq Rel）
- 含義：對較大的相對誤差更敏感，值越小越好。
均方根誤差（Root Mean Squared Error, RMSE）
- 含義：預測深度與真實深度的絕對誤差的平方和均值的平方根，受異常值影響較大，值越小越好。
對數均方根誤差（RMSE log）
- 含義：對深度的對數空間誤差進行衡量，更適合處理大范圍深度數據，值越小越好。
δ 指標（δ < 1.25, δ < 1.252, δ < 1.253）
- 含義：統計預測深度與真實深度的比值在 1.25 倍、1.56 倍（1.252）、1.95 倍（1.253）范圍內的樣本比例，比例越高越好，反映模型的整體預測精度。