1. 計算機視頻重要分類
計算機視覺的重要任務可以大致分為以下幾類:
1. 圖像分類(Image Classification)
識別圖像屬于哪個類別,例如貓、狗、汽車等。
- 應用場景:物品識別、人臉識別、醫療影像分類。
- 代表模型:ResNet、EfficientNet、ViT(Vision Transformer)。
2. 目標檢測(Object Detection)
識別圖像中目標的位置(邊界框)及類別。
- 應用場景:自動駕駛、安防監控、人流統計。
- 代表模型:Faster R-CNN、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)。
3. 語義分割(Semantic Segmentation)
對圖像中的每個像素進行分類,區分不同物體類別。
- 應用場景:醫學影像分析(病灶檢測)、自動駕駛(車道識別)。
- 代表模型:U-Net、DeepLabV3+、SegFormer。
4. 實例分割(Instance Segmentation)
類似語義分割,但能夠區分同類別不同實例的像素區域。
- 應用場景:自動駕駛(車輛、人等實例級分割)、工業檢測。
- 代表模型:Mask R-CNN、YOLACT、CondInst。
5. 姿態估計(Pose Estimation)
檢測人體、動物或物體的關鍵點(關節點、骨架等)。
- 應用場景:行為分析、運動捕捉、AR(增強現實)。
- 代表模型:OpenPose、HRNet、DETR。
6. 目標跟蹤(Object Tracking)
在視頻序列中跟蹤目標的軌跡。
- 應用場景:無人機跟蹤、視頻監控、運動分析。
- 代表模型:SiamRPN、SORT、DeepSORT。
7. 光流估計(Optical Flow Estimation)
計算圖像像素點的運動矢量場,用于運動分析。
- 應用場景:視頻穩定、動作檢測、自動駕駛。
- 代表模型:RAFT、PWC-Net、FlowNet2.0。
8. 三維重建(3D Reconstruction)
從 2D 圖像或點云恢復 3D 結構。
- 應用場景:SLAM(同時定位與建圖)、AR/VR、醫學成像。
- 代表模型:Colmap、NeRF(神經輻射場)、MonoDepth。
9. 超分辨率(Super Resolution)
提升圖像分辨率,使低質量圖像變得清晰。
- 應用場景:醫學影像增強、老照片修復、視頻增強。
- 代表模型:ESRGAN、SRGAN、SwinIR。
10. 圖像去噪(Image Denoising)
去除圖像中的噪聲,提高清晰度。
- 應用場景:遙感影像處理、夜間攝影增強。
- 代表模型:DnCNN、BM3D、Noise2Noise。
11. 生成對抗網絡(GANs)
生成高質量的圖像、風格遷移等。
- 應用場景:AI 繪畫、圖像風格化、深度偽造(Deepfake)。
- 代表模型:StyleGAN、CycleGAN、BigGAN。
12. 圖像/視頻理解(Image/Video Understanding)
對圖像或視頻的內容進行高層次分析。
- 應用場景:智能監控、自動駕駛、視頻摘要。
- 代表模型:CLIP、SlowFast、TimeSformer。
?2. 圖像分類 vs. 目標檢測
對比維度 | 圖像分類(Image Classification) | 目標檢測(Object Detection) |
---|---|---|
任務定義 | 識別整幅圖像的類別 | 識別圖像中所有目標的位置和類別 |
輸出結果 | 單個類別標簽 | 多個類別標簽 + 目標的邊界框(Bounding Box) |
輸入數據 | 單張圖像 | 單張圖像(含多個目標) |
難度 | 相對較低 | 較高,需要額外的目標定位 |
計算復雜度 | 低 | 高(涉及回歸和分類任務) |
核心技術 | 卷積神經網絡(CNN)、ViT | CNN + 回歸網絡(YOLO、Faster R-CNN 等) |
核心特點 |
|
|
主要方法 |
|
|
應用場景 | 圖像檢索、人臉識別、醫學影像分類 | 自動駕駛、人群統計、工業檢測 |
3.目標檢測與圖像分割、語義分割、實例分割
對比維度 | 目標檢測(Object Detection) | 語義分割(Semantic Segmentation) | 實例分割(Instance Segmentation) |
任務定義 | 識別目標并畫出邊界框(Bounding Box) | 識別每個像素的類別 | 識別每個像素的類別,并區分同類別的不同實例 |
輸出結果 | 目標類別 + 目標位置(矩形框) | 每個像素的類別掩碼(Mask) | 每個像素的類別掩碼 + 不同實例的分割 |
關注點 | 物體的整體位置 | 物體的精確邊界 | 物體的精確邊界 + 實例區分 |
計算復雜度 | 中 | 高 | 更高 |
模型架構 | YOLO、Faster R-CNN、SSD | FCN、DeepLabV3+、U-Net | Mask R-CNN、YOLACT、CondInst |
適用場景 | 自動駕駛、監控、人臉檢測 | 醫學影像、衛星遙感、環境分析 | 自動駕駛、實例級目標識別、工業檢測 |
4. 目標檢測與目標跟蹤
對比維度 | 目標檢測(Object Detection) | 目標跟蹤(Object Tracking) |
---|---|---|
任務定義 | 在圖像中識別目標并定位(Bounding Box) | 在視頻中跟蹤同一目標的運動軌跡 |
輸入數據 | 單張圖像或視頻幀 | 連續的視頻幀 |
輸出結果 | 目標類別 + 目標邊界框 | 目標 ID + 目標邊界框(跨幀一致) |
核心技術 | CNN、區域提議(RPN)、Anchor | 目標檢測 + 相關性計算(如光流、匹配) |
計算復雜度 | 較高(每幀都需重新檢測) | 低(僅在關鍵幀檢測,其他幀追蹤) |
適用場景 | 自動駕駛、安防監控、工業檢測 | 運動分析、無人機跟蹤、視頻監控 |
代表模型 | YOLO、Faster R-CNN、SSD | SORT、DeepSORT、SiamRPN、ByteTrack |