計算機視覺是使計算機能理解采集設備采集的圖像視頻的一門學科,目的是讓計算機實現人的視覺功能——對客觀世界的三維場景的感知、識別和理解。換句話說,要讓計算機具備通過二維圖像認識三維環境的能力。
目錄
三個階段
視覺層級
基本任務?
技術難點
三個階段
計算機視覺研究圖像包括圖像處理、圖像分析、圖像理解三個階段。
視覺層級
計算機視覺可以劃分為初級視覺、中級視覺、高級視覺三個層級:
初級視覺 | 圖像修復、超分辨率重建 |
中級視覺 | 圖像分割、物體檢測 |
高級視覺 | 圖像描述、動作識別 |
基本任務?
計算機視覺包括四項基本任務:分類、定位、檢測和分割。
- 分類:解決“圖像是什么”的問題,即給定一張圖或一段視頻,判斷圖片或視頻所屬的類別
- 定位:解決“目標在哪里”的問題,即判斷圖像中的目標具體在圖像的什么位置,位置通常以包圍盒的形式表示,通常面向單一或給定數目的目標。
- 檢測:解決“哪里有哪些哪種類別的目標”的問題,即發現圖片中的目標并判斷目標種類,檢測任務面向的圖像中出現的目標種類和數目都不定。
- 分割:解決“每個像素屬于哪個目標/場景”的問題,分為。檢測只需要框出每個目標的包圍盒,分割則需要進一步判斷圖像中哪些像素屬于哪個目標。分割包括語義分割、實例分割和全景分割,語義分割不區分屬于相同類別的不同實例,實例分割則需要區分出哪些像素屬于相同類別的不同實例。全景分割可以認為是實例分割和語義分割的結合。
技術難點
難點 | 示例 |
平面內旋狀 | 物品正放、倒放、側放的檢測 |
超平面旋轉 | 肢體等三維動作的檢測 |
背景干擾 | 復雜場景下的目標檢測 |
光照變化 | 圖片過曝或圖片過暗 |