計算機視覺技術的發展歷程可以分為以下幾個階段:
早期探索階段(1960s-1980s)
- 1960年代:計算機視覺的概念開始形成,研究者嘗試讓計算機識別和理解圖像,主要集中在基礎的圖像處理,如邊緣檢測和特征提取。
- 1970年代:研究人員使用幾何形狀模型和模板匹配方法進行目標識別,發展了Sobel算子、Prewitt算子等經典邊緣檢測方法,還出現了利用雙目圖像進行深度估計與三維重構的早期方法。
- 1980年代:機器視覺逐漸被應用于工業自動化,奠定了后來的理論基礎。David Marr提出了多層次的視覺計算模型,將視覺過程分為多個階段;Canny邊緣檢測方法也在這一時期提出。
知識驅動與模式識別階段(1980s-1990s)
- 1980年代末至1990年代:引入了基于知識的視覺系統以及模式識別方法,如決策樹、支持向量機等,用于提升識別準確率。
- 1990年代:隨著計算能力的提升和數據集的逐漸積累,計算機視覺研究逐漸關注于特征提取與匹配,傳統算法如Harris角點檢測和SIFT特征描述符等被提出。此外,特征臉(Eigenfaces)方法首次將主成分分析(PCA)應用于人臉識別,開辟了基于統計學習的視覺分析方法。
激增與深度學習的初步嘗試階段(2000s)
- 2006年:深度學習開始興起,深度信念網絡(DBN)等新模型被提出,用于自動特征提取。
- 2009年:ImageNet項目啟動,通過大規模圖像數據集促進了計算機視覺的發展。
- 2000年代初:隨著互聯網的普及和數字圖像數據的爆炸式增長,計算機視覺研究面臨著新的挑戰和機遇。Intel推出的開源計算機視覺庫OpenCV開始流行,大大降低了計算機視覺研究和應用的門檻。
深度學習的突破階段(2010s)
- 2012年:AlexNet在ImageNet競賽中獲勝,深度卷積神經網絡(CNN)應用于圖像分類,顯著降低了錯誤率,標志著計算機視覺正式進入深度學習時代。
- 2014年:生成對抗網絡(GAN)被提出,開創了圖像生成和合成的新方法。同年,VGGNet、GoogLeNet等新架構出現,進一步推動了圖像分類、對象檢測和圖像分割等任務的性能。
- 2015年:ResNet(殘差網絡)等新架構進一步提升了模型性能,將ImageNet分類錯誤率降至3.57%,首次超越人類水平。
成熟與廣泛應用階段(2020s至今)
- 2020年代:深度學習在計算機視覺應用中變得無處不在,包括自動駕駛、醫療影像分析、智能監控等領域的實際應用。
- 新興技術:Transformer架構的引入(例如Vision Transformer),使得計算機視覺任務不僅僅依賴卷積神經網絡,還開始接受基于序列的模型。同時,多模態學習結合圖像與文本、音頻等多種數據類型的研究不斷深化。
計算機視覺技術的發展歷程是從簡單的圖像處理到復雜的場景理解、從依賴手工特征到自動學習表征、從受限實驗室環境到開放真實世界的轉變。