????????傳統算法的圖像特征分析和描述,一直貫穿圖像算法的發展。2017年深度學習的出現,很多開發人員和技術人員認為,圖像特征分析這個概念可以被深度學習完全取代。很長一段時間以深度學習為主的視覺方案成為主流,逐漸淡化了傳統視覺的特征分析。
? ? ? ? 隨著深度學習的發展,在很多場景應用中,深度學習只能滿足部分場景的需求,工程師開始逐漸對深度學習進行分析和拆解。到2020年自編碼深度學習概念的出現,才開始對深度學習的圖像特征編碼進入深入的理解。逐漸發展出一套針對深度學習編碼特征分析的方法。
? ? ? ? 以Resnet為例,Resnet的結構主要為四個卷積層和一個線性回歸層。在通過大數據ImageNet的訓練過后,卷積層對1~1000的線性變量學習了一套卷積特征變換函數。通過對圖像的卷積編碼,獲取到各卷積層輸出的特征值。作為后續特征開發的重點,比如比較成功的MaskRcnn和FastRcnn模型就是在圖像特征編碼的后進行新的訓練,完成對目標的檢測和識別。以及后來針對VIT網絡的YOLO模型。
? ? ? ? 通過深度學習提取特征的方法,學術上稱之為圖片的深度BackOne提取。概念的提出也對深度學習的發展有了底層的根據。在2020~2022之間,工程界和學術界還是以主流的回歸訓練對深度學習特征進行總結和應用,衍生出很多優秀的模型。但是底層沒有太大的改變,同樣模型性能和場景也出現瓶頸。
? ? ? ? 在2023年Bert(大語言模型的前身)模型的出現,采用新的數據對齊方法,對生成的深度的數據信息映射為一種人類可以理解的描述語言。這種方法就是目前我們看到的大模型時代,這也為圖像分析帶來了思路。最近的2024~2025年,不斷出現針對圖片的大模型應用,比如SAM和Dinov2,CLIP等。也開始出現生成式的圖片模型的應用。也就衍生出一種非訓練方式的數據對齊方案,比如Agent,MCP,RAG等技術。
? ? ? ? 這些技術都是采用深度學習對數據的自編碼,輸出模型的自編碼深度信息,并采用數據搜索的方式對信息進行匹配,用于更加準確的數據輸出。這也是目前工業檢測大模型的方法,具體的效果和應用可以DY搜索“軍哥講視覺”,或者WX搜索“軍哥講視覺”