1,人臉圖像與特征基礎
人臉圖像的特點
規律性: 人的兩只眼睛總是對稱分布在人臉的上半部分,鼻子和嘴唇中心點的連線基本與兩眼之間的連線垂直,嘴絕對不會超過眼鏡的兩端點(雙眼為d,則雙眼到嘴巴的垂直距離一般在0.8-1.25)
唯一性
非侵擾與便利性
可擴展性
人臉圖像的應用
身份認證: 門禁,支付
視覺監控系統: 監控
協助犯罪偵查: 追捕,尋找
表情分析: 游戲,遠程教育,司機提醒
臉型分析: 發型設計,眼鏡行業,美容行業,虛擬化妝
生理分析: 年齡,性別,種族,顏值
人物換臉: 影視傳媒
人臉美容: 美顏相機
人臉特效: 社交,直播平臺
圖像智能分類: 終端圖集整理分類
人臉特征基礎
幾何特征
膚色特征
YCbCr顏色空間: 能夠將亮度信息與色度信息從空間中有效地分離
區域模型: 取決于閾值的設定
統計直方圖模型: 依賴訓練數據
高斯模型: 根據概率公式得到改像素點是膚色的概率值
混合高斯模型: 準確率高,計算復雜度更高,算法運算時間較長
紋理特征
LBP特征(在特定窗口內的像素屬性值的分布和大小關系來反映局部紋理信息)
基于圖像自身的局部差值,有效對抗光照變化
HOG特征(經過灰度化,歸一化后統計圖像的梯度信息)
將圖像進行灰度化處理
利用各類變換對圖像進行全局歸一化
對圖像計算梯度大小和梯度方向
將圖像劃分成許多小的細胞單元
統計每個cell的梯度直方圖
haar特征(簡單的矩陣特征,對相鄰圖像塊進行灰度比較)
gabor特征(基于圖像頻率域的一種特征,用于圖片的局部紋理信息)
變換的多方向性和多尺度性可以描繪人臉圖像不同方向的紋理分布信息,具有空間局部性和方向選擇性的優點
eigenfaces特征
fisherfaces特征
人臉圖像工程常用的機器學習算法
svm(基于統計學習vc維理論與結構風險極小化原理的算法,將基于最大化間隔獲得的分類超平面思想與基于核技術的方法結合在一起,通過部分數據構建模型,對新的數據進行預測并做出分類)
adaboost(通過不斷訓練來提高模型對數據的分類能力)
本質上是一種迭代算法,其核心思想是使用弱分類器對樣本進行檢測,將這些弱分類器組合起來,生成一個強分類器
在強分類器中,誤差率低的分類器占的權重較大,誤差率高的分類器占的權重較小,經常與adaboost算法一起使用的特征為haar型特征
深度學習基礎
神經網絡
神經元模型
感知機
BP算法(多層感知機)
容易陷入局部最優解,梯度消失現象嚴重
卷積神經網絡基礎
語音,圖像,自然語言,得益于海量數據
卷積操作
卷積就是一種運算
反卷積
雙線性插值法
轉置卷積
得到了上采樣倍率后,再根據步長的大小和邊界補充的方式,對初始輸入進行變換,然后使用與卷積一樣的方法進行參數的學習
卷積神經網絡的基本概念
傳統的bp神經網絡中,前后層之間的神經元是全連接的,而卷積中的神經元與上一層的部分神經元相連
感受野(就是視覺感受區域的大小)
cnn中的某一層輸出結果的一個元素對應輸入層的一個映射,即特征平面上的一個點所對應的輸入圖上的區域
池化
對輸入的特征平面進行壓縮,一方面使特征平面變小,簡化網絡計算復雜度,另一方面可以實現特征抽象,提取主要特征
平均池化
最大池化
卷積神經網絡的核心思想
稀疏連接與權重共享
能建模圖像結構信息
卷積神經網絡基本結構配置
數據輸入層(原始圖像)
卷積神經網絡是一個無監督的特征學習網絡
主要對原始圖像數據進行預處理,基礎的操作包括去均值,灰度歸一化
卷積層
網絡的特征提取層
一個卷積層可以有多個不同的卷積核,圖像通過多個不同的卷積核進行處理并提取出特征,每個卷積核映射出一個新的特征平面,再將卷積輸出結果進行非線性激活函數的處理
激活層
relu
池化層
用于壓縮網絡參數和數據大小,降低過擬合,主要作用就是壓縮圖像的同時保證該圖像特征的不變性
全連接層
全連接層在卷積神經網絡結構的最后,它也有卷積核和偏移量兩個參數
損失層
損失函數(SGD)
精度層
輸入就是網絡的輸出和真實的標簽
深度學習優化基礎
激活模型與常用的激活函數
線性模型與閾值模型
sigmoid函數