卷積神經網絡
1. 卷積神經網絡
神經元存在局部感受區域----感受野
.
第一個卷積神經網絡雛形----新認知機缺點:沒有反向傳播算法更新權值,模型性能有限
第一個大規模商用卷積神經網絡----Lenet-5
缺點:沒有大量數據和高性能計算資源。
第一個全面的卷積神經網絡----AlexNet
2. 卷積操作
圖像識別的特點
1.特征具有局部性
2.特征可能出現在任何位置
3. 下采樣圖像不會改變圖像目標填充(Padding)
在輸入圖像的周圍添加額外的行/列
作用:
1.使卷積后的圖像分辨率不變
2.彌補邊界信息的丟失步幅(stride)
卷積核滑動的行數和列數,控制輸出特征圖的大小,被縮小1/s倍。
公式:
F o = ∣ F i n ? k + 2 p s ∣ + 1 \color{red}F_o =| \frac{F_{in}-k+2p}{s}|+1 Fo?=∣sFin??k+2p?∣+1
參數:F i n : \color{green}F_{in}: Fin?:輸入特征圖的大小
k : \color{green}k: k:Kernel的大小(一般長和寬是保持一致的)
p : \color{green}p: p:填充值大小
s : \color{green}s: s:步幅值大小
F o : \color{green}F_o: Fo?:輸出特征圖的大小多通道卷積:
3. 池化操作
池化:
一個像素表示一塊區域的像素值,降低圖像的分辨率
池化方法:
1.Max poolling(1取最大值)
2.Average Pooling(取平均值)目前很多網絡模型不需要使用池化操作,直接使Stride步長等于2就可以代替池化操作。
池化的作用:
1.緩解卷積層對位置的過度敏感
2.減少冗余
3.降低圖像的分辨率,從而減少參數數量
循環神經網絡
1.序列數據
前后的數據具有關聯性
2.語言模型
1.文本在NLP中通常被看作是離散時間序列,長度為T的文本的詞分別為:w1、w2… w T w_T wT?,其中 w t ( 1 < = t < = T ) w_t(1<=t<=T) wt?(1<=t<=T)是時間步t的輸出或標簽
2.語言模型用于計算序列概率P(w1、w2、w3…wT)3.RNN-循環神經網絡
優點:
1.循環使用網絡層參數,避免時間步增大帶來的參數激增
2.引入隱藏狀態,記錄歷史信息,有效地處理數據前后的關聯性
激活函數使用Tanh,將輸出值域限制在(-1,1),防止數值呈指數性變化
RNN特性:
1.隱藏狀態可以保存截止當前時間步的序列的歷史信息
2.循環神經網絡的模型參數數量不會隨著時間步的增加而增強RNN的通過(穿越)時間反向傳播:
公式:
? L ? h t = ∑ i = 1 T ( W h h T ) T ? i W q h T ? L ? O T + t ? i \color{red}\frac{\displaystyle\partial {L}}{\displaystyle\partial h_t} = \sum_{i=1}^{T}(W_{hh}^T)^{T-i}W_{qh}^T\frac{\partial L}{\partial O_{T+t-i}} ?ht??L?=i=1∑T?(WhhT?)T?iWqhT??OT+t?i??L?
? L ? W h x = ∑ t = 1 T p r o d ( ? L ? h t , ? h t ? W h x ) = ∑ t = 1 T ? L ? h t x t T \color{red}\frac{\partial L}{\partial W_{hx}} = \sum_{t=1}^Tprod(\frac{\partial L}{\partial h_t},\frac{\partial h_t}{\partial W_{hx}}) = \sum_{t=1}^T\frac{\partial L}{\partial h_t}{x_t}^T ?Whx??L?=t=1∑T?prod(?ht??L?,?Whx??ht??)=t=1∑T??ht??L?xt?T
? L ? W h h = ∑ t = 1 T p r o d ( ? L ? h t , ? h t ? W h h ) = ∑ t = 1 T ? L ? h t h t ? 1 T \color{red}\frac{\partial L}{\partial W_{hh}} = \sum_{t=1}^Tprod(\frac{\partial L}{\partial h_t},\frac{\partial h_t}{\partial W_{hh}}) = \sum_{t=1}^T\frac{\partial L}{\partial h_t}{h_{t-1}}^T ?Whh??L?=t=1∑T?prod(?ht??L?,?Whh??ht??)=t=1∑T??ht??L?ht?1?T
梯度隨時間t呈指數變化,容易引發梯度消失和爆炸
4.GRU-門控循環單元
1.引入門的循環網絡
需要注意的是:
1.門控循環單元是為了解決RNN梯度消失的問題!
2.重置門和更新門的計算公式里,四個權重參數是不一樣的!
3.此處使用的激活函數是Sigmoid函數!2.候選隱藏狀態
用來輔助計算隱藏狀態的!
Tips:RNN最終的隱藏狀態 = 候選隱藏狀態 + 上一時間隱藏狀態組合
3.GRU
5.LSTM-長短期記憶網絡
1.三個門
2.候選記憶細胞
3.記憶細胞和隱藏狀態
4.LSTM