一、RNN
1.? 在RNN中,
2. RNN是一個序列模型,與非序列模型不同,序列中的元素互相影響:?是由?
? 計算得來的。
在前向傳播中:?用于計算??
? 和?
?用于計算??
? 和?
因此,當進行反向鏈式法則求導時候,
?的梯度 由兩部分組成:
一部分是由??對
求導計算得來;
一部分是由??對?
求導計算得來。
這就對應了代碼的:?
gradients = rnn_cell_backward(da[:,:,t] + da_prevt, caches[t])
二、GRU
1. GRU是為了解決RNN 梯度消失引入的改良模型,
2. GRU 通過門控 Gamma_r Gamma_u 兩個變量,實現了對于過往記憶的篩選:這種機制使得GRU能夠靈活地決定何時“忘記”過去的信息以及何時“記住”新的信息,從而有效地捕捉序列數據中的長期依賴關系。
具體理解如下: