一、RNN
(一)簡介
整個過程權重和偏置共享。
(二)梯度爆炸問題
????????在這個例子中w2大于1,會出現梯度爆炸問題。
????????當我們循環的次數越來越多的時候,這個巨大的數字會進入某些梯度,步長就會大幅增加,導致尋找最佳參數困難。另外會導致第一個輸入的值影響越來越顯著。
(三)梯度消失問題
????????在這個例子中w2小于1,會出現梯度消失問題。
????????當我們循環的次數越來越多的時候,這個非常的數字會進入某些梯度,步長就會大幅減小,導致尋找最佳參數困難。
二、長短期記憶網絡LSTM
(一)主要思想
????????不使用相同的反饋環連接,通過很久以前的事情和昨天的事情進行預測。而是使用兩條獨立的路徑來對明天預測,一條用于長期記憶,另一條用于短期記憶。
(二)Sigmoid激活函數
(三)Tanh激活函數
(四)原理
第一階段“遺忘門”:確定記住舊長期記憶的百分比,得出長期記憶值。
第二階段:“輸入門”
右邊模塊:將短期記憶和輸入結合(權重×數值),創建潛在的長期記憶。舊長期記憶+潛在的長期記憶 = 新的長期記憶
左邊模塊:確定這個潛在記憶中的權重。
第三階段“輸出門”:更新短期記憶。(?新長期通過激活函數計算潛在短期數值,再×權重 = 新的短期記憶)
????????具體表現請看:【官方雙語】LSTM(長短期記憶神經網絡)最簡單清晰的解釋來了!?第14:30處。
為什么通過LSTM能解決梯度爆炸和梯度消失的問題?