1 簡介
-
概念
LSTM(Long Short-Term Memory)也稱為長短期記憶網絡,是一種改進的循環神經網絡(RNN),專門設計用于解決傳統RNN的梯度消失問題和長程依賴問題。LSTM通過引入門機制和細胞狀態,能夠更好地捕捉長序列數據中的長期依賴關系。
-
核心思想
通過引入門機制(輸入門、遺忘門、輸出門)和細胞狀態(Cell State)來控制信息的流動,從而決定哪些信息需要保留、哪些信息需要丟棄。
-
內部結構
遺忘門:決定了哪些信息應該被丟棄(即遺忘)。它讀取當前輸入和前一時刻的隱藏狀態,然后輸出一個0到1之間的數值,表示當前時刻的信息應當保留或丟棄的比例。
輸入門:決定了哪些信息需要被存儲到當前的單元狀態中。通過這個門來更新單元狀態的記憶。
細胞狀態:可以將其視為一條貫穿整個網絡的"傳送帶",攜帶長期記憶;信息通過細胞狀態傳遞,并由各個門控機制選擇性地修改。
輸出門:控制從單元狀態到隱藏狀態的信息流出,決定當前的隱藏狀態輸出多少細胞狀態的內容。
2. LSTM的內部結構圖
2.1 整體內部結構
2.2 遺忘門結構圖
2.3 輸入門結構圖
2.4 細胞狀態更新圖
細胞更新的結構與計算公式非常容易理解,這里沒有全連接層,只是將剛剛得到的遺忘門門值與上一個時間步得到的Ct?1相乘,再加上輸入門門值與當前時間步得到的未更新Ct相乘的結果。最終得到更新后的Ct作為下一個時間步輸入的一部分。整個細胞狀態更新過程就是對遺忘門和輸入門的應用。
注意:由于當前記憶狀態和上一次的記憶狀態不是相乘而是相加,則解決了RNN中容易梯度保證的問題。
2.4 輸出門結構圖
3. 優缺點總結:
-
LSTM的優點:
- 能夠捕捉長期依賴:通過門控機制,LSTM能夠記住長期的依賴關系,解決了傳統RNN無法記住長期信息的問題。
- 避免梯度消失
- 細胞狀態?Ct?的更新公式中,Ct?1?和?Ct?之間是線性關系(通過遺忘門?ft?控制)
- LSTM的梯度主要通過細胞狀態?Ct?傳播,而細胞狀態的更新是線性的,梯度路徑更加穩定
- 線性關系避免了梯度在時間步之間的連乘,從而緩解了梯度消失問題
- 靈活的記憶控制:LSTM通過遺忘門和輸入門靈活地控制信息的傳遞,使得模型能夠記住有用的信息,并丟棄不必要的信息。
-
LSTM的缺點:
- 計算開銷較大,由于包含多個門的計算,訓練和推理時需要更多的計算資源
- 相對于簡單的RNN和GRU(門控遞歸單元),LSTM較為復雜,調參時需要更多的時間和精力