長短期記憶網絡(LSTM)相較于傳統循環神經網絡(RNN)的核心改進在于通過引入記憶單元(cell state)和門機制(gating mechanism)來有效緩解梯度消失與梯度爆炸問題,從而更好地捕捉長距離依賴關系 。在其網絡結構中,信息通過輸入門(input gate)、遺忘門(forget gate)和輸出門(output gate)進行有選擇的流入、保留與輸出,同時記憶單元內部還包含輸入調制門(input modulation gate)以豐富細粒度控制 。在前向計算過程中,LSTM 單元依次計算各門的激活(sigmoid)與候選狀態(tanh),然后更新記憶單元并生成隱藏狀態;這一流程可借助cuDNN、GPU 并行、張量核加速等底層庫大幅提升吞吐 。反向傳播時,LSTM 通過**反向傳播穿越時間(BPTT)**針對每個門和狀態計算梯度,有效地將誤差信號傳遞到舊時刻,從而完成參數更新 。
模型篇
LSTM 相對 RNN 的主要改進
- 緩解梯度消失與爆炸:傳統 RNN 在處理長序列時,梯度經多次連乘后會迅速衰減或增大,