目錄
Seq2Seq模型的發展歷史
改進不足的地方
深層RNN結構為什么出現梯度消失/爆炸問題,Transformer為什么不會
深層RNN結構為什么出現梯度消失/爆炸問題:
Transformer為什么不會出現梯度消失/爆炸問題:
Seq2Seq模型存在問題
T5模型介紹
Seq2Seq模型的發展歷史
序列到序列(Seq2Seq)模型的發展歷史可以概括為以下幾個階段:
-
基礎的RNN Seq2Seq模型:最早的Seq2Seq模型使用簡單的RNN作為編碼器和解碼器,將輸入序列編碼成一個固定長度的上下文向量,解碼器根據這個向量逐步生成輸出序列。但由于RNN的梯度消失問題和上下文向量固定長度的限制,該模型在處理長序列時效果較差。
-
LSTM/GRU Seq2Seq模型:用LSTM或GRU替代傳統RNN作為編碼器和解碼器,通過引入門控機制,緩解了梯度消失問題,能更好地捕捉長程依賴。
-
帶注意力機制的Seq2Seq模型:引入Attention機制,使解碼器在生成每一個輸出時,不僅僅依賴上下文向量,還可以動態“關注”輸入序列的不同部分,極大改善了長序列任務中的表現。
-
Transformer模型:完全拋棄了RNN,采用自注意力機制和前饋神經網絡,通過多個