一、為何需要你?序列建模的困境
在你出現之前,循環神經網絡(RNN)及其變種LSTM、GRU是處理序列數據(如文本、語音、時間序列)的主流工具。它們按順序逐個處理輸入元素,將歷史信息壓縮在一個隱藏狀態向量中傳遞。
-
瓶頸顯現:
-
長程依賴遺忘: 隨著序列增長,早期信息在傳遞過程中極易被稀釋或丟失。想象理解一段長文時,開篇的關鍵人物在結尾被提及,RNN可能已“忘記”其重要性。
-
并行化困難: 順序處理特性嚴重阻礙了利用現代GPU/TPU強大并行計算能力,訓練效率低下。
-
信息瓶頸: 無論序列多長,RNN都試圖將所有歷史信息塞進一個固定長度的隱藏向量中,導致信息損失。
-
這些限制呼喚著一種能直接建模序列元素間任意距離依賴關系,且高度并行的機制。你——自注意力機制,應運而生。