【NLP】Attention機制

RNN（馬爾科夫鏈式編碼）
- 通過遞歸計算逐個處理 token，當前編碼結果 $h_t$ 僅依賴前一步的隱藏狀態 $h_{t-1}$ 和當前輸入 $x_t$
- 局限性：序列建模需嚴格串行，無法并行；長距離依賴易丟失（梯度消失/爆炸）
- 例：雙向 LSTM 需正向+反向兩次遍歷才能捕獲上下文，但仍是局部傳遞
CNN（局部窗口編碼）
- 使用固定尺寸的卷積核（如窗口為3）聚合局部上下文信息
- 局限性：單層僅能捕獲窗口內的局部特征，需多層堆疊擴大感受野
- 例：深度 CNN 需多層級聯才能建模長距離依賴，信息傳遞路徑長
Attention（全局交互編碼）
- 通過 Query-Key-Value 矩陣計算，直接建立任意兩個 token 間的關聯
- 核心優勢：單層即可全局交互，每個位置的編碼融合了序列中所有 token 的信息
- 例：Self-Attention 中，每個詞與整個序列計算相似度權重（如公式中的 $QK^T/\sqrt{d}$ ）

加性 Attention (Additive Attention / Bahdanau Attention)
- 公式：
  $\text{Score}(Q, K_i) = v^T \tanh(W_q Q + W_k K_i)$
- 特點：通過可學習的參數矩陣 $W_q, W_k$ 和向量 $v$ 計算注意力權重，適用于 Query 和 Key 維度不同的場景。
點積 Attention (Dot-Product Attention / Luong Attention)
- 公式：
  $\text{Score}(Q, K_i) = Q \cdot K_i$
- 特點：計算高效（矩陣乘法），但需 Query 和 Key 維度相同；當維度較高時，點積結果可能過大，導致 Softmax 梯度消失。
縮放點積 Attention (Scaled Dot-Product Attention)
- 改進點：在點積基礎上引入縮放因子 $\sqrt{d_k}$ ，緩解高維點積結果過大的問題。
- 公式：
  $\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/76764.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/76764.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/76764.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！