【學習筆記】Transformer

學習的博客（在此致謝）：
初識CV - Transformer模型詳解（圖解最完整版）

1 整體結構

![[Pasted image 20250528161501.png]]

Transformer由Encoder和Decoder組成，分別包含6個block。

Transformer的工作流程大體如下：

獲取每個單詞的embedding vector $X$ ， $X$ 由詞嵌入(word embedding)和位置編碼(Positional Encoding)得到。
將得到的單詞 $X$ 傳入Encoder中，經過6個Encoder block后可以得到句子所有單詞的編碼信息矩陣 $C$ 。單詞向量矩陣可以用 $X_{n\times d}$ 表示，其中 $n$ 為單詞數， $d$ 為向量維度(論文中為512)。每個Encoder block輸出的矩陣維度與輸入完全一致。
將 $C$ 傳遞到Decoder中，Decoder會根據翻譯過的單詞 $1,\cdots,i$ 翻譯單詞 $i + 1$ 。翻譯 $i + 1$ 時需要用mask蓋住 $i+2,\cdots,n$ 。

2 Transformer的輸入

$X$ 由詞嵌入(word embedding)和位置編碼(Positional Encoding)得到。

2.1 詞嵌入

輸入的是一句話，比如：“我愛自然語言處理”，每個詞會被映射成一個向量，叫詞嵌入(word embedding)。

“我” → [0.2, 0.5, ..., -0.1] (一個 d_model 維的向量)
“愛” → [...]
“自然語言處理” → [...]

2.2 位置編碼

Transformer除了詞嵌入，還需要位置編碼(Positional Encoding, PE) 來表示單詞在句子中出現的位置。由于Transformer不采用RNN結構，而是使用全局信息，不能利用單詞的順序信息，而這部分信息對于NLP來說非常重要。 所以Transformer中使用位置編碼來保存單詞在序列中的相對/絕對位置。

Transformer中計算PE的公式如下：
$\text{PE}_{(\text{pos},2i)}=\sin(\text{pos}/10000^{2i/d})$
$\text{PE}_{(\text{pos},2i+1)}=\cos(\text{pos}/10000^{2i/d})$
其中， $\text{pos}$ 表示單詞在句子中的位置， $d$ 表示PE的維度(與詞嵌入的維度相同)。
對于每個位置 $\text{pos}$ ，我們計算 $d$ 維向量（其中一半維度是 $\sin$ ，另一半是 $\cos$ ）。所以每個位置的PE也是長度為 $d$ 的向量。

2.3 Transformer的輸入

有了詞嵌入 $input_embedding \text{input\_embedding}$ 和位置編碼 $positional_encoding \text{positional\_encoding}$ （即 $\text{PE}$ ），我們有
$input_embedding + positional_encoding X=\text{input\_embedding}+\text{positional\_encoding}$

為什么是相加而不是連接(concat)？

加法不增加維度，后面的模型結構無需改動。
PE被視為微調詞語的表示，可以看作是在詞向量的基礎上“注入一點位置感知”。比如“I saw a cat.” 中的 “cat” 在句首或句尾含義不同，但你不需要讓兩個“cat”產生完全不同的表示，只需加一點“位置信息”做微調。
Attention中的縮放點積更適合加法式表示。
原論文實驗驗證：加法的效果已經很好，因此選擇加法方案。

3 Self-Attention 自注意力機制

![[Pasted image 20250528164507.png]]

上圖為論文中Transformer的內部結構圖，左側為Encoder block，右側為Decoder block。紅色圈中的部分為Multi-Head Attention，由多個Self-Attention組成。
還可以發現，Encoder block包含一個Multi-Head Attention，而Decoder block包含兩個，其中一個用到了mask。
還可以發現，Multi-Head Attention上方還包括一個Add & Norm層，Add表示殘差鏈接(Redidual Connection)，用于防止網絡退化；Norm表示Layer Normalization，用于對每一層的激活值進行歸一化。

3.1 Self-Attention結構

![[Pasted image 20250528172649.png]]

上圖為Self-Attention結構，計算時需要用到矩陣Q(Query, 查詢), K(Key, 鍵值), V(Value, 值)。Self-Attention接收的是輸入(第2章中的矩陣 $X$ ) 或者上一個Encoder block的輸出。
而Q,K,V正是通過Self-Attention的輸入進行線性變換得到的。

3.2 Q, K, V

已知 $X\in\mathbb{R}^{n\times d}$ 。定義三個參數矩陣： $W_Q\in\mathbb{R}^{d\times d_Q}$ ， $W_K\in\mathbb{R}^{d\times d_K}$ ， $W_V\in\mathbb{R}^{d\times d_V}$ 。對于每個輸入 $X$ ：
$Q=XW_Q,\ K=XW_K,\ V=XW_V$
得到的矩陣： $Q\in\mathbb{R}^{n\times d_Q}$ ， $K\in\mathbb{R}^{n\times d_K}$ ， $V\in\mathbb{R}^{n\times d_V}$ 。通常， $d_Q,d_K,d_V$ 是相同的。
在注意力機制中，每個詞會

用 $Q$ 詢問別的詞的 $K$ ，來判斷該關注誰；
用 $V$ 提供實際信息，如果我關注你，要拿到你的什么內容。

注意力公式如下：
$\text{Attention}(Q,K,V)=\text{softmax}(\frac{QK^\top}{\sqrt{d_K}})V$
最后輸出的矩陣 $Z\in\mathbb{R}^{n\times d_V}$ 。

3.3 Multi-head Attention

![[Pasted image 20250528223553.png]]

假設 $X$ 經過QKV計算后得到 $Z$ 。上圖可以看出Multi-head Attention包含多個Self-Attention層。首先將輸入 $X$ 分別傳遞到 $h$ 個不同的Self-Attention中，計算得到 $h$ 個輸出矩陣 $Z=[Z_1,\cdots,Z_h]$ 。Multi-head Attention將其連接(concat)起來，得到 $Z'\in\mathbb{R}^{n\times (h\cdot d_K)}$ 。
最后再經過一層 $\mathbb{R}^{(h\cdot d_K)\times d}$ 的線性層，得到最終的輸出 $Z\in\mathbb{R}^{n\times d}$ ，和輸入 $X$ 的維度相同。

4 Encoder

![[Pasted image 20250528235507.png]]

上圖紅色部分是Transformer的Encoder block結構，可以看到是由Multi-Head Attention, Add & Norm, Feed Forward, Add & Norm組成的。剛剛已經了解了Multi-Head Attention的計算過程，現在了解一下Add & Norm和Feed Forward部分。

4.1 Add & Norm

Add & Norm層由Add和Norm兩部分組成，其計算公式如下：
$\text{LayerNorm}(X+\text{MultiHeadAttention}(X))$
$\text{LayerNorm}(X+\text{FeedForward}(X))$

其中 $X$ 表示Multi-Head Attention或者Feed Forward的輸入，MultiHeadAttention(X)和 FeedForward(X) 表示輸出(輸出與輸入X維度是一樣的，所以可以相加)。
Add指X+MultiHeadAttention(X)，是一種殘差連接，通常用于解決多層網絡訓練的問題，可以讓網絡只關注當前差異的部分，在 ResNet 中經常用到：
![[Pasted image 20250529000354.png]]

Norm指Layer Normalization，通常用于RNN結構，Layer Normalization會將每一層神經元的輸入都轉成均值方差都一樣的，這樣可以加快收斂。

4.2 Feed Forward

Feed Forward層比較簡單，是一個兩層的全連接層，第一層的激活函數為Relu，第二層不使用激活函數：
$max(0,XW_1+b_1)W_2+b_2$
X是輸入，Feed Forward最終得到的輸出矩陣的維度與X一致。

最后， $X$ 經過一連串Encoder得到編碼信息矩陣 $C$ 。

5 Decoder

![[Pasted image 20250529000555.png]]

上圖紅色部分為Transformer的Decoder block結構，與Encoder block相似，但是存在一些區別：

包含兩個Multi-Head Attention層。
第一個Multi-Head Attention層采用了Masked操作。
第二個Multi-Head Attention層的K, V矩陣使用Encoder的編碼信息矩陣 $C$ 進行計算，而Q使用上一個Decoder block的輸出計算。
最后有一個Softmax層計算下一個翻譯單詞的概率。

5.1 Masked Multi-Head Attention (1st)

Decoder block 的第一個Multi-Head Attention采用了Masked操作，因為在翻譯的過程中是順序翻譯的，即翻譯完第 i 個單詞，才可以翻譯第i+1個單詞。通過Masked操作可以防止第i個單詞知道i+1個單詞之后的信息。
下面的描述中使用了類似Teacher Forcing的概念。在 Decoder 的時候，是需要根據之前的翻譯，求解當前最有可能的翻譯，如下圖所示。首先根據輸入"Begin"預測出第一個單詞為 “I”，然后根據輸入"Begin I"預測下一個單詞 “have”。
在這里插入圖片描述
**第一步：**是 Decoder 的輸入矩陣和 Mask 矩陣，輸入矩陣包含 “(begin) I have a cat” (0, 1, 2, 3, 4) 五個單詞的表示向量，Mask 是一個 5×5 的矩陣。在 Mask 可以發現單詞 0 只能使用單詞 0 的信息，而單詞 1 可以使用單詞 0, 1 的信息，即只能使用之前的信息。
![[Pasted image 20250529001717.png]]

第二步：接下來的操作和之前的 Self-Attention 一樣，通過輸入矩陣 $X$ 計算得到 $Q, K, V$ 矩陣。然后計算 $Q$ 和 $K^\top$ 的乘積 $QK^\top$ 。
![[Pasted image 20250529001815.png]]

第三步：在得到 $QK^\top$ 之后需要進行 Softmax，計算 attention score，我們在 Softmax 之前需要使用Mask矩陣遮擋住每一個單詞之后的信息，遮擋操作如下：
![[Pasted image 20250529001838.png]]

得到Mask $QK^\top$ 之后在Mask $QK^\top$ 上進行Softmax，每一行的和都是1，但是單詞0在單詞1,2,3,4上的attention score都為0。

第四步：使用Mask $QK^\top$ 與矩陣 $V$ 相乘得到 $Z$ ，則單詞1的輸出向量 $Z_1$ 是只包含單詞1的信息的。
![[Pasted image 20250529002009.png]]

第五步：通過上述步驟就可以得到一個Masked Self-Attention的輸出矩陣 $Z_i$ ，然后和Encoder類似，通過Multi-Head Attention拼接多個輸出 $Z_i$ ，然后計算得到第一個Multi-Head Attention的輸出 $Z$ ， $Z$ 與輸入 $X$ 的維度相同。