各類神經網絡學習：（十）注意力機制（第2/4集），pytorch 中的多維注意力機制、自注意力機制、掩碼自注意力機制、多頭注意力機制

上一篇	下一篇
注意力機制（第1/4集）	待編寫

一、pytorch 中的多維注意力機制：

在 $N L P$ 領域內，上述三個參數都是向量，在 $p y t orc h$ 中參數向量會組成矩陣，方便代碼編寫。

①結構圖

注意力機制結構圖如下：

在這里插入圖片描述

②計算公式詳解

計算注意力分數的方式有很多，目前最常用的就是點乘。具體如下：

當向量 $\large query$ 和 $\large key$ 長度相同時，即 $q、k_i∈R^{(1×d)}$ ，則有：注意力分數 $\large s(q,k_i)=\frac{<q,k_i>}{\sqrt{d_k}}$ ，符號 $q,k_i>$ 表示點乘/內積運算（向量點乘，結果為標量）。其中 $d_k$ 是 $k_i$ 向量的長度（為什么要在原注意力分數底下除以 $\sqrt{d_k}$ 后面會詳解）。

當向量組成矩陣時，假設 $Q∈R^{(n×d)}$ ， $K∈R^{(m×d)}$ ， $V∈R^{(m×v)}$ 。每個矩陣都是由參數行向量堆疊組成。則有：

$\Large F(Q)=Attention(Q,K,V)=softmax(\frac{Q·K^T}{\sqrt{d_k}})·V$
其中 $\large \frac{QK^T}{\sqrt{d}}∈R^{(n×m)}$ 是注意力分數，， $\large softmax(\frac{QK^T}{\sqrt{d_k}})∈R^{(n×m)}$ 是注意力權重， $\large F(Q)∈R^{(n×v)}$ 是輸出。

這是一種并行化矩陣計算形式，將所有的 $q$ 組合成一個矩陣 $Q$ ， $k$ 和 $v$ 類似，都被組合成了矩陣 $K$ 和 $V$ 。其詳細過程如下：

已知 $Q∈R^{(n×d)}$ ， $K∈R^{(m×d)}$ ， $V∈R^{(m×v)}$ ，該尺寸表示有 $n$ 個 $q$ ， $m$ 個 $k$ 和 $m$ 個 $v$ 。則：

$\times K^T =\\ \begin{bmatrix} \begin{bmatrix} \cdots & q_1 & \cdots \end{bmatrix} \\ \begin{bmatrix} \cdots & q_2 & \cdots \end{bmatrix} \\ \vdots \\ \begin{bmatrix} \cdots & q_n & \cdots \end{bmatrix} \end{bmatrix} ● \begin{bmatrix} \begin{bmatrix} \vdots \\ k_1 \\ \vdots \\ \vdots \end{bmatrix} & \begin{bmatrix} \vdots \\ k_2 \\ \vdots \\ \vdots \end{bmatrix} & \cdots & \begin{bmatrix} \vdots \\ k_m \\ \vdots \\ \vdots \end{bmatrix} \end{bmatrix}= \begin{bmatrix} q_1 \cdot k_1 & q_1 \cdot k_2 & \cdots & q_1 \cdot k_m \\ q_2 \cdot k_1 & q_2 \cdot k_2 & \cdots & q_2 \cdot k_m \\ \vdots & \vdots & \ddots & \vdots \\ q_n \cdot k_1 & q_n \cdot k_2 & \cdots & q_n \cdot k_m \end{bmatrix}$

上述運算可以得到每個小 $q$ 對 $m$ 個小 $k$ 的注意力分數，再經過放縮（除以 $\sqrt{d_k}$ ）和 $so f t ma x$ 函數后得到每個小 $q$ 對 $m$ 個小 $k$ 的注意力權重矩陣，其尺寸為 $n \times m$ ，最終和 $V$ 相乘，得到 $F (Q)$ ，其尺寸為 $n \times v$ ，對應著 $n$ 個 $q$ 的 $v a l u e$ 。

③公式細節解釋

第一點：

使用點乘來計算注意力分數的意義：矩陣點乘 $Q·K^T$ 就意味著做點積/內積，（在注意力機制中，點積通常等同于內積，在數學上點積是內積的特例），內積可直接衡量兩個向量的方向對齊程度。若兩個向量方向一致（夾角為 $0°$ ），則內積最大；方向相反（夾角為 $180°$ ），則內積最小。點乘不僅包含方向信息，還隱含向量長度的乘積。例如，若兩個長向量方向一致，內積值會顯著高于短向量，可能更強調其相關性。
第二點：

上述公式中， $so f t ma x$ 里對注意力分數還除以了 $\sqrt{d_k}$ ，是因為：由于 $so f t ma x$ 函數的計算公式用到了 $e$ 的次方，當兩個數之間的倍數很大時，比如說 99 和 1 ，經過求 $e$ 的次方運算之后，差別會指數倍增加，這樣求出來的概率會很離譜，不是0.99和0.01，而是0.99999999和0.0000000001（很多9和很多0）。讓其中每個元素除以 $\sqrt{d_k}$ 之后，會降低倍數增加的程度（更數學性的解釋可以看 00 預訓練語言模型的前世今生（全文 24854 個詞） - B站-水論文的程序猿 - 博客園這篇博客中的有關注意力機制的講解）。其功能類似于防止梯度消失。
第三點：

一般來說，在 $t r an s f or m er$ 里， $K = V$ 。當然 $K \neq = V$ 也可以，不過兩者之間一定是有對應關系，能組成鍵值對的。

二、自注意力機制（Self-Attention）

當上述的三個參數都由一個另外的共同參數經過不同的線性變換生成時（即三者同源），就是自注意力機制。其值體現為 $Q \approx K \approx V$ 。

這三個矩陣是在同一個矩陣 $X$ 上乘以不同的系數矩陣 $W_Q、W_K、W_V$ 得到的，因此自注意力機制可以說是在計算 $X$ 內部各個 $x_i$ 之間的相關性。其后續步驟和注意力機制一樣。（為什么叫自注意力機制，估計是因為這里是計算自己內部之間的相關性吧）

【注意】：最終生成的新的 $v a l u e$ 其實依然是小 $x$ 的向量表示，只不過這個新向量蘊含了其他的小 $x$ 的信息。

具體公式如下：
$\large Q=W_Q·X,~~~~K=W_K·X,~~~~V=W_V·X\\ \Large F(Q)=Attention(Q,K,V)=softmax(\frac{Q·K^T}{\sqrt{d_k}})·V$
在 $N L P$ 中，可以舉一個小例子理解一下（矩陣內數值即為注意力權重）：

在這里插入圖片描述

上圖中，每一個單詞就是一個小 $q$ ，單詞用向量表示。（有個誤區：不是說自注意力機制中，小 $q$ 和自己的注意力分數就是最大的，這個要看具體語義需求）

其他變種：交叉注意力機制（ $Q$ 和 $V$ 不同源， $K$ 和 $V$ 同源）。

三、掩碼自注意力機制（Masked Self-Attention）

在 $N L P$ 里，在訓練過程中，比如說我想訓練模型生成：“The cat is cute” 這樣一個句子，并且計算其自注意力權重，這個時候 “The cat is cute” 就是已知的 label 。但是句子是一個一個單詞生成的（ The → The cat → The cat is → The cat is cute），第一個生成 The ，第二個生成 cat … 在沒有完全生成之前，都是不能提前告訴模型后面的答案。已知句子總長度為 $4$ ，那么注意力權重的個數依次是 1 → 2 → 3 → 4 。如下圖所示：

在這里插入圖片描述

注意了，這里的生成是指訓練時的生成，掩碼機制只在訓練時使用，因為訓練時機器知道有位置信息的句子（句子的長度也已知曉），為了防止窺探到下一個字就要掩碼。但在實際使用模型時（測試時），是沒有參考答案的，所以不需要掩碼！

其實還有其他作用，諸如：避免填充干擾等，后面在 transformer 里會詳解。

四、多頭注意力機制（Multi-Head Self-Attention）

本質上就是： $X$ 做完三次線性變換得到 $Q 、 K 、 V$ 之后，將 $Q 、 K 、 V$ 分割成 $8$ 塊進行注意力計算，最后將這 $8$ 個結果拼接，然后線性變換，使其維度和 $X$ 一致。（并不是直接對 X 進行切分，也不是對 X 進行重復線性變換）

意義：原論文其實也說不清楚這樣做的意義，反正給人一種能學到更細致的語義信息的感覺（深度學習就是這樣~~）。

流程圖如下：

在這里插入圖片描述

第一步：

輸入序列 $X$ 首先經過三次獨立的線性變換，生成查詢（ $Q u ery$ ）、鍵（ $Key$ ）、值（ $Va l u e$ ）矩陣：

$Q=W_Q·X$ ， $K=W_K·X$ ， $V=W_V·X$ 。其中， $W_Q、W_K、W_V$ 是可學習的權重矩陣。

第二步：

將 $Q 、 K 、 V$ 矩陣沿特征維度平均分割為多個頭。一般頭數均為 $8$ （即 $h = 8$ ），假設 $Q 、 K 、 V$ 的特征維度為 $M$ ，則分割之后每個頭的特征維度為 $M /8$ 。

第三步：

每個頭各自并行計算注意力并得到各自的輸出（先點積，再縮放，再做 $so f t ma x$ ，再乘以 $v a l u e$ ）【每個頭學習不同子空間的語義關系】

第四步：

合并多頭輸出，將所有頭的輸出拼接為完整維度，再通過一次線性變換整合信息：

$Output=Concat(head_1,…,head_h)?W_O$ 。其中 $W_O$ 是最后的線性層的投影矩陣。

值得一提的是：針對 “將 $Q 、 K 、 V$ 分割成 $8$ 塊” 這個步驟，《Attention Is All You Need》論文原文說的是： linearly project h times ，意思就是將 $Q 、 K 、 V$ 通過線性層將其變換為 $8$ 個新的特征維度為 $M /8$ 的 $Q^{'}、K^{'}、V^{'}$ 。不過這在數學上等效于直接分割成 $8$ 塊，并且后者在算法實現上能提高效率。代碼如下：

Q = torch.randn(batch_size, seq_len, h*d_k)
Q = Q.view(batch_size, seq_len, h, d_k)  # 分割為 h 個頭

.view() 函數的作用是變換尺寸，將原來的三維張量，變成四維張量（ h 個三維張量），元素的值不變，元素的總數也不變，其效果等于切割。