上一篇 | 下一篇 |
---|---|
注意力機制(第1/4集) | 待編寫 |
一、pytorch 中的多維注意力機制:
在 N L P NLP NLP 領域內,上述三個參數都是 向量 , 在 p y t o r c h pytorch pytorch 中參數向量會組成 矩陣 ,方便代碼編寫。
①結構圖
注意力機制結構圖如下:
②計算公式詳解
計算注意力分數的方式有很多,目前最常用的就是點乘。具體如下:
當向量 q u e r y \large query query 和 k e y \large key key 長度相同時,即 q 、 k i ∈ R ( 1 × d ) q、k_i∈R^{(1×d)} q、ki?∈R(1×d) ,則有:注意力分數 s ( q , k i ) = < q , k i > d k \large s(q,k_i)=\frac{<q,k_i>}{\sqrt{d_k}} s(q,ki?)=dk??<q,ki?>? ,符號 < q , k i > <q,k_i> <q,ki?> 表示點乘/內積運算(向量點乘,結果為標量)。其中 d k d_k dk? 是 k i k_i ki? 向量的長度(為什么要在原注意力分數底下除以 d k \sqrt{d_k} dk?? 后面會詳解)。
當向量組成矩陣時,假設 Q ∈ R ( n × d ) Q∈R^{(n×d)} Q∈R(n×d) , K ∈ R ( m × d ) K∈R^{(m×d)} K∈R(m×d) , V ∈ R ( m × v ) V∈R^{(m×v)} V∈R(m×v) 。每個矩陣都是由參數行向量堆疊組成。則有:
F ( Q ) = A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q ? K T d k ) ? V \Large F(Q)=Attention(Q,K,V)=softmax(\frac{Q·K^T}{\sqrt{d_k}})·V F(Q)=Attention(Q,K,V)=softmax(dk??Q?KT?)?V
其中 Q K T d ∈ R ( n × m ) \large \frac{QK^T}{\sqrt{d}}∈R^{(n×m)} d?QKT?∈R(n×m) 是注意力分數,, s o f t m a x ( Q K T d k ) ∈ R ( n × m ) \large softmax(\frac{QK^T}{\sqrt{d_k}})∈R^{(n×m)} softmax(dk??QKT?)∈R(n×m) 是注意力權重, F ( Q ) ∈ R ( n × v ) \large F(Q)∈R^{(n×v)} F(Q)∈R(n×v) 是輸出。
這是一種并行化矩陣計算形式,將所有的 q q q 組合成一個矩陣 Q Q Q , k k k 和 v v v 類似,都被組合成了矩陣 K K K 和 V V V 。其詳細過程如下:
已知 Q ∈ R ( n × d ) Q∈R^{(n×d)} Q∈R(n×d) , K ∈ R ( m × d ) K∈R^{(m×d)} K∈R(m×d) , V ∈ R ( m × v ) V∈R^{(m×v)} V∈R(m×v) ,該尺寸表示有 n n n 個 q q q , m m m 個 k k k 和 m m m 個 v v v 。則:
Q × K T = [ [ ? q 1 ? ] [ ? q 2 ? ] ? [ ? q n ? ] ] ● [ [ ? k 1 ? ? ] [ ? k 2 ? ? ] ? [ ? k m ? ? ] ] = [ q 1 ? k 1 q 1 ? k 2 ? q 1 ? k m q 2 ? k 1 q 2 ? k 2 ? q 2 ? k m ? ? ? ? q n ? k 1 q n ? k 2 ? q n ? k m ] Q \times K^T =\\ \begin{bmatrix} \begin{bmatrix} \cdots & q_1 & \cdots \end{bmatrix} \\ \begin{bmatrix} \cdots & q_2 & \cdots \end{bmatrix} \\ \vdots \\ \begin{bmatrix} \cdots & q_n & \cdots \end{bmatrix} \end{bmatrix} ● \begin{bmatrix} \begin{bmatrix} \vdots \\ k_1 \\ \vdots \\ \vdots \end{bmatrix} & \begin{bmatrix} \vdots \\ k_2 \\ \vdots \\ \vdots \end{bmatrix} & \cdots & \begin{bmatrix} \vdots \\ k_m \\ \vdots \\ \vdots \end{bmatrix} \end{bmatrix}= \begin{bmatrix} q_1 \cdot k_1 & q_1 \cdot k_2 & \cdots & q_1 \cdot k_m \\ q_2 \cdot k_1 & q_2 \cdot k_2 & \cdots & q_2 \cdot k_m \\ \vdots & \vdots & \ddots & \vdots \\ q_n \cdot k_1 & q_n \cdot k_2 & \cdots & q_n \cdot k_m \end{bmatrix} Q×KT= ?[??q1????][??q2????]?[??qn????]? ?● ? ??k1???? ?? ??k2???? ???? ??km???? ?? ?= ?q1??k1?q2??k1??qn??k1??q1??k2?q2??k2??qn??k2???????q1??km?q2??km??qn??km?? ?
上述運算可以得到每個小 q q q 對 m m m 個小 k k k 的注意力分數,再經過放縮(除以 d k \sqrt{d_k} dk?? )和 s o f t m a x softmax softmax 函數后得到每個小 q q q 對 m m m 個小 k k k 的注意力權重矩陣,其尺寸為 n × m n×m n×m ,最終和 V V V 相乘,得到 F ( Q ) F(Q) F(Q) ,其尺寸為 n × v n×v n×v ,對應著 n n n 個 q q q 的 v a l u e value value 。
③公式細節解釋
-
第一點:
使用點乘來計算注意力分數的意義:矩陣點乘 Q ? K T Q·K^T Q?KT 就意味著做點積/內積,(在注意力機制中,點積通常等同于內積,在數學上點積是內積的特例),內積可直接衡量兩個向量的方向對齊程度。若兩個向量方向一致(夾角為 0 ° 0° 0° ),則內積最大;方向相反(夾角為 180 ° 180° 180° ),則內積最小。點乘不僅包含方向信息,還隱含向量長度的乘積。例如,若兩個長向量方向一致,內積值會顯著高于短向量,可能更強調其相關性。
-
第二點:
上述公式中, s o f t m a x softmax softmax 里對注意力分數還除以了 d k \sqrt{d_k} dk?? ,是因為:由于 s o f t m a x softmax softmax 函數的計算公式用到了 e e e 的次方,當兩個數之間的倍數很大時,比如說 99 和 1 ,經過求 e e e 的次方運算之后,差別會指數倍增加,這樣求出來的概率會很離譜,不是0.99和0.01,而是0.99999999和0.0000000001(很多9和很多0)。讓其中每個元素除以 d k \sqrt{d_k} dk?? 之后,會降低倍數增加的程度(更數學性的解釋可以看 00 預訓練語言模型的前世今生(全文 24854 個詞) - B站-水論文的程序猿 - 博客園 這篇博客中的有關注意力機制的講解)。其功能類似于防止梯度消失。
-
第三點:
一般來說,在 t r a n s f o r m e r transformer transformer 里, K = V K=V K=V 。當然 K ≠ V K≠V K=V 也可以,不過兩者之間一定是有對應關系,能組成鍵值對的。
二、自注意力機制(Self-Attention)
當上述的三個參數都由一個另外的共同參數 經過不同的線性變換 生成時(即三者同源),就是自注意力機制。其值體現為 Q ≈ K ≈ V Q≈K≈V Q≈K≈V 。
這三個矩陣是在同一個矩陣 X X X 上乘以不同的系數矩陣 W Q 、 W K 、 W V W_Q、W_K、W_V WQ?、WK?、WV? 得到的,因此自注意力機制可以說是在計算 X X X 內部各個 x i x_i xi? 之間的相關性。其后續步驟和注意力機制一樣。(為什么叫自注意力機制,估計是因為這里是計算自己內部之間的相關性吧)
【注意】:最終生成的新的 v a l u e value value 其實依然是小 x x x 的向量表示,只不過這個新向量蘊含了其他的小 x x x 的信息。
具體公式如下:
Q = W Q ? X , K = W K ? X , V = W V ? X F ( Q ) = A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q ? K T d k ) ? V \large Q=W_Q·X,~~~~K=W_K·X,~~~~V=W_V·X\\ \Large F(Q)=Attention(Q,K,V)=softmax(\frac{Q·K^T}{\sqrt{d_k}})·V Q=WQ??X,????K=WK??X,????V=WV??XF(Q)=Attention(Q,K,V)=softmax(dk??Q?KT?)?V
在 N L P NLP NLP 中,可以舉一個小例子理解一下(矩陣內數值即為注意力權重):
上圖中,每一個單詞就是一個小 q q q ,單詞用向量表示。(有個誤區:不是說自注意力機制中,小 q q q 和自己的注意力分數就是最大的,這個要看具體語義需求)
其他變種:交叉注意力機制( Q Q Q 和 V V V 不同源, K K K 和 V V V 同源)。
三、掩碼自注意力機制(Masked Self-Attention)
在 N L P NLP NLP 里,在訓練過程中,比如說我想訓練模型生成:“The cat is cute” 這樣一個句子,并且計算其自注意力權重,這個時候 “The cat is cute” 就是已知的 label 。但是句子是一個一個單詞生成的( The → The cat → The cat is → The cat is cute),第一個生成 The ,第二個生成 cat … 在沒有完全生成之前,都是不能提前告訴模型后面的答案。已知句子總長度為 4 4 4 ,那么注意力權重的個數依次是 1 → 2 → 3 → 4 。如下圖所示:
注意了,這里的生成是指訓練時的生成,掩碼機制只在訓練時使用,因為訓練時機器知道有位置信息的句子(句子的長度也已知曉),為了防止窺探到下一個字就要掩碼。但在實際使用模型時(測試時),是沒有參考答案的,所以不需要掩碼!
其實還有其他作用,諸如:避免填充干擾等,后面在 transformer 里會詳解。
四、多頭注意力機制(Multi-Head Self-Attention)
本質上就是: X X X 做完三次線性變換得到 Q 、 K 、 V Q、K、V Q、K、V之后,將 Q 、 K 、 V Q、K、V Q、K、V分割成 8 8 8 塊進行注意力計算,最后將這 8 8 8 個結果拼接,然后線性變換,使其維度和 X X X 一致。(并不是直接對 X 進行切分,也不是對 X 進行重復線性變換)
意義:原論文其實也說不清楚這樣做的意義,反正給人一種能學到更細致的語義信息的感覺(深度學習就是這樣~~)。
流程圖如下:
第一步:
輸入序列 X X X 首先經過三次獨立的線性變換,生成查詢( Q u e r y Query Query)、鍵( K e y Key Key)、值( V a l u e Value Value)矩陣:
Q = W Q ? X Q=W_Q·X Q=WQ??X , K = W K ? X K=W_K·X K=WK??X , V = W V ? X V=W_V·X V=WV??X 。其中, W Q 、 W K 、 W V W_Q、W_K、W_V WQ?、WK?、WV? 是可學習的權重矩陣。
第二步:
將 Q 、 K 、 V Q、K、V Q、K、V 矩陣沿特征維度平均分割為多個頭。一般頭數均為 8 8 8(即 h = 8 h=8 h=8),假設 Q 、 K 、 V Q、K、V Q、K、V 的特征維度為 M M M ,則分割之后每個頭的特征維度為 M / 8 M/8 M/8 。
第三步:
每個頭各自并行計算注意力并得到各自的輸出(先點積,再縮放,再做 s o f t m a x softmax softmax ,再乘以 v a l u e value value )【每個頭學習不同子空間的語義關系】
第四步:
合并多頭輸出,將所有頭的輸出拼接為完整維度,再通過一次線性變換整合信息:
O u t p u t = C o n c a t ( h e a d 1 , … , h e a d h ) ? W O Output=Concat(head_1,…,head_h)?W_O Output=Concat(head1?,…,headh?)?WO? 。其中 W O W_O WO? 是最后的線性層的投影矩陣。
值得一提的是:針對 “將 Q 、 K 、 V Q、K、V Q、K、V分割成 8 8 8 塊” 這個步驟,《Attention Is All You Need》論文原文說的是: linearly project h times ,意思就是將 Q 、 K 、 V Q、K、V Q、K、V通過線性層將其變換為 8 8 8 個新的特征維度為 M / 8 M/8 M/8 的 Q ′ 、 K ′ 、 V ′ Q^{'}、K^{'}、V^{'} Q′、K′、V′ 。不過這在數學上等效于直接分割成 8 8 8 塊,并且后者在算法實現上能提高效率。代碼如下:
Q = torch.randn(batch_size, seq_len, h*d_k)
Q = Q.view(batch_size, seq_len, h, d_k) # 分割為 h 個頭
.view()
函數的作用是變換尺寸,將原來的三維張量,變成四維張量( h 個三維張量),元素的值不變,元素的總數也不變,其效果等于切割。