【神經網絡與深度學習】Transformer原理

transformer

在這里插入圖片描述

ENCODER

在這里插入圖片描述

輸入部分

對拆分后的語句x = [batch_size, seq_len]進行以下操作

Embedding
將離散的輸入（如單詞索引或其他類別特征）轉換為稠密的實數向量，以便可以在神經網絡中使用。
位置編碼
與RNN相比，RNN是一個字一個字的輸入，自然每個字的順序關系信息就會保留下來。但在Encoder中，一個句子的每一個字（詞）是并行計算的（下一節解釋），所以我們在輸入的時候需要提前引入位置信息。
位置信息由： pos（一句話中的第幾個字）和 i （這個字編碼成向量后的第i維) 來確定
下面是Positional Encoding的公式：
i為偶數時 , $PE_{pos, i}= sin( pos/ 10000^{2i/ d_{model}})$
i為奇數時 , $PE_{pos, i}= cos( pos/ 10000^{2i/ d_{model}})$
$d_{model}$ 指想用多長的 vector 來表達一個詞(embedding_dim)

通過輸入部分
x： [batch_size, seq_len, embedding_dim]

在這里插入圖片描述

多頭注意力機制

單頭注意力機制
對一句話中第i個字的字向量 $a_i$ ，產生三個矩陣Q, K ，V
Q,K,V的維度都為[batch_size, seq_len, embedding_dim]

將 $a_i$ 分別與上面三個矩陣相乘，得到三個向量 $q_i, k_i, v_i$
如果要計算第1個字向量與句子中所有字向量的注意力：
將查詢向量 $q_1$ 與所有的字向量的鍵向量 $k_i$ 相乘得到 $alpha_{10}, alpha_{11},...,alpha_{1,seqlen}$
將這寫數值進行softmax處理后，分別與 $v_i$ 相乘再合加得到最終結果 $b_1$

在這里插入圖片描述

多頭注意力機制
把 $Q, K, V$ 三個大矩陣變成n個小矩陣（seq_len, embedding_dim/n) n=8
用上節相同的方式計算8個矩陣，然后把每一個head-Attention計算出來的b矩陣拼在一起，作為輸出

Add&LN

Add是用了殘差神經網絡的思想，也就是把Multi-Head Attention的輸入的a矩陣直接加上Multi-Head Attention的輸出b矩陣（好處是可以讓網絡訓練的更深）得到的和 $\bar{b}$ 矩陣

再在經過Layer normalization（歸一化，作用加快訓練速度，加速收斂）把
每一行（也就是每個句子）做歸一為標準正態分布，最后得到 $\hat{b}$
BN 和 LN：

LN：在一個樣本內做歸一化適于RNN,transformer
BN：對batch_size里面的樣本按對應的特征做歸一化適于CNN

Feed_forward前饋神經網絡

把Add & Layer normalization輸出 $\hat{b}$ ，經過兩個全連接層，再經過Add & Layer normalization得到最后輸出 o 矩陣

DECODER

masked_多頭注意力機制

比如我們在中英文翻譯時候，會先把"我是學生"整個句子輸入到Encoder中，得到最后一層的輸出后，才會在Decoder輸入"S I am a student"（s表示開始）,但是"S I am a student"這個句子我們不會一起輸入，而是在T0時刻先輸入"S"預測，預測第一個詞"I"；在下一個T1時刻，同時輸入"S"和"I"到Decoder預測下一個單詞"am"；然后在T2時刻把"S,I,am"同時輸入到Decoder預測下一個單詞"a",依次把整個句子輸入到Decoder,預測出"I am a student E"

多頭注意力機制

Decoder 的 Multi-Head Attention 的輸入來自兩部分，
K，V 矩陣來自Encoder的輸出，
Q 矩陣來自 Masked Multi-Head Attention 的輸出
在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/12932.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/12932.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/12932.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！