輸入的(a1,a2,a3,a4)是最終嵌入,是一個(512,768)的矩陣;而a1是一個token,尺寸是768
a1通過wq權重矩陣,經過全連接變換得到查詢向量q1;a2通過Wk權重矩陣得到鍵向量k2;q和k點乘就是值a12,a12就是a2對于a1的注意力值
依次得到a1,1,a1,2,a1,3,a1,4注意力,都是其他token相對于a1 token的注意力
此時(a1,1,a1,2,a1,3,a1,4)不是概率分布,需要經過softmax呈概率分布向量(a’1,1,a’1,2,a’1,3,a’1,4),
此時,再把每個a經過v權重矩陣得到v1,v2,v3,v4向量
a’1,1×v1+a’1,2×v2+a’1,3×v3+a’1,4×v4=b1向量,b1是個768維向量,是a1的自注意力向量,綜合了該token與其他所有tokens之間的關系
之后每個a都這么得到自己的自注意力向量,然后組合成(512,768)