注意力機制的快速學習
注意力機制
?將焦點聚焦在比較重要的事物上
-
我(查詢對象Q),這張圖(被查詢對象V)
-
我看一張圖,第一眼,就會判斷那些東西對我而言比較重要,那些對于我不重要(去計算Q和V之間的事物重要度)
-
重要度計算,其實就是計算相似度(更接近),點乘其實就是計算內積
-
Q,K = k1,k2,k3…kn,我們一般使用點乘方式
-
通過點乘的方法計算Q和K里面的每一個事物的相似度,就可以拿到Q和k1的相似度s1,Q和k2的相似度s2,… 相似度sn
-
最后,softmax(s1,s2,…,sn)就可以得到概率(a1,a2,…,an),然后就知道那個更加重要
-
原先的V = (v1,v2,vn)
-
最后進行一個匯總,當使用Q查詢結束之后,Q已經失去它的使用價值,最后還是需要使用這張圖片,但是現在的這張圖片多了一些信息
-
(a1,a2,an)* (v1,v2,vn) = (a1v1,a2v2…)
-
這樣就得到一個新的V,新的V就包含了哪些更重要的信息,那些不重要的信息
-
使用新的V代替原來的V
自注意力機制
- 第一眼看一張圖,不會把所有的信息都看完
-
QK相乘計算相似度,然后做一個scale(后面softmax的時候避免極端情況)
-
softmax得到概率
-
自注意力機制的關鍵點在于,不僅僅是K=V=Q 來源于同一個X,三者是同一個源頭
-
Q KV 的獲取是通過三個參數Wq, Wk,Wv進行矩陣相乘得到的
-
接下來的步驟和注意力機制一樣
- z1就是達標thinking的新的向量表示