?CCF等級:A
發布時間:2018年
代碼位置
25年4月21日交
目錄
一、簡介
二、原理
1.注意力系數
2.歸一化
3.特征組合與非線性變換
4.多頭注意力
4.1特征拼接操作
4.2平均池化操作
三、實驗性能
四、結論和未來工作
一、簡介
圖注意力網絡(GATs),可以在圖結構數據上操作的神經網絡架構。在GAT模型中,節點能夠在它們的鄰域特征上進行“關注”,從而隱式地為鄰域中的不同節點指定不同的權重。簡單理解為節點能夠知道關聯的每個節點對自己的影響權重是多少。
二、原理
首先將節點轉化為向量,然后通過自我注意機制計算每個節點對其鄰居的重要性權重(即注意力系數),并通過softmax函數進行歸一化。接下來,利用這些歸一化的注意力系數對鄰近節點的特征加權求和,得到每個節點的新特征表示,并通常應用非線性激活函數進一步處理。為了增強模型的表現力和穩定性,GAT可以采用多頭注意力機制獨立執行上述過程多次,并將結果拼接或平均,最終生成用于分類或其他任務的節點特征表示。
1.注意力系數
先將節點轉化為向量,節點的向量為
。(這一部分不重要,就不展開講解)
和
分別是節點
和節點
的特征向量。
是一個權重矩陣,用于線性變換這些特征向量。
是一個注意力機制函數,用于計算兩個變換后的特征向量之間的相似度或相關性。
使用權重矩陣對節點進行線性變換,再通過注意力機制函數
計算這兩個變換后特征向量之間的注意力分數
。
節點對其鄰居節點
的注意力系數
注意:只衡量了節點
關注節點
的程度,而不是同時考慮
對
關注程度。換句話說
和
是獨立計算的,它們分別代表了從節點
到節點
和從節點
到節點
的注意力權重,這允許模型對每個方向的重要性進行不同的賦值。
2.歸一化
是注意力分數
的指數函數值。
是節點
所有鄰居節點
的注意力分數的指數函數值之和。
表示節點
的鄰居節點集合。
通過函數,每個節點
對其鄰居節點
的注意力權重
被歸一化到
區間內,并且所有鄰居節點的注意力權重之和為 1。歸一化不僅提高了模型性能,還增強了模型的魯棒性和解釋性。
計算注意力系數和歸一化的公式可以合并為
3.特征組合與非線性變換
利用標準化后的注意力系數,對鄰近節點
的特征進行加權求和,從而得到每個節點的新特征表示。
是節點
更新后的特征向量。
表示經過
歸一化后,鄰居節點
對節點
的注意力權重。
是一個可學習的權重矩陣,用于對輸入特征進行線性變換。
表示節點
的鄰居集合。
是一個非線性激活函數,例如
或
,用于引入非線性。
通過上述步驟,圖注意力網絡(GATs)能夠動態地調整每個節點對其鄰居節點的關注度,并據此更新自身的特征表示,以捕捉更豐富的局部結構信息。
4.多頭注意力
通過為每個注意力頭使用不同的權重矩陣,模型可以捕捉到不同類型的特征關系。
類似于卷積神經網絡中使用不同的卷積核計算。
多頭注意力機制?類似于多尺度特征提取,不同尺度的特征通過不同的卷積核提取。
多頭注意力機制來計算節點的新特征表示
4.1特征拼接操作
表示將
個注意力頭的結果進行拼接,形成最終的特征表示。
是第
個注意力頭對應的權重矩陣,用于對鄰居節點
的特征向量
進行線性變換。
表示對所有鄰居節點
的特征向量進行加權求和。這里的
是節點
的鄰居節點集合。
4.2平均池化操作
表示對
個注意力頭的結果進行平均池化,即將
個注意力頭的結果相加后除以
。
總結:
使用單一的注意力權重和權重矩陣,適用于簡單的注意力機制。
使用多頭注意力機制,特征拼接操作,并通過特征拼接操作組合多個注意力頭的結果,從而增強模型的表達能力。
使用多頭注意力機制,平均池化操作,并通過平均池化操作組合多個注意力頭的結果,從而增強模型的表達能力。
三、實驗性能
Cora、Citeseer和Pubmed分類準確率的結果總結。GCN-64 *對應于計算64個隱藏特征的最佳GCN結果。
對于PPI數據集,以微平均F1分數表示的結果摘要。GraphSAGE*對應于我們僅通過修改其架構即可獲得的最佳GraphSAGE結果。
四、結論和未來工作
1.解決稀疏矩陣運算限制的問題:使用的張量操作框架僅支持秩2張量的稀疏矩陣乘法,這限制了批次處理的能力。
2.擴展模型深度:采用跳連接等技術可以適當擴展模型的深度,從而提高其表達能力。