GAT-GRAPH ATTENTION NETWORKS（論文筆記）

?CCF等級：A

發布時間：2018年

代碼位置

25年4月21日交

一、簡介

二、原理

1.注意力系數

2.歸一化

3.特征組合與非線性變換

4.多頭注意力

4.1特征拼接操作

4.2平均池化操作

三、實驗性能

四、結論和未來工作

一、簡介

圖注意力網絡（GATs），可以在圖結構數據上操作的神經網絡架構。在GAT模型中，節點能夠在它們的鄰域特征上進行“關注”，從而隱式地為鄰域中的不同節點指定不同的權重。簡單理解為節點能夠知道關聯的每個節點對自己的影響權重是多少。

二、原理

首先將節點轉化為向量，然后通過自我注意機制計算每個節點對其鄰居的重要性權重（即注意力系數），并通過softmax函數進行歸一化。接下來，利用這些歸一化的注意力系數對鄰近節點的特征加權求和，得到每個節點的新特征表示，并通常應用非線性激活函數進一步處理。為了增強模型的表現力和穩定性，GAT可以采用多頭注意力機制獨立執行上述過程多次，并將結果拼接或平均，最終生成用于分類或其他任務的節點特征表示。

1.注意力系數

先將節點轉化為向量，節點 $h_i$ 的向量為 $\overrightarrow{h_i}$ 。（這一部分不重要，就不展開講解）

$e_{ij} = a(W\overrightarrow{h_i},W\overrightarrow{h_j})$

$\overrightarrow{h_i}$ 和 $\overrightarrow{h_j}$ 分別是節點 $i$ 和節點 $j$ 的特征向量。
$W$ 是一個權重矩陣，用于線性變換這些特征向量。
$a(\cdot , \cdot )$ 是一個注意力機制函數，用于計算兩個變換后的特征向量之間的相似度或相關性。

使用權重矩陣 $W$ 對節點進行線性變換,再通過注意力機制函數 $a(\cdot , \cdot )$ 計算這兩個變換后特征向量之間的注意力分數 $e_{ij}$ 。

節點 $i$ 對其鄰居節點 $j$ 的注意力系數 $a_{ij}$

注意： $e_{ij}$ 只衡量了節點 $i$ 關注節點 $j$ 的程度，而不是同時考慮 $j$ 對 $i$ 關注程度。換句話說 $e_{ij}$ 和 $e_{ji}$ 是獨立計算的，它們分別代表了從節點 $i$ 到節點 $j$ 和從節點 $j$ 到節點 $i$ 的注意力權重，這允許模型對每個方向的重要性進行不同的賦值。

2.歸一化

$a_{ij} = softmax_j(e_{ij}) = \frac{\exp (e_{ij})}{\sum_{k \in N_i} \exp (e_{ik})}$

$\exp(e_{ij})$ 是注意力分數 $e_{ij}$ 的指數函數值。
$\sum_{k \in N_i} \exp(e_{ik})$ 是節點 $i$ 所有鄰居節點 $k$ 的注意力分數的指數函數值之和。
$N-i$ 表示節點 $i$ 的鄰居節點集合。

通過 $softmax$ 函數，每個節點 $i$ 對其鄰居節點 $j$ 的注意力權重 $a_{ij}$ 被歸一化到 $[0,1]$ 區間內，并且所有鄰居節點的注意力權重之和為 1。歸一化不僅提高了模型性能，還增強了模型的魯棒性和解釋性。

計算注意力系數和歸一化的公式可以合并為

$\alpha_{ij} = \frac{\exp\left(\text{LeakyReLU}\left(\tilde{\mathbf{a}}^T [\mathbf{W} \vec{h}_i \| \mathbf{W} \vec{h}_j]\right)\right)}{\sum_{k \in N_i} \exp\left(\text{LeakyReLU}\left(\tilde{\mathbf{a}}^T [\mathbf{W} \vec{h}_i \| \mathbf{W} \vec{h}_k]\right)\right)}$

3.特征組合與非線性變換

利用標準化后的注意力系數 $a_{ij}$ ，對鄰近節點 $j$ 的特征進行加權求和，從而得到每個節點的新特征表示。

$\overrightarrow{h'_i} = \sigma (\sum_{j \in N_i} \alpha_{ij}W\overrightarrow{h_j})$

$\overrightarrow{h'_i}$ 是節點 $i$ 更新后的特征向量。
$\alpha _{ij}$ 表示經過 $softmax$ 歸一化后，鄰居節點 $j$ 對節點 $i$ 的注意力權重。
$W$ 是一個可學習的權重矩陣，用于對輸入特征進行線性變換。
$N_i$ 表示節點 $i$ 的鄰居集合。
$\sigma$ 是一個非線性激活函數，例如 $ReLU$ 或 $LeakyReLU$ ，用于引入非線性。

通過上述步驟，圖注意力網絡（GATs）能夠動態地調整每個節點對其鄰居節點的關注度，并據此更新自身的特征表示，以捕捉更豐富的局部結構信息。

4.多頭注意力

通過為每個注意力頭使用不同的權重矩陣，模型可以捕捉到不同類型的特征關系。

類似于卷積神經網絡中使用不同的卷積核計算。

多頭注意力機制?類似于多尺度特征提取，不同尺度的特征通過不同的卷積核提取。

多頭注意力機制來計算節點 $\overrightarrow{h_i}$ 的新特征表示 $\overrightarrow{h'i}$

4.1特征拼接操作

$\vec{h}_i' = \parallel_{k=1}^{K} \sigma\left( \sum_{j \in N_i} \alpha_{ij}^k \mathbf{W}^k \vec{h}_j \right)$

$\parallel_{k=1}^{K}$ 表示將 $K$ 個注意力頭的結果進行拼接，形成最終的特征表示。
$W^k$ 是第 $k$ 個注意力頭對應的權重矩陣，用于對鄰居節點 $j$ 的特征向量 $\overrightarrow{h_j}$ 進行線性變換。
$\sum_{j \in N_i} \alpha_{ij}^k \mathbf{W}^k \vec{h}_j$ 表示對所有鄰居節點 $j$ 的特征向量進行加權求和。這里的 $N_i$ 是節點 $i$ 的鄰居節點集合。

4.2平均池化操作

$\vec{h}_i' = \sigma\left( \frac{1}{K} \sum_{k=1}^{K} \sum_{j \in N_i} \alpha_{ij}^k \mathbf{W}^k \vec{h}_j \right)$

$\frac{1}{K} \sum_{k=1}^{K}$ 表示對 $K$ 個注意力頭的結果進行平均池化，即將 $K$ 個注意力頭的結果相加后除以 $K$ 。

總結：

使用單一的注意力權重和權重矩陣，適用于簡單的注意力機制。

使用多頭注意力機制，特征拼接操作，并通過特征拼接操作組合多個注意力頭的結果，從而增強模型的表達能力。

使用多頭注意力機制，平均池化操作，并通過平均池化操作組合多個注意力頭的結果，從而增強模型的表達能力。

三、實驗性能

Cora、Citeseer和Pubmed分類準確率的結果總結。GCN-64 *對應于計算64個隱藏特征的最佳GCN結果。

對于PPI數據集，以微平均F1分數表示的結果摘要。GraphSAGE*對應于我們僅通過修改其架構即可獲得的最佳GraphSAGE結果。

四、結論和未來工作

1.解決稀疏矩陣運算限制的問題：使用的張量操作框架僅支持秩2張量的稀疏矩陣乘法，這限制了批次處理的能力。

2.擴展模型深度：采用跳連接等技術可以適當擴展模型的深度，從而提高其表達能力。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/901041.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/901041.shtml
英文地址，請注明出處：http://en.pswp.cn/news/901041.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！