推薦指數: #paper/??? #paper/💡
發表于:AAAI21
簡稱:FAGCL
問題提出背景:
GCN常常使用低頻信息,但是在現實中,不僅低頻信息重要,高頻信息頁重要
如上圖,隨著類間鏈接的增加,低頻信號的增強開始變弱,高頻信號的增強開始增加.
作者貢獻:
- 不僅低頻信號重要,高頻信號也重要
- 我們提出了FAGCN,不需要知道網絡類型就可以自適應傳播低頻高頻信號
模型
先驗知識:
L = I n ? D ? 1 / 2 A D ? 1 / 2 , L = I_n - D^{-1/2}AD^{-1/2}, L=In??D?1/2AD?1/2,
在這里, λ l ∈ [ 0 , 2 ] \lambda_{l}\in[0,2] λl?∈[0,2], L = U Λ U T L = U\Lambda U^{T} L=UΛUT, Λ = d i a g ( [ λ 1 , λ 2 , ? , λ n ] ) \Lambda=diag([\lambda_1,\lambda_2,\cdots,\lambda_n]) Λ=diag([λ1?,λ2?,?,λn?])
ChebNet的卷積核: g θ = ∑ k = 0 K ? 1 α k Λ k g_\theta=\sum_{k=0}^{K-1}\alpha_k\Lambda^k gθ?=∑k=0K?1?αk?Λk, g θ = I ? Λ g_{\theta}=I-\Lambda gθ?=I?Λ
高頻濾波器和低頻濾波器
如下,我們設計了高通濾波器 F L F_{L} FL?和低通濾波器 F H F_{H} FH?
F L = ε I + D ? 1 / 2 A D ? 1 / 2 = ( ε + 1 ) I ? L , F H = ε I ? D ? 1 / 2 A D ? 1 / 2 = ( ε ? 1 ) I + L \begin{align} \mathcal{F}_L=\varepsilon I+D^{-1/2}AD^{-1/2}=(\varepsilon+1)I-L,\\\mathcal{F}_H=\varepsilon I-D^{-1/2}AD^{-1/2}=(\varepsilon-1)I+L \end{align} FL?=εI+D?1/2AD?1/2=(ε+1)I?L,FH?=εI?D?1/2AD?1/2=(ε?1)I+L??
在這里, ε \varepsilon ε是超參,范圍為[0,1]
如果我們使用 F L 和 F h F_{L}和F_{h} FL?和Fh?替代卷積核f,我們可以得到如下:
F L ? G x = U [ ( ε + 1 ) I ? Λ ] U ? x = F L ? x , F H ? G x = U [ ( ε ? 1 ) I + Λ ] U ? x = F H ? x . \begin{align} \mathcal{F}_L*_Gx=U[(\varepsilon+1)I-\Lambda]U^\top x=\mathcal{F}_L\cdot x,\\\mathcal{F}_H*_Gx=U[(\varepsilon-1)I+\Lambda]U^\top x=\mathcal{F}_H\cdot x. \end{align} FL??G?x=U[(ε+1)I?Λ]U?x=FL??x,FH??G?x=U[(ε?1)I+Λ]U?x=FH??x.??
由于一階濾波器: g θ ( λ i ) = ε + 1 ? λ i g_\theta(\lambda_i)=\varepsilon+1-\lambda_i gθ?(λi?)=ε+1?λi?(圖2a)會存在負的幅度,我們為了擺脫這種情況,我們采用了圖2b,圖2d的二階濾波器
低通高通分析
F L = ε I + D ? 1 / 2 A D ? 1 / 2 \mathcal{F}_L=\varepsilon I+D^{-1/2}AD^{-1/2} FL?=εI+D?1/2AD?1/2
F H = ε I ? D ? 1 / 2 A D ? 1 / 2 \mathcal{F}_H=\varepsilon I-D^{-1/2}AD^{-1/2} FH?=εI?D?1/2AD?1/2如上, F L ? x F_{L}\cdot x FL??x表示節點和鄰居特征在光譜區域的和,高頻信號 F H ? x F_{H}\cdot x FH??x代表節點和鄰居特征之間的不同
為了整合高頻和低頻信號,一個很自然的想法是利用注意力機制去學習高頻和低頻信號
h ~ i = α i j L ( F L ? H ) i + α i j H ( F H ? H ) i = ε h i + ∑ j ∈ N i α i j L ? α i j H d i d j h j , \tilde{\mathrm{h}}_i=\alpha_{ij}^L(\mathcal{F}_L\cdot\mathbf{H})_i+\alpha_{ij}^H(\mathcal{F}_H\cdot\mathbf{H})_i=\varepsilon\mathbf{h}_i+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^L-\alpha_{ij}^H}{\sqrt{d_id_j}}\mathbf{h}_j, h~i?=αijL?(FL??H)i?+αijH?(FH??H)i?=εhi?+j∈Ni?∑?di?dj??αijL??αijH??hj?,
為了簡化,我們令:
α i j L + α i j H = 1 \alpha_{ij}^{L}+\alpha_{ij}^{H}=1 αijL?+αijH?=1
α i j G = α i j L ? α i j H \alpha_{ij}^{G}=\alpha_{ij}^{L}-\alpha_{ij}^{H} αijG?=αijL??αijH?
remark
理解1:當 α i j G > 0 , i . e . , α i j L > α i j H \alpha_{ij}^{G} > 0, i.e., \alpha_{ij}^{L} > \alpha_{ij}^{H} αijG?>0,i.e.,αijL?>αijH?,這表示低頻信號是主要的信號.
理解2: α i j G > 0 \alpha_{ij}^{G}>0 αijG?>0表示節點和鄰居特征, h i + h j \mathrm{h}_i+\mathrm{h}_j hi?+hj?. α i j G < 0 \alpha_{ij}^G<0 αijG?<0表示節點之間的區別.
為了自適應的設置 α i j G \alpha_{ij}^G αijG?,我們考慮節點和它的鄰居
α i j G = tanh ? ( g ? [ h i ∥ h j ] ) \alpha_{ij}^G=\tanh\left(\mathrm{g}^\top\left[\mathrm{h}_i\parallel\mathrm{h}_j\right]\right) αijG?=tanh(g?[hi?∥hj?]) g ∈ R 2 F \mathbf{g}\in\mathbb{R}^{2F} g∈R2F可以被視為一個共享的卷積核.tan函數限 α i j G \alpha_{ij}^G αijG?在[-1,1]內.初次之外,我們僅僅考慮節點和它的一階鄰居N的相關系數
計算 α i j G \alpha_{ij}^G αijG?之后,我們就可以聚合鄰居的表征:
h i ′ = ε h i + ∑ j ∈ N i α i j G d i d j h j , \mathbf{h}_i^{^{\prime}}=\varepsilon\mathbf{h}_i+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^G}{\sqrt{d_id_j}}\mathbf{h}_j, hi′?=εhi?+j∈Ni?∑?di?dj??αijG??hj?,
整個網絡的結構
h i ( 0 ) = ? ( W 1 h i ) ∈ R F ′ × 1 h i ( l ) = ε h i ( 0 ) + ∑ j ∈ N i α i j G d i d j h j ( l ? 1 ) ∈ R F ′ × 1 h o u t = W 2 h i ( L ) ∈ R K × 1 , \begin{aligned}&\mathbf{h}_i^{(0)}=\phi(\mathbf{W}_1\mathbf{h}_i)&&\in\mathbb{R}^{F^{\prime}\times1}\\&\mathbf{h}_i^{(l)}=\varepsilon\mathbf{h}_i^{(0)}+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^G}{\sqrt{d_id_j}}\mathbf{h}_j^{(l-1)}&&\in\mathbb{R}^{F^{\prime}\times1}\\&\mathbf{h}_{out}=\mathbf{W}_2\mathbf{h}_i^{(L)}&&\in\mathbb{R}^{K\times1},\end{aligned} ?hi(0)?=?(W1?hi?)hi(l)?=εhi(0)?+j∈Ni?∑?di?dj??αijG??hj(l?1)?hout?=W2?hi(L)???∈RF′×1∈RF′×1∈RK×1,?
W 1 ∈ R F × F ′ , W 2 ∈ R F ′ × K \mathbf{W}_1\in\mathbb{R}^{F\times F^{\prime}},\mathbf{W}_2\in\mathbb{R}^{F^{\prime}\times K} W1?∈RF×F′,W2?∈RF′×K是權重矩陣.K代表類的個數
我們對FAGCN進行分析,當 α i j = 1 \alpha_{ij}=1 αij?=1,整個網絡就是GCN網絡.當我們使用正則化的 α i j \alpha_{ij} αij?以及softmax函數,整個網絡就是一個GAT網絡.但是,GCN和GAT的 α i j \alpha_{ij} αij?都大于0, 更傾向于聚合低頻信號.FAGCN可以更好的去聚合低頻和高頻信號.
除此之外,我們還可以推斷出,低通過濾可以讓表征更相似,低通可以讓表征更加區分
可視化邊相似度
如上圖,我們可以得到如下結論:Cora,Citeseer,Pubmed節點所有的邊都是正的權重.然而,根據6b,6c可以展示:大量的類內邊是負權重,這表明當類內邊和類間邊區分不清時,高頻信號發揮更重要的作用.而對于actor數據集,他是個異類,類間和類內邊沒有明顯區分.
總結
寫的真好.這篇提出了一個自適應系數,自適應的學習高通濾波器權重和低通濾波器權重,更好的聚合各種信息.