Graph Contrastive Learning with Generative Adversarial Network基于生成對抗網絡的圖對比學習

1. 什么是圖？（Graph）

想象一下社交網絡，每個人是一個“點”（節點），他們之間的朋友關系是“線”（邊）。這樣的點和線組成的結構就是“圖”。在計算機科學中，圖被用來表示各種復雜關系，比如論文引用網絡（論文是節點，引用關系是邊）、電商商品推薦（用戶和商品是節點，購買記錄是邊）等等。

2. 圖神經網絡（GNN）是做什么的？

圖神經網絡（GNNs）是一種特別的神經網絡，它能理解圖里的這些點和線，并從中學到每個“點”的特征表示（也叫“嵌入”或“表征”）。有了這些特征表示，我們就可以做很多有用的事情，比如：

節點分類：判斷一個點屬于哪一類（比如在論文網絡中，判斷一篇論文屬于哪個研究領域）。
鏈接預測：預測兩個點之間未來是否會產生新的連接（比如預測社交網絡中兩個人是否會成為朋友，或者電商中用戶是否會購買某個商品）。

通常，訓練GNN需要大量的“標簽數據”（也就是我們已經知道正確答案的數據）。但問題是，在現實世界中，這些標簽數據往往非常稀缺。

3. 圖對比學習（GCL）如何解決“標簽稀缺”問題？

為了解決標簽數據少的問題，研究人員提出了“圖對比學習”（Graph Contrastive Learning，GCL）。它的核心思想是：

數據增強：我們先對原始圖做一些小的改動，生成多個“視圖”（augmented views）。比如，可以隨機刪除一些邊、增加一些邊、或者遮蓋一些節點的特征。
學習相似性：GCL的目標是讓同一個節點在不同“視圖”下的特征表示盡可能相似，而與不同節點的特征表示盡可能不相似。通過這種方式，GCL可以在沒有大量標簽的情況下，讓GNN學習到有用的節點特征。

打個比方：就像你有一張照片，你可以對它進行“數據增強”，比如調亮一點、調暗一點、加個濾鏡。對比學習就是讓你認出這些不同版本的照片都是“同一張照片”，而與其他照片不一樣。通過這種訓練，模型就能學會照片的關鍵特征。

4. 現有GCL方法的不足

現有的GCL方法在生成這些“視圖”時，通常是隨機地進行，或者根據一些預設規則進行。它們沒有充分考慮圖本身是如何“演變”的，也沒有學習圖的內在“分布”。

舉個例子：一個圖的演變可能遵循某種規律，比如“優先連接”原則（越熱門的節點越容易獲得新連接）。如果我們在生成新視圖時不考慮這些潛在的規律，就可能會錯過圖中可能存在但尚未被觀察到的重要連接（“未見邊”）。論文中通過實驗發現，如果能適當補充這些“未見邊”，可以提升GCL的性能。但要手動選擇添加多少新邊才能達到最佳效果，卻是個“試錯”的過程，因為這取決于不同的圖數據分布。

5. GACN：論文提出的新方法

為了解決上述問題，這篇論文提出了一個名為

GACN 的新模型，全稱是“圖生成對抗對比學習網絡”（Generative Adversarial Contrastive learning Network for graph representation learning）。

GACN的核心思想是引入生成對抗網絡（GANs）來智能地生成高質量的圖增強視圖，而不是隨機生成。

GACN 的組成部分（像一個團隊）

GACN 主要由三個核心模塊組成，它們協同工作，共同提升圖表示學習的效果：

視圖生成器（View Generator）:
- 作用：它的任務是生成新的、增強的圖視圖，特別是要能自動捕獲圖的特征，并生成可能存在的“未見邊”。
- 工作方式：它會學習邊的分布，通過“邊采樣”來生成增強視圖。為了讓生成的視圖更合理，它設計了兩種“損失”（可以理解為懲罰機制）：
  - 邊數量損失（Edge Count Loss）：確保生成的視圖中的邊數量在一個合理的范圍內，避免過多或過少。
  - 新邊損失（New Edge Loss）：懲罰那些與原始圖“過于不同”的視圖，確保生成的新邊不是完全隨機的，而是有意義的。
視圖判別器（View Discriminator）:
- 作用：它的任務是判斷一個圖視圖是“真實的”（由預定義的數據增強策略生成，比如簡單的邊丟棄）還是“虛假的”（由視圖生成器生成）。
- 工作方式：判別器和生成器進行“對抗”訓練（這就是“對抗網絡”的精髓）：
  - 生成器努力生成能“騙過”判別器的視圖。
  - 判別器努力提高自己分辨“真假”視圖的能力。
  - 通過這種“貓捉老鼠”的游戲，生成器會變得越來越好，能生成非常逼真的、高質量的增強視圖。
圖編碼器（Graph Encoder）:
- 作用：這是GACN中實際用來學習節點特征的核心部分。它使用生成器和判別器共同產生的視圖來訓練，從而學習到更強大、更魯棒的節點表示。
- 工作方式：它使用兩種自我監督學習損失來優化：
  - 圖對比損失（Graph Contrastive Loss）：讓同一個節點在不同視圖下的表示更相似，不同節點的表示更不相似。
  - 貝葉斯個性化排序損失（Bayesian Personalized Ranking (BPR) Loss）：這對于鏈接預測任務特別有用，它會嘗試最大化已連接節點之間的相似度，同時最小化未連接節點之間的相似度。

GACN 的訓練過程

這三個模塊是聯合訓練的。這意味著它們不是獨立訓練后再組合起來，而是同時進行優化，相互促進。生成器、判別器和編碼器會順序且迭代地進行優化。

6. GACN 的主要貢獻和優勢

首次結合GANs與GCL：GACN是第一個將圖生成對抗網絡引入圖對比學習中，用于學習和生成高質量視圖的方法。
自動生成高質量視圖：它能夠自動捕捉圖的特征并生成高質量的增強視圖，有效解決了現有GCL方法中視圖生成依賴手動選擇或領域知識的問題。
性能優越：在多個真實世界數據集上的大量實驗表明，GACN在節點分類和鏈接預測任務上的表現優于其他12種最新的基線方法。
意外發現：GACN在數據增強中生成的視圖竟然符合網絡中著名的**“優先連接”規則**（Preferential Attachment Rule）。這個規則簡單來說就是：在網絡中，連接越多的節點越容易獲得新的連接。這表明GACN學習到了圖數據生成的一些深層規律。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/88625.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/88625.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/88625.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！