Towards Graph Foundation Models: A Survey and Beyond
WWW24
?#paper/???#? #paper/💡#?
背景和動機
背景與意義
隨著基礎模型(如大語言模型)在NLP等領域的突破,圖機器學習正經歷從淺層方法向深度學習的范式轉變。GFMs的提出旨在通過大規模圖數據預訓練,構建可適應多種圖任務的通用模型,解決傳統圖模型泛化性不足的問題。
貢獻:
- 本文首次定義了圖基礎模型的概念,并探討了其能力的核心問題和特征
- 本文介紹了一種新穎的分類法,并討論了圖形基礎模型的每種方法的優點和局限性
- 本文提供了圖形基礎模型的未來有希望的方向
核心概念
GFMs被定義為具有三大特征的新型圖學習范式:
- 大規模預訓練:基于海量異構圖數據
- 任務無關性:支持下游任務的零樣本或少樣本遷移
- 通用表征能力:可同時處理節點/邊/圖級別的任務
技術分類
現有研究可分為三大技術路線:
-
GNN基模型
- 基于圖神經網絡架構(如GraphGPT、GraphMAE)
- 通過掩碼重建等自監督目標預訓練
- 優勢:保留圖結構特性,但擴展性受限
-
LLM基模型
- 將圖數據轉化為文本/序列(如GPT4Graph)
- 利用大語言模型的推理能力
- 優勢:零樣本能力強,但圖拓撲建模存在局限
-
GNN-LLM融合模型
- 結合GNN的拓撲建模與LLM的語義理解(如GraphText、ChatGPT)
- 典型方法:圖結構編碼+文本特征融合
- 當前焦點:解決模態對齊與信息交互挑戰
挑戰與展望
未來研究方向包括:
- 架構創新:設計更高效的圖tokenization方法
- 可擴展性:開發適用于超大規模圖的訓練框架
- 多模態融合:探索圖結構與文本/視覺特征的深度交互
- 理論體系:建立GFMs的可解釋性理論框架
- 評估標準:制定跨領域的統一評測基準
- ?
?
GNN-BASED-MODELs
??
Backbone Architectures
Message Passing-Based Methods
-
核心原理:通過局部鄰居信息迭代聚合與更新節點表示,公式化為:
h v k + 1 = U k ( h v k , M u ∈ N ( v ) k ( h v k , h u k , X e ( u , v ) ) ) h^{k+1}_{v}= U^{k}\left( h^{k}_{v}, M^{k}_{u \in N(v)}\left( h^{k}_{v}, h^{k}_{u} , X_{e}^{(u,v)}\right) \right) hvk+1?=Uk(hvk?,Mu∈N(v)k?(hvk?,huk?,Xe(u,v)?))
-
其中 h v k h^k_v hvk?為節點 v v v第 k k k層嵌入, X e ( u , v ) X_e^{(u,v)} Xe(u,v)?為邊 屬性, M k M^k Mk為聚合函數, U k U^k Uk為
更新函數。 -
典型模型:
- GCN:基于譜圖卷積的一階近似,廣泛用于同構圖。
- GAT:引入注意力權重分配鄰居重要性
- GraphSAGE:通過鄰居采樣與聚合支持大規模圖。
- HGT:針對異構圖設計類型感知的注意力
- GIN:理論表達力等價于1-WL測試,適合復雜結構建模。
Graph Transformer-Based Methods
-
核心原理:將圖視為全連接網絡,利用全局自注意力捕捉長程依賴(對比見圖3)。
-
關鍵改進:
- 位置編碼:GraphBERT提出子圖親密度與跳數距離編碼;Graphformer引入最短路徑距離偏置項。
- 動態圖建模:SimpleDyG 簡化時序對齊,無需復雜結構修改。
- 異構圖擴展:CoBFormer 通過雙層級注意力平衡局部與全局信息。
-
理論分析:文獻 對比虛擬節點與自注意力機制在長程依賴中的表現差異。
Pre-training
Contrastive Methods
-
目標:最大化不同視圖間的互信息(MI),增強語義魯棒性。
-
方法分類:
-
同尺度對比:
- 節點級:GraphCL 、GRACE通過圖增強生成正負樣本。
- 子圖級:GCC對比同一節點的不同子圖嵌入。
-
跨尺度對比(局部全局) :
- DGI對比節點與圖級嵌入;CPT-HG 結合關系級與子圖級任務。
-
Generative Methods
-
目標:通過重構或屬性預測學習通用圖語義。
-
方法分類:
-
圖重構:
- VGAE 重構鄰接矩陣;GraphMAE 重構圖屬性并引入掩碼解碼策略。
- GPT-GNN 聯合生成邊與節點屬性。
-
屬性預測:
- GROVER 預測分子圖的化學屬性(如官能團)。
-
-
跨領域預訓練:FOTOM 通過多領域對抗對比學習提升泛化性。
Adaptation
Fine-Tuning
-
常規微調:
- DGI、GRACE 使用預訓練編碼器生成嵌入,微調分類器。
- GPT-GNN 微調任務特定解碼器適配下游任務。
-
高效微調:
- AdapterGNN 插入輕量適配器模塊;G-Adapter在圖Transformer中融合消息傳遞。
Prompt Tuning
-
策略分類:
-
前提示(Pre-prompt) :
- GPF添加可優化特征向量至節點;AAGOD 修改鄰接矩陣結構。
-
后提示(Post-prompt) :
- GraphPrompt將分類任務轉化為子圖相似性匹配。
-
混合提示:MultiGPrompt、HGPROMPT結合雙模板設計支持異構圖。
-
Discussion GNN-based method
-
優勢:
- 結構歸納偏置:天然支持置換不變性,高效捕捉局部拓撲模式。
- 計算輕量:參數量小(如GIN僅需百萬級參數),適合資源受限場景。
- 小樣本泛化:通過圖傳播增強稀疏標注下的性能(如半監督節點分類)。
-
局限性:
- 文本建模缺失:未顯式利用節點/邊附帶的文本語義(如商品描述、論文摘要)。
- 知識容量有限:缺乏LLM的通用知識庫(如化學反應規則、社交網絡常識)。
-
未來方向:
- 與LLM融合:結合語言模型的語義理解能力(如將文本屬性編碼為圖特征)。
- 動態圖擴展:優化時序依賴建模(如SimpleDyG在動態交易網絡中的應用)。
- 跨模態預訓練:如GraphControl通過控制網絡適配多領域下游任務。
??
?
?
LLM-BASED MODELs
??
??
LLM-based Models
Backbone Architectures
-
Graph-to-token
-
核心思想:將圖數據序列化為Token,與自然語言對齊輸入LLM。
-
關鍵方法:
- GIMLET :將節點表示視為Token,擴展LLM支持圖與文本多模態輸入,引入廣義位置編碼。
- InstructGLM:將圖節點特征向量擴展為LLM詞表Token(如LLaMA/T5),支持跨模態預訓練。
-
優勢:保留圖結構特征,支持可微調的開源LLM(如LLaMA)。
-
挑戰:難以顯式編碼底層圖拓撲關系(如長程依賴)。
-
-
Graph-to-text
-
核心思想:用自然語言描述圖結構與屬性,通過文本提示驅動LLM推理。
-
關鍵方法:
-
基礎格式:
- 邊列表:LLMtoGraph 、NLGraph 使用邊列表描述圖結構(如“A→B”)。
- 圖語法樹:GraphText提出結構化自然語言模板(Graph-syntax Tree)增強推理可解釋性。
-
進階優化:
- 壓縮提示:TextForGraph 設計精簡文本模板減少輸入長度。
- 自生成提示:GPT4Graph 結合人工模板與LLM自生成的圖摘要/探索提示。
-
-
優勢:兼容閉源LLM(如GPT-4),支持零樣本推理。
-
挑戰:復雜圖結構描述易導致信息損失(如動態圖時序關系)。
-
Pre-training
-
Language Modeling (LM)
-
原理:通過自回歸語言建模(預測下一個Token)預訓練LLM,公式為:
p ( s 1 : L ) = ∏ l = 1 L p ( s l ∣ s 0 : l ? 1 ) p(s_{1:L}) = \prod_{l=1}^L p(s_l | s_{0:l-1}) p(s1:L?)=l=1∏L?p(sl?∣s0:l?1?)
-
應用模型:
- 主流LLM:LLaMA 、GPT-3等均基于LM預訓練。
- 圖領域擴展:InstructGLM 、Graph-LLM 等將圖數據融入LM任務。
-
-
Masked Language Modeling (MLM)
-
原理:隨機掩碼輸入Token,預測被掩碼內容(如BERT的Cloze任務)。
-
應用模型:
- BERT/T5適配:Graph-LLM 使用MLM預訓練的BERT處理圖文本描述。
-
局限:掩碼符號在微調階段不存在,易導致預訓練-下游任務差異。
-
Adaptation
-
Manual Prompting
-
策略:人工設計自然語言提示模板對齊圖任務與LLM輸入。
-
典型方法:
-
結構化描述:
- 分子圖:LLM4Mol使用SMILES字符串描述分子結構。
- 指令模板:InstructGLM 為中心節點設計任務指令(如分類、鏈接預測)。
-
多格式實驗:GPT4Graph 對比邊列表、鄰接表、GML等描述格式效果。
-
-
-
Automatic Prompting
-
策略:利用LLM自動生成圖相關提示,減少人工干預。
-
典型方法:
- 圖摘要:GPT4Graph 生成目標節點的鄰居摘要。
- 圖探索:通過LLM生成查詢序列主動挖掘圖結構(如Graph-LLM )。
-
優勢:緩解人工模板的次優問題,提升復雜任務泛化性。
-
Discussion
-
優勢:
- 多模態融合:無縫整合圖結構與文本語義(如商品描述→圖節點屬性)。
- 任務統一性:通過自然語言指令統一圖學習任務(如分類、生成、推理)。
- 零樣本潛力:閉源LLM(如GPT-4)可直接處理圖文本描述,無需微調。
-
局限性:
- 結構建模弱:難以捕捉圖拓撲特性(如社區結構、動態演化)。
- 長文本瓶頸:復雜圖描述超出LLM上下文窗口限制(如萬節點級圖)。
- 邏輯推理局限:多跳推理(如分子反應路徑)易產生幻覺。
-
未來方向:
- 結構化提示:結合圖語法樹(Graph-syntax Tree)增強邏輯表達能力。
- 高效壓縮技術:開發圖結構的高效文本壓縮算法(如層次化描述)。
- 多模態對齊:探索圖-文本-圖像的聯合表示(如Meta-Transformer)。
?
?
GNN+LLM-BASED MODELS
??
??
核心架構分類
根據模型主導類型,方法可分為三類:
-
GNN為中心的方法 (GNN-centric)
-
核心思想:利用LLM提取文本特征,由GNN主導預測任務。
-
代表性工作:
- GraD:通過參數高效微調LLM生成節點表征,輸入GNN進行下游任務(分類/鏈接預測)。
- GIANT:基于圖結構的自監督學習微調LLM,使文本表征包含圖拓撲信息。
- WalkLM:通過屬性隨機游走生成文本序列,微調LLM以捕獲屬性語義與圖結構。
-
局限:文本編碼階段缺乏節點間信息交互(如TAPE生成的圖無關特征)。
-
-
對稱方法 (Symmetric)
-
核心思想:對齊GNN與LLM的嵌入空間,實現結構感知的文本表征。
-
關鍵技術:
- GraphFormer:迭代融合GNN的圖聚合與Transformer的文本編碼,但存在可擴展性問題。
- GLEM:變分EM框架交替更新LLM與GNN,結合局部文本與全局結構信息。
- 對比學習(如CLAMP):通過圖-文本對比損失對齊分子圖與文本描述(如生物活性預測)。
-
優勢:支持跨模態任務(如文本-圖檢索)。
-
-
LLM為中心的方法 (LLM-centric)
-
核心思想:利用GNN增強LLM的圖推理能力,彌補其在數學計算、拓撲感知等領域的不足。
-
典型應用:
- GraphGPT:通過圖指令微調使LLM理解復雜圖結構。
- InstructGraph:指令調優賦予LLM圖生成與推理能力。
- MolCA:跨模態投影器使LLM兼容分子圖與文本信息。
-
預訓練策略
基于GNN或LLM的預訓練
- 主流方法:掩碼語言建模(MLM)、語言建模(LM)、文本-文本對比學習(TTCL)。
- 案例:GIANT、GraD采用MLM;TAPE使用LM;SimTeG通過TTCL增強語義相似性建模。
-
基于對齊的預訓練
- 核心目標:對齊圖與文本的嵌入空間(如分子圖與描述文本)。
- 關鍵技術:圖-文本對比學習(GTCL),最小化對比損失(如CLAMP中的NCE損失)。
適應策略
-
微調 (Fine-tuning)
- 全參數微調:直接調整模型參數(如GraphFormer),但計算成本高。
- 參數高效微調:僅優化部分參數(如LoRA適配器),應用于分類任務(GraD)或文本生成(MolCA)。
-
提示調優 (Prompt-tuning)
-
核心思想:通過設計提示詞激活LLM的預訓練知識,無需額外參數調整。
-
案例:
- G2P2:自動優化提示詞適配下游任務。
- TAPE:結合文本特征生成預測列表與解釋。
-
挑戰與未來方向
-
關鍵挑戰
- 模型對齊:缺乏統一的嵌入空間對齊標準(語義與結構信息需兼顧)。
- 可擴展性:圖規模擴大時計算復雜度激增(如GraphFormer的內存問題)。
- 多模態融合:如何高效整合圖、文本、圖像(如GIT-Mol的三模態模型)。
-
未來方向
- 動態交互框架:開發迭代式GNN-LLM交互機制(突破當前串行處理限制)。
- 輕量化設計:探索更高效的參數共享與壓縮策略(如ENGINE的側鏈結構)。
- 跨領域泛化:構建統一框架支持分子科學、社交網絡等多領域應用。
總結
GNN與LLM的融合通過互補優勢(結構分析與語言理解)顯著提升了圖任務的性能,尤其在跨模態檢索、分子屬性預測等領域表現突出。然而,模型對齊、計算效率與多模態融合仍是核心挑戰,需進一步探索動態交互框架與輕量化設計。
?
總結與展望
數據與評估挑戰
-
數據數量與質量
- 數據稀缺性:當前開源的大規模圖數據有限且多集中于單一領域(如社交網絡、分子結構),缺乏跨領域的統一數據集,限制了圖基礎模型(GFM)的泛化能力。
- 數據質量缺陷:噪聲數據、不完整圖結構或低質量標注會顯著降低模型性能。現有數據增強技術(如圖結構學習、特征補全)主要針對傳統GNN,需探索適配LLM或GNN+LLM混合模型的增強策略。
- 解決方案方向:構建跨領域多模態圖-文本聯合數據集(類似MoleculeSTM的分子圖與描述對齊),開發面向混合模型的動態增強方法(如WalkLM的文本序列生成結合圖游走)。
-
評估方法局限
- 開放任務評估難題:LLM支持的開放任務(如生成式問答、圖語義推理)缺乏標準標簽,需從人工評估轉向元評估(如基于LLM的自動評分)。
- 多維度評估需求:除性能外,需評估模型的魯棒性(對抗攻擊下的穩定性)、可信度(如減少幻覺)及隱私安全性(如GNN的節點隱私泄露風險)。
- 案例參考:借鑒語言模型的信任評估框架(如GPT-4的Red Teaming測試),設計圖任務的對抗樣本生成與防御策略(如針對分子圖的對抗擾動檢測)。
模型架構與訓練挑戰
-
模型架構設計
- 超越Transformer的架構探索:現有架構(如GraphFormer的GNN-Transformer迭代)存在可擴展性問題,需研究高效替代方案(如基于圖稀疏注意力的輕量化設計)。
- 多模態對齊瓶頸:GNN與LLM的嵌入空間對齊缺乏統一標準(如CLAMP通過對比學習對齊分子圖與文本,但難以泛化到社交網絡)。
- 潛在方向:結合動態路由機制(如Capsule Networks)實現層次化對齊,或利用神經符號方法(如邏輯規則注入)增強可解釋性。
-
訓練范式創新
-
預訓練任務多樣性:當前預訓練以MLM/LM為主,需設計圖-文本聯合任務(如GIANT的圖感知自監督學習),探索統一預訓練目標(如跨模態對比學習)。
-
高效適應技術:
- 參數高效微調:采用LoRA等適配器技術(如GraD的LLM微調后接GNN)。
- 提示工程優化:通過指令模板激活LLM的圖推理能力(如GraphGPT的圖結構指令調優)。
-
前沿技術遷移:驗證知識蒸餾(壓縮大模型到輕量GNN)、RLHF(人類反饋強化對齊)在圖任務中的可行性。
-
應用場景與可信賴性挑戰
-
殺手級應用探索
- 藥物研發:利用GFM建模蛋白質3D結構(如AlphaFold的幾何圖表示)與藥物分子交互,加速靶點發現與毒性預測(參考CLAMP的生物活性對比學習)。
- 城市計算:將交通系統建模為時空圖,實現統一預測(如出行需求、流量)與決策優化(如信號燈控制),突破傳統單任務模型的局限。
- 案例突破點:結合LLM的生成能力(如分子描述生成)與GNN的結構推理(如蛋白質-配體結合位點預測),推動自動化藥物設計。
-
可信賴性風險
-
安全與隱私:
- 幻覺抑制:通過置信度校準(如GraphPrompter的軟提示約束)減少LLM的虛構輸出。
- 隱私保護:采用聯邦學習(分散式圖數據訓練)或差分隱私(如GNN的梯度擾動)降低敏感信息泄露風險。
-
公平性與魯棒性:
- 去偏處理:在預訓練中引入公平性約束(如節點分類的群體均衡損失)。
- 對抗防御:針對圖結構攻擊(如節點注入)設計魯棒聚合機制(如GNN-Jaccard的異常邊過濾)。
-
未來研究方向
- 數據與架構協同:構建“圖-文本-圖像”多模態預訓練數據集(如GIT-Mol的三模態分子模型),探索動態交互架構(如GLEM的變分EM框架擴展)。
- 可信模型生態:開發圖基礎模型的評估標準庫(涵蓋安全、隱私、公平性指標),推動開源社區協作(如Open Graph Benchmark的擴展)。
- 跨領域泛化:設計統一框架支持社交網絡、生物醫藥、城市計算等多場景,突破領域壁壘(如PATTON的網絡-文本預訓練策略遷移)。
總結
圖基礎模型在數據、模型與應用層面面臨多重挑戰,需通過跨模態對齊、訓練范式創新及安全增強技術推動發展。未來突破將依賴于大規模高質量數據、動態架構設計及多領域協同驗證,最終實現從“單一任務專家”到“通用圖智能引擎”的跨越。