An End-to-End Attention-Based Approach for Learning on Graphs NC 2025

NC 2025 | 一種基于端到端注意力機制的圖學習方法

Nature Communications IF=15.7 綜合性期刊 1區
在這里插入圖片描述
參考:https://mp.weixin.qq.com/s/cZ-d8Sf8wtQ9wfcGOFimCg

今天介紹一篇發表在 Nature Communications 的圖學習論文《An end-to-end attention-based approach for learning on graphs》。該工作提出了一種全新范式的圖學習方法 ESA(Edge-Set Attention),不再依賴傳統的節點消息傳遞機制,而是將圖建模為邊集合,并通過純注意力機制進行信息交互。該方法無需結構先驗和位置編碼,模型結構簡潔卻具備強表達力,在70項圖與節點任務中大幅超越GNN與圖Transformer,展現出優異的性能、魯棒性與遷移能力,是一項值得關注的圖學習基礎模型探索工作。

摘要:

近年來,基于 Transformer 的圖學習架構迅速興起,主要受到注意力機制作為高效學習方法的推動,以及希望取代消息傳遞機制中手工設計算子的需求。然而,也有研究對這些方法在實際效果、可擴展性以及預處理步驟的復雜性方面提出質疑,尤其是相較于那些結構更簡單、但在各種基準測試中表現相當的圖神經網絡(GNNs)。

為了解決這些問題,我們將圖視為一組邊,提出了一種純粹基于注意力機制的方法,由編碼器和注意力池化模塊組成。編碼器交替使用掩蔽和標準的自注意力模塊,能夠有效地學習邊的表示,并應對輸入圖中可能存在的不規范結構。

盡管方法結構簡單,我們的方法在70多個節點級和圖級任務上(包括具有挑戰性的長距離依賴任務)均超越了經過精調的消息傳遞模型和近期提出的 Transformer 方法。此外,我們在多個任務上取得了當前最先進的性能,涵蓋了從分子圖到視覺圖,以及異質圖節點分類等不同類型任務。

在遷移學習任務中,該方法也優于主流的圖神經網0絡和 Transformer,并且在保持相似性能或表達能力的同時,具備更強的可擴展性。


Introduction

我們從實證角度出發,研究了一種純基于注意力機制的方法在學習圖結構數據有效表示方面的潛力。傳統上,圖上的學習通常采用“消息傳遞”(message passing)框架建模,它是0.
一種迭代過程,依賴于消息函數來聚合一個節點鄰居的信息,并利用更新函數將編碼后的消息整合到節點的輸出表示中。生成的圖神經網絡(GNN)通常會堆疊多個這樣的層,以基于節點為根的子樹結構學習節點表示,這一過程本質上模仿了一維 Weisfeiler-Lehman(1-WL)圖同構判別測試 [wl79, wlneural24]。消息傳遞的變種已被成功應用于多個領域,如生命科學 [STOKES2020688, Wong2023 等]、電氣工程 [Chien2024] 和天氣預測 [doi:10.1126/science.adi2336]。

盡管圖神經網絡(GNN)在實踐中取得了廣泛成功和廣泛應用,但隨著時間推移,人們也發現了其若干實際挑戰。盡管消息傳遞框架具有很高的靈活性,設計新的 GNN 層仍是一項具有挑戰性的研究問題,通常需要多年才能實現改進,并常常依賴于手工設計的算子。這種情況在不利用其他輸入模態(例如原子坐標)的通用圖神經網絡中尤為明顯。例如,主鄰域聚合(PNA)被認為是最強大的消息傳遞層之一,但它是通過一組手動選擇的鄰域聚合函數構建的,并且需要預先計算數據集的度直方圖,還使用了手動設定的度縮放因子。

消息傳遞機制的本質也帶來了一些限制,這些限制在現有文獻中占據主導地位。其中一個最突出的例子是 readout 函數,它被用于將節點級特征匯聚成圖級表示,并且要求對節點順序具備置換不變性。 因此,在 GNN 和圖 Transformer 中,默認的 readout 函數通常是簡單且不可學習的函數,例如 sum(求和)、mean(平均)或 max(最大值)。Wagstaff 等人指出,這種方法存在局限性,簡單的 readout 函數可能需要復雜的項嵌入函數,而這些函數難以用標準神經網絡學習得到。

此外,圖神經網絡在“過平滑”(over-smoothing)和“過壓縮”(over-squashing)方面也表現出一定的局限性。“過平滑”是指隨著網絡層數增加,節點表示變得越來越相似,進而降低模型在異質圖節點分類任務中的性能。 有研究假設這源于 GNN 表現得像低通濾波器。近期,Di Giovanni 等人通過研究圖上的梯度流,進一步表明某些時間連續的 GNN 確實受到低頻成分的主導。

相對的,“過銳化”(over-sharpening)也被觀察到,尤其是在使用線性圖卷積和對稱權重的情形中,這是由權重矩陣負特征值所引起的“排斥”效應導致的。而“過壓縮”則會在需要遠距離節點信息的預測任務中影響性能,這被歸因于圖結構中的瓶頸邊,即當 k 值(k-hop)或網絡層數增加時,k 鄰域的數量迅速增加。Topping 等人對“過壓縮”進行了理論刻畫,并引入了圖曲率的概念來量化該問題,同時提出了一種圖重構算法——隨機離散 Ricci 流(stochastic discrete Ricci flow),用于緩解這些瓶頸效應。

針對上述兩個問題,研究者提出了一些替代方案,主要是基于消息正則化(message regularisation)的方法,例如 Simple Graph Convolution、PairNorm 和 GraphNorm 等。

然而,目前尚無公認的最佳架構選擇可以用來構建有效的深度消息傳遞神經網絡,也無法同時有效地解決這些挑戰。此外,與大型語言模型不同,圖神經網絡中遷移學習、預訓練和微調等策略的效果有限或存在爭議,因此使用并不廣泛。

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/89670.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/89670.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/89670.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【牛客刷題】小紅的數字串

文章目錄 一、題目描述 1.1 輸入描述 1.2 輸出描述 1.3 示例1 二、高效解法 2.1 核心算法設計 2.2 算法設計理念 2.2.1 算法流程詳解 2.2.2 復雜度分析 2.3 算法優勢分析 2.3.1 關鍵優化點 2.3.2 正確性驗證 2.4 邊界處理 2.5 總結與擴展 一、題目描述 小紅拿到了一個數字串(由…

微算法科技技術創新,將量子圖像LSQb算法與量子加密技術相結合,構建更加安全的量子信息隱藏和傳輸系統

隨著信息技術的發展,數據的安全性變得尤為重要。在傳統計算模式下,即便采用復雜的加密算法,也難以完全抵御日益增長的網絡攻擊威脅。量子計算技術的出現為信息安全帶來了新的解決方案。然而,量子圖像處理領域仍面臨復雜度高、效率…

博客摘錄「 Springboot入門到精通(超詳細文檔)」2025年7月4日

1.Spring Boot返回Json數據及數據封裝1. Controller 中使用RestController注解即可返回 Json 格式的數據首先看看RestController注解包含了什么東西, ResponseBody 注解是將返回的數據結構轉換為 Json 格式Target({ElementType.TYPE}) Retention(RetentionPolicy.RU…

企業安全防護:堡壘機技術解析

目錄 一、堡壘機:企業IT運維的安全守門人 1.1 核心價值矩陣 1.2堡壘機典型部署架構 二、堡壘機如何構建安全防線 2.1 四層防護體系 2.2 關鍵工作流程 三、堡壘機關鍵技術指標對比表 四、智能堡壘機的發展趨勢 一、堡壘機:企業IT運維的安全守門人…

傳輸層協議 TCP

TCP 協議TCP 全稱為 "傳輸控制協議(Transmission Control Protocol"). 人如其名, 要對數據的傳輸進行一個詳細的控制TCP 協議段格式源/目的端口號: 表示數據是從哪個進程來, 到哪個進程去32 位序號/32 位確認號4 位 TCP 報頭長度: 表示該 TCP 頭部有多少個 32 位 bit…

RT-Thread的概念和移植

一、操作系統的概念 操作系統(英語:Operating System,縮寫:OS)是一組主管并控制計算機操作、運用和運行硬件、軟件資源和提供公共服務來組織用戶交互的相互關聯的系統軟件程序。根據運行的環境,操作系統可以…

基于單片機傾角測量儀/角度測量/水平儀

傳送門 👉👉👉👉其他作品題目速選一覽表 👉👉👉👉其他作品題目功能速覽 概述 本設計實現了一種基于單片機的高精度數字傾角測量儀。系統核心由傾角傳感器(ADXL345傾…

深度學習 -- 初步認識Torch

深度學習 – 初步認識Torch 文章目錄深度學習 -- 初步認識Torch一,認識人工智能1.1 人工智能的本質1.2 人工智能的實現過程二,認識Torch2.1簡介2.2 概述2.3 Tensor的創建2.3.1 torch.tensor2.3.2 torch.Tensor三,創建線性和隨機張量3.1創建線…

BGP的“聰明選路”遇上了TCP的“路徑潔癖”,需人工調和

在路由器R1上有兩條外網,WAN1和WAN2。R1上做了域名分流功能,全局網址分到WAN1,指定域名分到WAN2(優先級更高)。癥狀是用戶反饋部分網頁無法打開。于是各種檢查嘗試...... 2天過去了......最終結論是:即使S…

ACWing算法筆記 | 二分

🔍 C 二分查找雙模板詳解:左閉右開 vs 左閉右閉(二分筆記)二分查找(Binary Search)是一類高效的搜索算法,在 O(log n) 的時間復雜度下查找答案,適用于單調性問題。C STL 的 lower_bo…

centos 新加磁盤分區動態擴容

你不能直接將一個分區分配給/dev/mapper/centos-root,因為這是一個邏輯卷(屬于 LVM 系統)。不過,你可以通過以下步驟將/dev/sda3添加到現有卷組或創建新的邏輯卷: 確認磁盤和分區信息 首先檢查分區是否已格式化以及是否…

python學智能算法(二十六)|SVM-拉格朗日函數構造

【1】引言 前序學習進程中,已經了解了拉格朗日乘數法求極值的基本原理,也了解了尋找最佳超平面就是尋找最佳分隔距離。 這篇文章的學習目標是:使用拉格朗日乘數法獲取最佳的分隔距離。 【2】構造拉格朗日函數 目標函數 首先是目標函數f&a…

智能制造——48頁畢馬威:汽車營銷與研發數字化研究【附全文閱讀】

涵蓋了汽車行業數字化轉型、汽車營銷業務能力建設(以會員管理為例)以及汽車研發與創新能力建設等議題。畢馬威認為,軟件定義汽車已成為汽車行業中的核心議題,并圍繞此議題提供了相關方案。在市場觀點方面,畢馬威與多家…

嵌入式學習-PyTorch(8)-day24

torch.optim 優化器torch.optim 是 PyTorch 中用于優化神經網絡參數的模塊,里面實現了一系列常用的優化算法,比如 SGD、Adam、RMSprop 等,主要負責根據梯度更新模型的參數。🏗? 核心組成1. 常用優化器優化器作用典型參數torch.op…

PostgreSQL實戰:高效SQL技巧

PostgreSQL PG 在不同領域可能有不同的含義,以下是幾種常見的解釋: PostgreSQL PostgreSQL(簡稱 PG)是一種開源的關系型數據庫管理系統(RDBMS),支持 SQL 標準并提供了豐富的擴展功能。它廣泛應用于企業級應用、Web 服務和數據分析等領域。 PostgreSQL 的詳細介紹 Po…

3-大語言模型—理論基礎:生成式預訓練語言模型GPT(代碼“活起來”)

目錄 1、GPT的模型結構如圖所示 2、介紹GPT自監督預訓練、有監督下游任務微調及預訓練語言模型 2.1、GPT 自監督預訓練 2.1.1、 輸入編碼:詞向量與位置向量的融合 2.1.1.1、 輸入序列與詞表映射 2.1.1.2、 詞向量矩陣與查表操作 3. 位置向量矩陣 4. 詞向量與…

【Redis 】看門狗:分布式鎖的自動續期

在分布式系統的開發中,保證數據的一致性和避免并發沖突是至關重要的任務。Redis 作為一種廣泛使用的內存數據庫,提供了實現分布式鎖的有效手段。然而,傳統的 Redis 分布式鎖在設置了過期時間后,如果任務執行時間超過了鎖的有效期&…

MYSQL--快照讀和當前讀及并發 UPDATE 的鎖阻塞

快照讀和當前讀在 MySQL 中,數據讀取方式主要分為 快照讀 和 當前讀,二者的核心區別在于是否依賴 MVCC(多版本并發控制)的歷史版本、是否加鎖,以及讀取的數據版本是否為最新。以下是詳細說明:一、快照讀&am…

css樣式中的選擇器和盒子模型

目錄 一、行內樣式二、內部樣式三、外部樣式四、結合選擇器五、屬性選擇器六、包含選擇器七、子選擇器八、兄弟選擇器九、選擇器組合十、偽元素選擇器十一、偽類選擇器十二、盒子模型 相關文章 學習標簽、屬性、選擇器和外部加樣式積累CSS樣式屬性:padding、marg…

關于基于lvgl庫做的注冊登錄功能的代碼步驟:

以下是完整的文件拆分和代碼存放說明,按功能模塊化劃分,方便工程管理:一、需要創建的文件清單 文件名 作用 類型 main.c 程序入口,初始化硬件和LVGL 源文件 ui.h 聲明界面相關函數 頭文件 ui.c 實現登錄、注冊、主頁面的UI 源文…