文本分類的深度注意圖擴散網絡 筆記

1 Title

????????Deep Attention Diffusion Graph Neural Networks for Text Classification(Yonghao Liu、Renchu Guan、Fausto Giunchiglia、Yanchun Liang、Xiaoyue Feng)【EMnlp?2021】

2 Conclusion

????????Text classification is a fundamental task with broad applications in natural language processing. Recently, graph neural networks (GNNs) have attracted much attention due to their powerful representation ability. However, most existing methods for text classification based on GNNs consider only one-hop neighborhoods and low-frequency information within texts, which cannot fully utilize the rich context information of documents. Moreover, these models suffer from over-smoothing issues if many graph layers are stacked. In this paper, a Deep Attention Diffusion Graph Neural Network (DADGNN) model is proposed to learn text representations, bridging the chasm of interaction difficulties between a word and its distant neighbors.

3 Good Sentences

? ? ? ? 1、Previous shallow learning-based text classification approaches mainly use hand-crafted sparse lexical features, such as bag-of-words (BoW) or n-grams, for representing texts (Li et al., 2020). Since these features are predefined, the models do not take full advantage of the large amount of training data.(The disadvantages of previous methods)
? ? ? ? 2、?Theoretically, we can capture long-range dependencies between words with a large number of layers. However, a common challenge faced by most GNNs is that performance degrades severely when stacking multiple layers to exploit larger receptive fields. Some researchers attribute this phenomenon to over-smoothing indistinguishable representation of different classes of nodes.(The challenges of GNNs meet and its probably reason)
? ? ? ? 3、One crucial reason why our model achieves more significant improvements is that the receptive field of the target node is enhanced by attention diffusion, which incorporates more informative messages (i.e., both low-frequency and high-frequency information) in the text.(The reason why this method have an advantage)


? ? ? ?

  1. 問題背景:文本分類是自然語言處理中的基礎任務,圖神經網絡(GNNs)因其強大的表示能力而受到關注。然而,現有的基于GNN的文本分類方法通常只考慮單跳鄰域和文本中的低頻信息,無法充分利用文檔的豐富上下文信息。

  2. 現有方法的局限性

    • 受限的感受野:大多數方法只允許圖中的詞訪問直接鄰域,無法實現長距離詞交互。
    • 較淺的層數:當前基于圖的模型通常采用較淺的設置,因為它們在兩層圖中表現最佳,但無法提取超過兩跳鄰居的信息。
    • 非精確的文檔級表示:大多數模型使用簡單的池化操作(如求和或平均)來獲取文檔級表示,這會削弱一些關鍵節點的影響。
    • 低通濾波器:現有的基于圖的方法主要是固定系數的低通濾波器,主要保留節點特征的共性,忽略了它們之間的差異。
  3. DADGNN模型:為了克服上述限制,提出了DADGNN模型,該模型使用注意力擴散技術擴大每個詞的感受野,并解耦GNNs的傳播和轉換過程以訓練更深層的網絡。此外,通過計算每個節點的權重來獲得精確的文檔級表示。

DADGNN有三個主要組成部分:文本圖構建、關鍵組件和圖級表示。

文本圖構建

這樣構造的圖的優點是圖是有向的,其轉移矩陣就是對稱的,

Key Components

為了獲得深層網絡中節點的判別特征表示,本文解耦了GNN的傳播和轉換過程。具體表述為:

? ? ? ? 與傳統GNN不同,對于直接相連的節點對,本文使用公式3和4計算它們之間的注意力權重,并進行歸一化處理:

其中W_{l}為權重矩陣,a_l為權重向量,是第l層共享的可訓練參數。A_l是第l層的圖注意矩陣。另外,σ是ReLU激活函數。

后續可以通過擴散機制計算復雜網絡中不直接連接的節點之間的注意力。

????????根據注意矩陣A,得到圖的注意擴散矩陣T如下:,其中ζn是可學習的系數,依賴于所構建的圖網絡所展示的屬性。

如圖所示,模型通過一個單層的注意力擴散過程來考慮節點之間的所有路徑,從而捕獲斷開節點的信息。例如(目標節點是“graph”,為簡潔起見,刪除(a)的不相關邊),

????????在實際應用中,考慮到現實世界網絡中小世界現象的特點,即任意兩個節點之間的最短路徑通常不會太長(最多四或六個跳),

為了進一步提高注意擴散層的表達能力,本文部署了一個多頭注意擴散機制。具體來說,先獨立計算每個頭k的注意力擴散,然后將它們聚合。輸出特征表示如下:

其中||是連接操作和W_a表示轉換維度的權重矩陣

?Graph-Level Representation:

????????在傳播模型的第l層之后,就可以計算每個文本圖上所有節點的最終表示。為了衡量圖中每個節點的不同作用,與使用一般池化的基于圖的文本分類模型相比,采用了節點級關注機制。具體可以用下式表示:其中,W_b是可訓練的權重矩陣,\Psi _i表示圖中節點 i 的注意力系數。為了獲得每個類別的概率,進一步執行

最后,使用交叉熵損失作為目標函數來優化用于文本分類的神經網絡。

其中,D 是訓練數據集,Φ 是指標矩陣。需要注意的是,我們的模型可直接用于歸納學習任務,對于未見過的測試文檔,相應構建的圖可直接輸入訓練好的模型進行預測。此外,它是以端到端的方式進行訓練的,這意味著在優化網絡時會同時考慮可學習的參數。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/11363.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/11363.shtml
英文地址,請注明出處:http://en.pswp.cn/web/11363.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux-- 重定向緩沖區

目錄 0.接上篇文章 1.粗略的見一下這兩個問題 2.理解重定向 3.理解緩沖區 0.接上篇文章 Linux--基礎IO(文件描述符fd)-CSDN博客 1.粗略的見一下這兩個問題 先來了解幾個函數: stat()函數用于獲取指定文件或符號鏈接的元數據。如果文件是…

Android 系統省電軟件分析

1、硬件耗電 主要有: 1、屏幕 2、CPU 3、WLAN 4、感應器 5、GPS(目前我們沒有) 電量其實是目前手持設備最寶貴的資源之一,大多數設備都需要不斷的充電來維持繼續使用。不幸的是,對于開發者來說,電量優化是他們最后才會考慮的的事情…

排序實現題目:排序數組

文章目錄 題目標題和出處難度題目描述要求示例數據范圍 前言冒泡排序原理示例代碼復雜度分析穩定性分析 選擇排序原理示例代碼復雜度分析穩定性分析 插入排序原理示例代碼復雜度分析穩定性分析 希爾排序原理示例代碼復雜度分析穩定性分析 歸并排序原理示例代碼復雜度分析穩定性…

Jackson如何禁止在反序列化字符串為對應java bean時,字符串中的null被反序列成為NullNode

直接說應用場景,json文件中有一個如下配置: [{"name":"John Doe","age":28,"jsonNode":null},{"name":"John1","age":31}] 待反序列化類定義如下所示: @Data static class TestClass {/*** 名字.*…

【C++】詳解STL的適配器容器之一:優先級隊列 priority_queue

目錄 堆算法 概述 向下調整建堆 向上調整建堆 建堆算法 仿函數 概述 使用介紹 emtpy size top push pop 模擬實現 仿函數 框架 向下調整算法 向上調整算法 pop push empty top 要理解優先級隊列,需要有如下知識 STL容器之一的vector&#xf…

聚類分析 | 基于GA遺傳算法優化kmeans聚類(Matlab)

聚類分析 | 基于GA遺傳算法優化kmeans聚類(Matlab) 目錄 聚類分析 | 基于GA遺傳算法優化kmeans聚類(Matlab)效果一覽基本介紹程序設計參考資料 效果一覽 基本介紹 GA-kmeans聚類算法,通過GA遺傳算法優化kmeans聚類&…

序列化的不同格式:JSON、XML、TOML、CSON、YAML

前言 這篇文章參考于知乎,進行了一些總結。 正文 首先什么是序列化,數據序列化是從一個系統獲取一些信息,將其轉換為其它系統可以讀取的格式,然后將其傳遞給其它系統的過程。也就是可以讓不同系統“通信”。 序列化需要滿足兩…

JetPack Compose Navigation

1. 導入依賴 implementation("androidx.navigation:navigation-compose:2.7.7") 2.kotlin編譯版本升級 composeOptions {kotlinCompilerExtensionVersion "1.5.0"} 3.插件版本升級 // Top-level build file where you can add configuration options c…

學習筆記:IEEE 1003.13-2003【POSIX PSE51接口列表】

一、POSIX PSE51接口列表 根據IEEE 1003.13-2003,整理了POSIX PSE51接口API(一共286個),每個API支持鏈接查看。 IEEE POSIX接口online搜索鏈接: The Open Group Base Specifications Issue 7, 2018 edition 詳細內…

【python】模塊與包

Python中的模塊和包是組織和管理代碼的重要工具。通過模塊和包,你可以更好地管理和重用你的代碼,使得代碼更加模塊化和可維護。 目錄 前言 正文 一、模塊 1、模塊的分類 1)內置模塊 python解釋器中默認擁有的模塊可以直接使用(…

用戶需求甄別和篩選的6大標準

產品經理日常經常接收到大量的需求,并不是所有的需求都需要開發,需要進行甄別和篩選,這樣有利于確保項目的成功、優化資源利用以及提高產品質量。 那么針對這些用戶需求進行甄別或篩選的評判標準是什么?需求篩選可以說是初步的需求…

代碼隨想錄-算法訓練營day31【貪心算法01:理論基礎、分發餅干、擺動序列、最大子序和】

代碼隨想錄-035期-算法訓練營【博客筆記匯總表】-CSDN博客 第八章 貪心算法 part01● 理論基礎 ● 455.分發餅干 ● 376. 擺動序列 ● 53. 最大子序和 貪心算法其實就是沒有什么規律可言,所以大家了解貪心算法 就了解它沒有規律的本質就夠了。 不用花心思去研究其…

C++牛客周賽題目分享(2)小紅叕戰小紫,小紅的數組移動,小紅的素數合并,小紅的子序列求和

目錄 ?編輯 1.前言 2.四道題目 1.小紅叕戰小紫 1.題目描述 2.輸入描述 3.輸出描述 4.示例 5.題解與思路 2.小紅的數組移動 1.題目描述 2.輸入描述 3.輸出描述 4.示例 5.題解與思路 3.小紅的素數合并 1.題目描述 2.輸入描述 3.輸出描述 4.示例 5.題解與思…

增強For循環執行順序探究

增強For循環執行順序探究 增強For循環基礎執行順序探討對于數組對于集合 經典示例數組示例集合示例(ArrayList) 注意事項結論 在Java編程中,增強型for循環(也稱為“foreach”循環)是一種簡潔而強大的迭代集合或數組元素…

super

super 一、理解 super.屬性:在子類中,調用父類非私有化的成員屬性 super.方法:在子類中,調用父類非私有化的成員方法 super():在子類構造方法中調用父類非私有的構造方法 二、案例 需求:編寫中國人和日本人…

云原生新手和開源教育分論壇 01-Kubernetes 社區:從新手到影響者

2024年04月20日 上海KCD & Shanghai:https://community.cncf.io/events/details/cncf-kcd-shanghai-presents-kcd-shanghai-2024/視頻觀看:https://www.bilibili.com/video/BV1nD421T786/?spm_id_from333.999.0.0&vd_sourceae7b192be069682aabc…

【FreeRTOS 快速入門】-- 1、STM32工程移植FreeRTOS

目錄 一、新建STM32工程 為了示范完整的移植過程,我們從0開始,新建一個標準的STM32點燈工程。 (本篇以CubeMX作示范,CubeIDE操作近同,可作對比參考) 1、新建工程 選擇 芯片型號 新建工程 2、搜索芯片型號…

24年做抖音小店,你還停留在數據?別人都已經開始注重利潤了

大家好,我是電商笨笨熊 一件事情持續做,一個項目持續深耕,意義到底是什么? 這句話我常常說,但很多人似乎走偏了實際意義; 尤其對于新手來說,做抖音小店總是向往某某老玩家多么牛的數據&#…

程序員健康指南:運動,讓代碼更流暢

程序員健康指南:運動,讓代碼更流暢 程序員,一個與電腦相伴的群體,長時間的久坐和高強度的腦力勞動是他們的日常。然而,久坐不僅影響體態,更對心臟健康構成威脅。根據《歐洲心臟雜志》的研究,中…

第十三節 huggingface的trainner解讀與Demo

文章目錄 前言一、trainer和TrainingArguments訓練與預測完整Demo1、數據構建2、TrainingArguments構建3、Trainer初始化4、模型訓練5、模型推理6、完整demo代碼7、完整運行結果二、輔助函數1、yield返回內容2、迭代器中斷恢復迭代demo3、yield from結構4、torch.Generator()的…