圖神經網絡分享系列-SDNE(Structural Deep Network Embedding) (三)

目錄

一、實驗

1.1 數據集

1.2 基線算法

1.3 評估指標

1.4 參數設置

1.5 實驗效果

1.5.1 網絡重構

1.5.1.1 方法性能優勢

1.5.1.2 特定數據集表現

1.5.1.3?模型對比分析

1.5.1.4?鄰近性重要性驗證

1.5.2 多標簽分類

1.5.3 鏈路預測

1.5.4網絡可視化的應用

1.6 參數敏感性分析

二、?結論


圖神經系列概覽:圖神經網絡分享系列-概覽-CSDN博客

承接上一篇文章,繼續分享:圖神經網絡分享系列-SDNE(Structural Deep Network Embedding) (二)-CSDN博客

一、實驗

在本節中,我們通過多個真實數據集和應用對所提出的方法進行評估。實驗結果表明,相較于基線方法,該方法取得了顯著提升。

1.1 數據集

為全面評估表征方法的有效性,實驗采用五個網絡數據集,包括三個社交網絡、一個引文網絡和一個語言網絡,覆蓋三種實際應用場景:多標簽分類、鏈接預測及可視化。根據各數據集特性,針對每類應用選取一個或多個數據集進行性能評估,具體描述如下。

  • BLOGCATALOG [27]、FLICKR [27] 和 YOUTUBE [28]:它們是線上用戶的社交網絡。每個用戶至少被標注為一個類別。BLOGCATALOG 共有 39 個不同類別,FLICKR 有 195 個類別,YOUTUBE 有 47 個類別。這些類別可作為每個頂點的真實標簽,因此可用于多標簽分類任務的評估。
  • ARXIV GR-QC [16]:這是一個論文合作網絡,涵蓋 arXiv 中廣義相對論和量子宇宙學領域的論文。在該網絡中,頂點代表作者,邊表示作者曾在 arXiv 上合作撰寫過科學論文。由于缺乏頂點類別信息,該數據集用于鏈接預測任務。
  • 20-NEWSGROUP:該數據集包含約 20000 篇新聞組文檔,每篇文檔被標記為 20 個不同組別之一。使用詞項的 TF-IDF 向量表示文檔,并以余弦相似度衡量文檔間相似性。基于此類相似性可構建網絡。選取標注為 comp.graphics、rec.sport.baseball 和 talk.politics.guns 的文檔進行可視化任務。

在加權與無權、稀疏與密集、小型與大型網絡上進行實驗,所選數據集能全面反映網絡嵌入方法的特性。具體統計數據見表2。

1.2 基線算法

以下五種方法作為基線算法,其中前四種為網絡嵌入方法,而共同鄰居(Common Neighbor)直接基于網絡結構進行鏈路預測,已被證明是有效的鏈路預測方法[17]。

DeepWalk [21]:采用隨機游走和skip-gram模型生成網絡表示。
LINE [26]:通過分別定義損失函數保留一階或二階近似性,優化后拼接不同階數的表示。
GraRep [4]:擴展至高階近似性,利用奇異值分解(SVD)訓練模型,并直接拼接一階與高階表示。
拉普拉斯特征映射(LE)[1]:通過分解鄰接矩陣的拉普拉斯矩陣生成網絡表示,僅利用一階近似性保留網絡結構。
共同鄰居[17]:僅通過頂點間共同鄰居的數量衡量相似性,僅在鏈路預測任務中作為基線。

1.3 評估指標

在實驗中,針對重構、鏈接預測、多標簽分類和可視化任務,采用以下評估方法:
重構與鏈接預測任務使用precision@k和**平均精度均值(MAP)**進行評估,具體定義如下:

  • precision@k:該指標對返回結果中的每個實例賦予相同權重,計算公式為:

其中,V?為頂點集合,index(j)?表示第j個頂點的排序索引,?i(j) = 1?用于標識頂點vi與vj之間存在連邊關系。

  • Mean Average Precision (MAP) 是一種具有良好區分度和穩定性的評價指標。相較于 precision@k,它更關注返回結果中靠前排序項的表現。其計算方法如下:

其中 Q 表示查詢集

在多標簽分類任務中,采用與許多其他研究相同的微平均F1(Micro-F1)和宏平均F1(Macro-F1)作為評估指標[27]。具體而言,對于標簽A,用TP(A)、FP(A)和FN(A)分別表示被預測為A的實例中的真正例、假正例和假反例數量。設C為全體標簽集合,微平均F1和宏平均F1定義如下:

  • Macro-F1 是一種給予每個類別同等權重的評估指標,其定義如下:

F1(A) 是標簽 A 的 F1 值(F1 分數)

  • Micro-F1 是一種對每個實例賦予同等權重的評估指標,其定義如下:

1.4 參數設置

本文提出了一種多層深度結構,層數隨數據集不同而變化。各層維度如表3所示。對于BLOGCATALOG、ARXIV GR-QC和20-NEWSGROUP數據集,神經網絡設置為三層;對于FLICKR和YOUTUBE數據集,則使用四層結構。若采用更深的模型,性能幾乎保持不變甚至可能下降。

方法參數設置

本方法的超參數α、β和ν通過網格搜索在驗證集上進行調優。基線方法的參數均調整為最優值。

LINE參數配置

隨機梯度下降(SGD)的迷你批次大小設為1,初始學習率為0.025。負采樣數量設置為5,總樣本數為100億。依據文獻[26]的建議,LINE模型的最終嵌入向量通過拼接一階和二階表示并做L2歸一化后效果更佳,實驗中遵循此方式生成LINE的結果。

DeepWalk參數配置

窗口大小設為10,隨機游走長度設為40,每個頂點的游走次數設為40。

GraRep參數配置

矩陣轉移步數最大值設為5。

1.5 實驗效果

本節首先評估模型的重建性能,隨后分析不同嵌入方法生成的網絡表征在以下三類經典數據挖掘與機器學習任務中的泛化能力:多標簽分類、鏈接預測及可視化。

1.5.1 網絡重構

在評估所提方法在現實應用中的泛化能力之前,需對不同網絡嵌入方法的網絡重構能力進行基礎評估。此實驗的意義在于,優秀的網絡嵌入方法應確保學習到的嵌入向量能夠保留原始網絡結構。實驗選取語言網絡ARXIV GR-QC和社交網絡BLOGCATALOG作為代表案例。給定一個網絡,分別使用不同嵌入方法學習網絡表示,進而預測原始網絡的鏈接。由于原始網絡中的現有鏈接可作為真實標簽,通過計算訓練集誤差即可評估各方法的重構性能。采用precision@k和MAP作為評估指標,precision@k結果如圖3所示,MAP結果見表4。

根據研究結果,可得出以下觀察與分析:

1.5.1.1 方法性能優勢

表4數據顯示,該方法在兩個數據集的MAP指標上均顯著超越基線模型。圖3表明隨著k值增大,該方法的precision@k始終維持最高水平,證明該方法能有效保持網絡結構完整性。

1.5.1.2 特定數據集表現

在ARXIV GR-QC網絡中,該方法的precision@k可達100%并在k增至10000時保持該水平。考慮到該數據集總鏈接數為28980,說明該方法能近乎完美地重構原始網絡結構。

1.5.1.3?模型對比分析

盡管SDNE和LINE均利用一階與二階鄰近性保持網絡結構,但SDNE表現更優。可能原因包括:LINE采用的淺層結構難以捕捉底層網絡高度非線性特征;LINE直接拼接兩種鄰近性的表征方式,不如SDNE聯合優化策略高效。

1.5.1.4?鄰近性重要性驗證

SDNE和LINE性能均優于僅使用一階鄰近性的LE算法,證明引入二階鄰近性可顯著提升網絡結構保持效果。

1.5.2 多標簽分類

分類是眾多應用中的核心任務,相關算法和理論已被大量研究[18]。本實驗通過多標簽分類任務評估不同網絡表征方法的有效性。網絡嵌入方法生成的頂點表征作為特征,用于將每個頂點分類至一組標簽中。

具體采用LIBLINEAR工具包[8]訓練分類器。訓練時,隨機抽取部分已標注節點作為訓練數據,其余作為測試集。對于BLOGCATALOG數據集,隨機選取10%至90%的頂點作為訓練樣本,剩余頂點用于測試性能;對于FLICKR和YOUTUBE數據集,則隨機抽取1%至10%的頂點作為訓練樣本,剩余部分用于測試。此外,YOUTUBE數據集中未標注任何類別的頂點被移除。

上述過程重復5次,最終報告平均Micro-F1和Macro-F1值。結果分別展示在圖4與圖5中。

關鍵點說明

  • 數據劃分:不同數據集的訓練集比例差異(BLOGCATALOG較高,FLICKR/YOUTUBE較低)反映數據規模或標注密度的差異。
  • 評估指標:Micro-F1(側重全局統計)和Macro-F1(側重類別均衡)共同衡量分類性能。
  • 去噪處理:YOUTUBE中未標注頂點的剔除確保評估有效性。

在圖表4與圖表5中,本方法的曲線始終高于基線方法。這表明相比基線方法,本方法學習到的網絡表征能更有效地泛化至分類任務。

圖表4(BLOGCATALOG數據集)顯示,當訓練數據比例從60%降至10%時,本方法相對于基線方法的性能提升幅度更為顯著。這說明在標注數據有限的情況下,本方法能實現更顯著的性能優勢。這一特性對實際應用尤為重要,因為真實場景中的標注數據通常稀缺。

在多數情況下,DeepWalk在網絡嵌入方法中表現最差。原因有二:其一,DeepWalk缺乏明確的目標函數來捕捉網絡結構;其二,該方法通過隨機游走擴充頂點鄰居關系,這種隨機性會引入大量噪聲(尤其對高度數頂點影響顯著)。

1.5.3 鏈路預測

本節聚焦鏈路預測任務并開展兩項實驗:第一項評估整體性能,第二項分析網絡稀疏性對不同方法性能的影響。實驗數據集采用ARXIV GR-QC。

鏈路預測任務通過隨機隱藏部分已有邊,利用剩余網絡訓練嵌入模型。訓練完成后獲取頂點表示,進而預測未被觀測的邊。與重構任務不同,此任務旨在預測未來可能的連接而非還原現有邊,因此能更好評估不同網絡嵌入方法的可預測性性能。實驗中引入共同鄰居(Common Neighbor)作為基線方法,因其已被證明是有效的鏈路預測策略[17]。

第一項實驗隨機隱藏15%的現有邊(約4000條),采用precision@k作為預測隱藏邊的評估指標。將k值從2逐步增至10000,結果如表5所示(最優性能以加粗標出)。表5的主要觀察與分析如下:

  • 結果表明,隨著k值增大,本方法的性能始終優于其他網絡嵌入方法。這表明本方法學習到的表征對新鏈接形成的預測能力更為出色。
  • 當k=1000時,本方法的精度仍保持在0.9以上,而其他方法的精度迅速降至0.8以下。這說明本方法在排名靠前的鏈接中能保持較高精度。這一優勢對推薦系統和信息檢索等實際應用尤為重要,因為用戶更關注此類應用中排名靠前的結果。

在第二個實驗中,通過隨機移除原始網絡中的部分連接來改變網絡的稀疏性,隨后沿用前述流程比較不同網絡嵌入方法的表現。結果如圖6所示。

稀疏性對方法性能的影響

實驗表明,當網絡越稀疏時,拉普拉斯特征映射(LE)與SDNE、或LE與LINE之間的性能差距會進一步擴大。這說明引入二階鄰近度能夠使學習到的表征對稀疏網絡更具魯棒性。

極端稀疏場景下的表現

即使移除80%的網絡連接,SDNE方法仍顯著優于基線模型。這一結果進一步驗證了SDNE在處理稀疏網絡時的強大能力。

1.5.4網絡可視化的應用

網絡嵌入的另一重要應用是在二維空間中生成網絡的可視化。因此,此處對20-NEWSGROUP網絡學習到的表征進行可視化呈現。采用不同網絡嵌入方法學習到的低維網絡表征作為可視化工具t-SNE的輸入數據。每個新聞組文檔被映射為一個二維向量,進而以二維空間中的點呈現。針對不同類別的標注文檔,其對應點使用不同顏色標記。理想的可視化結果應表現為同色標記點彼此臨近。可視化效果如圖7所示。

從圖7可以看出,LE和DeepWalk的表現不盡如人意,因為不同類別的數據點相互混雜。LINE方法形成了不同類別的簇群,但在中心區域,不同類別的文檔仍然存在重疊。GraRep的結果相對較好,相同顏色的點形成了獨立的分組,但各組邊界仍不夠清晰。顯然,SDNE在類群分離度和邊界清晰度兩方面的可視化效果最佳。表6的量化數據也進一步驗證了該方法在可視化任務中的優越性。

1.6 參數敏感性分析

本節探討參數敏感性問題,重點評估嵌入維度數量及超參數α、β取值對結果的影響。實驗數據基于ARXIV-GRQC數據集,以Precision@k作為評價指標。

  • 嵌入維度數量的選擇

圖8(a)展示了嵌入向量維度對性能的影響。性能隨維度增加提升,因更多維度能編碼更豐富的信息。但當維度持續增加時,性能緩慢下降,原因是過高的維度會引入噪聲導致性能劣化。總體而言,潛在嵌入空間的維度數量需謹慎確定,但本方法對該參數不敏感。

  • 一階與二階鄰近性的平衡點分析

研究通過圖8(b)展示了參數α對模型性能的影響。α用于調節頂點間一階鄰近性與二階鄰近性的權重比例。當α=0時,性能完全由二階鄰近性決定;隨著α增大,模型更側重一階鄰近性。圖8(b)顯示,α=0.1和α=0.2的性能優于α=0,表明同時考慮一階和二階鄰近性對網絡嵌入方法捕捉網絡結構至關重要。該結果驗證了兩種鄰近性在表征網絡拓撲時的互補性。

  • 重點關注非零元素的重構誤差

實驗最后展示了參數β對模型性能的影響。β控制訓練圖中非零元素的重構權重,其值越大,模型越傾向于優先重構非零元素。圖8(c)結果顯示:當β=1時效果較差,此時模型對網絡中零元素和非零元素賦予同等重構權重。需注意的是,節點間無連邊并不代表兩者不相似,但存在連邊一定表明節點相似性,因此重構零元素會引入噪聲并降低性能。

  • 過度強調非零元素的弊端

當β值過大時,性能同樣會下降。原因是模型幾乎完全忽略零元素的重構,傾向于維持任意節點對的相似性。然而,大量零元素實際仍反映節點間的差異性,過度忽略會導致性能退化。

  • 實驗結論

該實驗表明:在網絡嵌入任務中,應更關注非零元素的重構誤差,但不可完全放棄對零元素的重構約束。需在二者間取得平衡以獲得最優表現。

二、?結論

本文提出了一種結構深度網絡嵌入方法(Structural Deep Network Embedding, SDNE),用于實現網絡嵌入。該方法通過設計半監督深度模型(含多層非線性函數)捕捉高度非線性的網絡結構。為解決結構保持與稀疏性問題,模型聯合利用一階鄰近度與二階鄰近度刻畫局部與全局網絡結構特征。通過在半監督深度模型中聯合優化這兩類鄰近度,所學表征能夠保持局部-全局結構,并對稀疏網絡具有魯棒性。實驗部分在多個網絡數據集和應用場景中評估了生成的網絡表征效果,結果表明該方法較現有最優技術有顯著提升。未來工作將聚焦于如何為無任何邊連接的新節點學習表征。


本篇論文講解就暫告一斷落,后續會持續更新~

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/96486.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/96486.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/96486.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

《WINDOWS 環境下32位匯編語言程序設計》第16章 WinSock接口和網絡編程(1)

當今的時代是網絡時代,網絡給生活帶來的影響超過了以往的任何事物,不管我們是用瀏覽器上網,是在打網絡游戲,還是用MSN、QQ等即時通信軟件和朋友聊天,網絡的另一端實際上都是對應的網絡應用程序在提供服務。大多數的網絡…

【筆記】Windows 安裝 TensorRT 10.13.3.9(適配 CUDA 13.0,附跨版本 CUDA 調用維護方案)

實操筆記 | Windows 安裝 TensorRT 10.13.3.9(適配 CUDA 13.0,含跨版本 CUDA 調用維護示例)—— 系統 CUDA 13.0 與虛擬環境 CUDA 12.8 版本差異時,TensorRT 調用維護實例詳見附錄 本文針對 TensorRT-10.13.3.9.Windows.win10.cu…

如何關閉電腦安全和防護

了解你希望關閉電腦的安全和防護功能。??請務必注意,關閉這些防護會使電腦暴露在安全風險中,僅建議在必要時(如安裝受信任但被誤攔的軟件、進行網絡調試)臨時操作,完成后請立即重新開啟。 下面是一個快速操作指南表格…

C# Entity Framework Core 的 CRUD 操作與關聯查詢實戰示例

以下是基于 Entity Framework Core 的 CRUD 操作與關聯查詢實戰示例,以 用戶(User) 和 訂單(Order) 實體為例(一對多關系),包含完整代碼和操作說明。一、基礎準備1. 實體類定義&…

UniApp狀態管理深度重構指南

作為專業智能創作助手,我將幫助你逐步理解并實現UniApp狀態管理的深度重構。UniApp基于Vue.js框架,其狀態管理通常使用Vuex,但隨著應用規模擴大,狀態管理可能變得臃腫、難以維護。深度重構旨在優化性能、提升可維護性,…

時序數據庫:定義與基本特點

在當今的物聯網(IoT)、 DevOps監控、金融科技和工業4.0時代,我們每時每刻都在產生海量的與時間緊密相關的數據。服務器CPU指標、智能電表讀數、車輛GPS軌跡、股票交易記錄……這些數據都有一個共同的核心特征:時間是它們不可分割的…

linux系統安裝wps

在Linux系統上通過deb包安裝WPS Office是個不錯的選擇。下面是一個主要步驟的概覽,我會詳細介紹每一步以及可能遇到的問題和解決方法。步驟概覽關鍵操作說明/注意事項1. 下載DEB包訪問WPS官網下載需選擇與系統架構匹配的版本(通常是AMD64)2. …

git常見沖突場景及解決辦法

場景1.假設一開始 本地拉取了遠程最新的代碼 就是說本地和遠程此時一樣 然后本地寫了一個新需求git commit了 但是沒有提交到遠程倉庫 然后另外一個地方提交了某個功能的新代碼 到遠程 此時本地和遠程的代碼不一樣了 而且本地有已經 commit的 這時候 這個本地想同步遠程的最新代…

Flink面試題及詳細答案100道(41-60)- 狀態管理與容錯

《前后端面試題》專欄集合了前后端各個知識模塊的面試題,包括html,javascript,css,vue,react,java,Openlayers,leaflet,cesium,mapboxGL,threejs&…

【二開】CRMEB開源版按鈕權限控制

【二開】CRMEB開源版按鈕權限控制使用方法v-unique_auth"order-refund"<el-dropdown-itemv-unique_auth"order-refund">立即退款</el-dropdown-item >或者 滿足其中一個即可v-unique_auth"[order-delete,order-dels]"通過管理端權限…

AOSP源碼下載及編譯錯誤解決

源碼下載 軟件下載sudo apt-get updatesudo apt-get install gitsudo apt-get install curlsudo apt-get install adbsudo apt-get install reposudo apt-get install vimsudo apt-get install -y git devscripts equivs config-package-dev debhelper-compat golang curl配置g…

實驗-高級acl(簡單)

實驗-高級acl&#xff08;簡單&#xff09;預習一、實驗設備二、拓撲圖三、配置3.1、網絡互通3.2、配置ACL3.3、取消配置步驟1&#xff1a;先移除接口上的ACL應用步驟2&#xff1a;修改或刪除ACL中的錯誤規則方法A&#xff1a;直接刪除錯誤規則&#xff08;保留其他正確規則&am…

IoC / DI 實操

1. 建三層類包結構&#xff1a;com.lib ├─ config ├─ controller ├─ service ├─ repository ├─ model └─ annotation // 自定義限定符① 實體 Bookpackage com.lib.model; public class Book {private Integer id;private String title;// 全參構造 gette…

AdsPower RPA 從excel中依次讀取多個TikTok賬號對多個TikTok賬號目標發送信息

多個賬號對多個目標發送子場景 B&#xff1a;多個賬號向“不同的”目標循環發送&#xff08;最復雜的群發邏輯&#xff09;流程&#xff1a;Excel表中有一個“目標用戶”列表。RPA流程會進行嵌套循環&#xff1a;外層循環&#xff1a;遍歷Excel中的每一行數據&#xff08;即每一…

擴散模型進化史

一幅精美的圖片&#xff0c;一段精彩的視頻&#xff0c;可能始于一片純粹的噪聲。 2024年的計算機視覺頂會CVPR上&#xff0c;擴散模型成為絕對主角。從圖像生成到視頻理解&#xff0c;從超分辨率到3D建模&#xff0c;擴散模型正以驚人的速度重塑著AIGC&#xff08;AI生成內容&…

一次 Linux 高負載 (Load) 異常問題排查實錄

一次 Linux 高負載&#xff08;Load&#xff09;異常排查實錄一、背景及排查過程材料二、排查分析2.1Load 的真正含義2.2&#xff1a;確認異常進程2.3&#xff1a;線程卡在哪&#xff08;wchan&#xff09;2.4&#xff1a;perf 采樣&#xff08;用戶態/內核態熱點&#xff09;2…

淺析Linux進程信號處理機制:基本原理及應用

文章目錄概述信號類型可靠信號與不可靠信號Fatal信號與Non Fatal信號不可捕獲/忽略信號信號工作機制信號處理方式信號嵌套處理信號使用信號發送kill命令注冊信號處理函數信號安全與函數可重入性可重入函數線程安全與可重入性相關參考概述 Linux信號機制是進程間通信的一種方式…

【學習K230-例程19】GT6700-TCP-Client

B站視頻 TCP TCP/IP&#xff08;Transmission Control Protocol/Internet Protocol&#xff0c;傳輸控制協議/網際協議&#xff09;是指能夠在多個不同網絡間實現信息傳輸的協議簇。TCP/IP 協議不僅僅指的是 TCP和 IP 兩個協議&#xff0c;而是指一個由 FTP、SMTP、TCP、UDP、I…

o2oa待辦流程和已辦流程表

在o2oa系統中每個用戶有兩種唯一標識&#xff1a;第一種是姓名個人釘釘ID&#xff08;或者o2oa創建該用戶時設置的id&#xff09;ORG_PERSON.xdistinguishedName劉準3013692136672430P第二種是姓名所在部門的釘釘id個人釘釘idORG_IDENTITY.xdistinguishedName劉準966488616_301…

QT零基礎入門教程

基礎篇第一章 QT 基礎認知1.1 什么是 QT&#xff08;What&#xff09;?定義&#xff1a;跨平臺 C 應用開發框架&#xff0c;不僅用于 UI 設計&#xff0c;還包含核心功能&#xff08;如事件、網絡、數據庫&#xff09;。?核心特性&#xff1a;?跨平臺&#xff1a;一套代碼支…