【數據集】ACM數據集

ACM(Association for Computing Machinery)數據集是計算機科學領域常用于研究學術論文、作者關系、引文網絡、推薦系統、圖神經網絡(GNN)等任務的數據集之一。該數據集通常包含學術論文、作者、研究領域以及它們之間的關系,并在許多機器學習、數據挖掘和社交網絡分析任務中廣泛使用。


1. ACM數據集的版本和來源

ACM數據集的版本較多,不同版本的數據來源和內容可能有所不同,常見的版本包括:

  • ACM Citation Network Dataset:由Microsoft Academic Graph(MAG)或DBLP提取的ACM引用網絡數據,包含論文及其引用關系。
  • ACM Author-Paper Dataset:用于學術社交網絡分析,包含作者、論文及其關系信息。
  • ACM數據集(ACM-DBLP):用于異質圖神經網絡(Heterogeneous Graph Neural Networks, HGNN)研究,包括論文、作者和研究領域。

2. 數據結構

不同的ACM數據集包含不同的信息,以下是常見的數據組織形式:

(1) 節點類型

ACM數據集通常包含以下幾類節點:

  • Paper(論文):包括論文ID、標題、摘要、發表年份、會議等信息。
  • Author(作者):包括作者ID、姓名、單位等信息。
  • Conference/Venue(會議或期刊):論文發表的會議或期刊信息。
  • Field(研究領域):論文所屬的計算機科學研究方向。

(2) 邊類型(關系)

  • (Author, writes, Paper):作者撰寫論文的關系。
  • (Paper, cites, Paper):論文引用其他論文的關系。
  • (Paper, published_in, Conference):論文發表在會議上的關系。
  • (Paper, belongs_to, Field):論文所屬的研究領域。

(3) 典型數據格式

ACM數據集通常以CSV、JSON、Graph(圖數據格式,如Neo4j、DGL、PyG)存儲。常見的數據示例如下:

論文表 (Papers.csv)
PaperIDTitleYearConference
P001"Deep Learning for NLP"2018NeurIPS
P002"Graph Neural Networks"2019ICML
P003"A Survey on Recommender Sys"2017WWW
作者表 (Authors.csv)
AuthorIDNameAffiliation
A001John SmithMIT
A002Alice BrownStanford
A003Bob JohnsonHarvard
論文-作者關系 (Paper_Author.csv)
PaperIDAuthorID
P001A001
P002A002
P002A003
論文引用關系 (Paper_Citation.csv)
CitingPaperIDCitedPaperID
P002P001
P003P001

3. ACM數據集的用途

ACM數據集常用于以下研究領域:

(1) 論文推薦系統

  • 基于協同過濾的推薦:使用論文-作者-領域關系構建推薦模型。
  • 基于圖神經網絡(GNN)的論文推薦:利用異構圖神經網絡(Heterogeneous GNN)建模論文、作者和領域之間的關系。

(2) 學術社交網絡分析

  • 研究作者合作關系,分析學術合作模式。
  • 識別學術領域的關鍵作者、影響力最大論文等。

(3) 計算機科學研究趨勢分析

  • 通過論文發表年份和研究領域分析不同方向的發展趨勢。
  • 利用文本挖掘技術提取研究熱點。

(4) 引文網絡分析

  • 分析論文的影響力和被引次數,研究學術傳播模式。
  • 計算論文PageRank值,發現高影響力論文。

(5) 機器學習與深度學習實驗

  • 異構圖表示學習:Heterogeneous Graph Embedding (如metapath2vec)。
  • 圖神經網絡:Graph Neural Networks (如 GCN, GAT, HAN) 在學術網絡中的應用。

4. 相關研究與數據集下載

ACM數據集的不同版本可以從以下渠道獲取:

  • Microsoft Academic Graph (MAG):Microsoft Academic Graph - Microsoft Research
  • DBLP (計算機科學論文庫):dblp: computer science bibliography
  • OGB (Open Graph Benchmark):Open Graph Benchmark | A collection of benchmark datasets, data-loaders and evaluators for graph machine learning in PyTorch.
  • Graph Learning Benchmarks (GLB):https://graphlearning.io/

5. 代碼示例

使用Python和NetworkX分析ACM引文網絡的示例:

import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt# 讀取數據
papers = pd.read_csv("Papers.csv")  # 論文數據
authors = pd.read_csv("Authors.csv")  # 作者數據
citations = pd.read_csv("Paper_Citation.csv")  # 論文引用關系# 創建有向圖
G = nx.DiGraph()# 添加論文節點
for _, row in papers.iterrows():G.add_node(row["PaperID"], label="Paper", title=row["Title"])# 添加引用關系
for _, row in citations.iterrows():G.add_edge(row["CitingPaperID"], row["CitedPaperID"], relation="cites")# 繪制引文網絡
plt.figure(figsize=(10, 8))
nx.draw_networkx(G, with_labels=True, node_size=500, font_size=8)
plt.show()

該代碼讀取ACM數據集的論文和引文關系,并用 NetworkX 繪制引文網絡。


數據集特點

  1. 異構性(Heterogeneity):ACM 數據集包含 論文-作者-會議-研究領域 之間的復雜關系,適用于 異構圖分析
  2. 高質量學術數據:數據來源于 ACM、DBLP、Microsoft Academic Graph (MAG) 等權威數據庫,適用于學術網絡分析和推薦系統研究。
  3. 大規模 & 小規模數據版本
    • 大規模 ACM-MAG 數據集 適用于大規模引文網絡分析(論文數百萬級)。
    • 小規模 ACM-DBLP 數據集 適用于 Heterogeneous Graph Neural Networks (HGNN) 研究(論文數萬級)。
  4. 適用于機器學習 & 深度學習
    • 可用于 論文推薦系統學術影響力分析知識圖譜構建
    • 可用于 圖神經網絡(GNN)訓練,如 GCN、GAT、HAN 等。


常用子集

下載地址:ACM Dataset | Papers With Code

ACM數據集包含了發表在KDD、SIGMOD、SIGCOMM、MobiCOMM和VLDB等頂級會議上的論文,并根據研究領域分為三大類:數據庫(Database)、無線通信(Wireless Communication)和數據挖掘(Data Mining)。該數據集構建了一個異質圖(heterogeneous graph),其中包含以下實體和關系:

  • 論文(Paper):3025篇論文,每篇論文的特征通過關鍵詞的詞袋模型(bag-of-words)表示。

  • 作者(Author):5835位作者,與論文之間存在撰寫關系。

  • 主題(Subject):56個主題,與論文之間存在分類關系。

數據集的核心特點:

  1. 異質圖結構

    • 圖中包含多種類型的節點(論文、作者、主題)和邊(論文-作者、論文-主題)。

    • 這種異質圖結構適合用于圖神經網絡(GNN)等圖數據分析任務。

  2. 論文特征

    • 每篇論文的特征通過關鍵詞的詞袋模型表示,即用一組關鍵詞的向量來描述論文內容。

    • 這種表示方法適用于文本挖掘、分類和推薦等任務。

  3. 類別劃分

    • 論文被劃分為三大類:數據庫、無線通信和數據挖掘。

    • 這種分類信息可用于監督學習任務,如論文分類或領域預測。

應用場景:

  • 論文分類:基于論文的關鍵詞特征和異質圖結構,對論文進行領域分類。

  • 作者推薦:通過分析作者與論文的關系,推薦潛在的合作者。

  • 主題挖掘:從論文與主題的關系中挖掘熱門研究領域或趨勢。

  • 圖神經網絡研究:作為異質圖的典型數據集,用于驗證圖神經網絡算法的性能。

數據集的挑戰:

  • 異質圖復雜性:由于包含多種類型的節點和邊,圖的構建和分析較為復雜。

  • 特征稀疏性:詞袋模型表示的關鍵詞特征可能較為稀疏,需要特征工程或嵌入表示來優化。

  • 類別不平衡:三大類論文的數量可能不均衡,需注意分類任務中的數據平衡問題。


ACM數據集是學術論文推薦、學術網絡分析和圖機器學習研究的重要數據集,廣泛用于學術社交網絡分析、推薦系統、文本挖掘、知識圖譜等領域。它不僅提供了學術論文的詳細信息,還通過引文、作者和研究領域的關系構建了一個復雜的學術網絡,適用于多種機器學習和數據挖掘任務。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/71058.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/71058.shtml
英文地址,請注明出處:http://en.pswp.cn/web/71058.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SQL server配置ODBC數據源(本地和服務器)

本地配置 1. 控制面板中找到系統ODBC數據源(打開控制面板直接搜) 2. 選擇“系統DSN”,點擊“添加” 3. 選擇“SQL server” 4. 名稱和描述自己填,服務器選擇本機設備名稱 5. 選擇ID和密碼驗證,并填寫本地SQL server登…

使用 Postman 訪問 Keycloak 端點

1. 引言 在本教程中,我們將首先快速回顧 OAuth 2.0、OpenID 和 Keycloak。然后,我們將了解 Keycloak REST API 以及如何在 Postman 中調用它們。 2. OAuth 2.0 OAuth 2.0 是一個授權框架,它允許經過身份驗證的用戶通過令牌向第三方授予訪問…

文生圖開源模型發展史(2014-2025年)

文生圖開源模型的發展歷程是一段充滿技術革新、社區生態繁榮與商業化競爭的多維度演進史。 一、技術萌芽期(2014-2020年) 核心突破 2014年:GAN(生成對抗網絡)誕生,首次實現數據驅動式圖像生成&#xff0…

微服務學習(2):實現SpringAMQP對RabbitMQ的消息收發

目錄 SpringAMQP是什么 為什么采用SpringAMQP SpringAMQP應用 準備springBoot工程 實現消息發送 SpringAMQP是什么 Spring AMQP是Spring框架下用于簡化AMQP(高級消息隊列協議)應用開發的一套工具集,主要針對RabbitMQ等消息中間件的集成…

AI人工智能機器學習之神經網絡

1、概要 本篇學習AI人工智能機器學習之神經網絡,以MLPClassifier和MLPRegressor為例,從代碼層面講述最常用的神經網絡模型MLP。 2、神經網絡 - 簡介 在 Scikit-learn 中,神經網絡是通過 sklearn.neural_network 模塊提供的。最常用的神經網…

WPF高級 | WPF 與數據庫交互:連接、查詢與數據更新

WPF高級 | WPF 與數據庫交互:連接、查詢與數據更新 前言一、數據庫交互基礎概念1.1 數據庫簡介1.2 數據訪問技術 二、WPF 與數據庫連接2.1 連接字符串2.2 建立連接 三、WPF 中的數據查詢3.1 使用ADO.NET進行數據查詢3.2 使用 Entity Framework 進行數據查詢3.3 使用…

【ESP32S3接入訊飛在線語音識別】

【ESP32S3接入訊飛在線語音識別】 1. 前言1.1 步驟概括1.2 硬件介紹1.3 接線2. 操作流程2.1 創建語音識別應用2.2 記錄API秘鑰3. JSON語音接入api3.1 JSON格式3.2 交互流程3.2 ESP32S3 Sense接入代碼1. 核心功能2. 主要模塊3. 工作流程4. 典型應用場景5. 關鍵技術點6. 待完善功…

學生管理前端

文章目錄 首頁student.html查詢功能 首頁 SpringBoot前端html頁面放在static文件夾下:/src/main/resources/static 默認首頁為index.html,我們可以用兩個超鏈接或者兩個button跳轉到對應的頁面。這里只是單純的跳轉頁面,不需要提交表單等其…

(動態規劃 最長遞增的子序列)leetcode 300

這道題我第一眼反應就是暴力,但是暴力的話就是n*n-1*n-2*...n-(n-1) 也就是O(n^n)dfs做絕對超時 貪心也不行,這里是子序列,要考慮在ni的范圍內考慮多種路線取最優,所以用動態規劃 如何用動態規劃呢? 答:…

RabbitMQ系列(六)基本概念之Routing Key

在 RabbitMQ 中,Routing Key(路由鍵) 是用于將消息從交換機(Exchange)路由到指定隊列(Queue)的關鍵參數。其核心作用是通過特定規則匹配綁定關系,確保消息被正確分發。以下是其核心機…

Spark內存并行計算框架

spark核心概念 spark集群架構 spark集群安裝部署 spark-shell的使用 通過IDEA開發spark程序 1. Spark是什么 Apache Spark? is a unified analytics engine for large-scale data processingspark是針對于大規模數據處理的統一分析引擎 spark是在Hadoop基礎上的改進&…

Ubuntu 安裝 Nginx并配置反向代理

Ubuntu版本:Ubuntu 24.04.2 LTS 一、安裝Nginx ?更新系統軟件包? 安裝前需確保系統處于最新狀態,避免依賴沖突 sudo apt update && sudo apt upgrade -y ?安裝Nginx主程序? Ubuntu官方倉庫已包含穩定版Nginx,直接安裝即可 sudo…

Solr中得Core和Collection的作用和關系

Solr中得Core和Collection的作用和關系 一, 總結 在Apache Solr中,Core和Collection 是兩個核心概念,他們分別用于單機模式和分布式模式(SolrCloud)中,用于管理和組織數據。 二,Core 定義&am…

yolov8,yolo11,yolo12 服務器訓練到部署全流程 筆記

正在進行中,隨時更新 一. Anaconda配置 1.安裝anaconda (1)下載.sh文件 Index of /anaconda/archive/ | 清華大學開源軟件鏡像站 | Tsinghua Open Source Mirror (2)scp到服務器后,運行安裝包 bash Anaconda3-2020.07-Linux-x86_64.sh (3)安裝anacond…

從零開始開發純血鴻蒙應用之語音朗讀

從零開始開發純血鴻蒙應用 〇、前言一、API 選型1、基本情況2、認識TextToSpeechEngine 二、功能集成實踐1、改造右上角菜單2、實現語音播報功能2.1、語音引擎的獲取和關閉2.2、設置待播報文本2.3、speak 目標文本2.4、設置語音回調 三、總結 〇、前言 中華漢字洋洋灑灑何其多…

【AGI】DeepSeek開源周:The whale is making waves!

DeepSeek開源周:The whale is making waves! 思維火花引言一、DeepSeek模型體系的技術演進1. 通用語言模型:DeepSeek-V3系列2. 推理優化模型:DeepSeek-R1系列3. 多模態模型:Janus系列 二、開源周三大工具庫的技術解析1…

25年前端如何走的更穩

2025年,隨著deepseek引起的AI大模型技術的深度革命,帶來了很多機會和挑戰,前端程序員作為互聯網里一個普通但必不可少的崗位,在當前形勢下,需要主動變革才能走的更穩。本文簡單介紹三個方向,Web3前端、全棧…

DockerでOracle Database 23ai FreeをセットアップしMAX_STRING_SIZEを拡張する手順

DockerでOracle Database 23c FreeをセットアップしMAX_STRING_SIZEを拡張する手順 はじめに環境準備ディレクトリ作成Dockerコンテナ起動 データベース設定変更コンテナ內でSQL*Plus起動PDB操作と文字列サイズ拡張設定検証 管理者ユーザー作成注意事項まとめ はじめに Oracle…

市場加速下跌,但監管「堅冰」正在消融

作者:Techub 熱點速遞 撰文:Yangz,Techub News 與近日氣溫逐步回暖不同,自 2 月 25 日比特幣跌破 9 萬美元以來,加密貨幣市場行情一路下滑。今日 10 時 50 分左右,比特幣更是跌破 8 萬美元大關&#xff0c…

【Android】安卓付款密碼輸入框、支付密碼輸入框

如圖 代碼部分&#xff1a; public class PayPasswordDialog extends AppCompatDialogFragment {private String mPayPass "";private String mTitle, mMoney;private final TextView[] mPayPassTextViewArray new TextView[6];private List<Integer> mPayP…