ACM(Association for Computing Machinery)數據集是計算機科學領域常用于研究學術論文、作者關系、引文網絡、推薦系統、圖神經網絡(GNN)等任務的數據集之一。該數據集通常包含學術論文、作者、研究領域以及它們之間的關系,并在許多機器學習、數據挖掘和社交網絡分析任務中廣泛使用。
1. ACM數據集的版本和來源
ACM數據集的版本較多,不同版本的數據來源和內容可能有所不同,常見的版本包括:
- ACM Citation Network Dataset:由Microsoft Academic Graph(MAG)或DBLP提取的ACM引用網絡數據,包含論文及其引用關系。
- ACM Author-Paper Dataset:用于學術社交網絡分析,包含作者、論文及其關系信息。
- ACM數據集(ACM-DBLP):用于異質圖神經網絡(Heterogeneous Graph Neural Networks, HGNN)研究,包括論文、作者和研究領域。
2. 數據結構
不同的ACM數據集包含不同的信息,以下是常見的數據組織形式:
(1) 節點類型
ACM數據集通常包含以下幾類節點:
- Paper(論文):包括論文ID、標題、摘要、發表年份、會議等信息。
- Author(作者):包括作者ID、姓名、單位等信息。
- Conference/Venue(會議或期刊):論文發表的會議或期刊信息。
- Field(研究領域):論文所屬的計算機科學研究方向。
(2) 邊類型(關系)
- (Author, writes, Paper):作者撰寫論文的關系。
- (Paper, cites, Paper):論文引用其他論文的關系。
- (Paper, published_in, Conference):論文發表在會議上的關系。
- (Paper, belongs_to, Field):論文所屬的研究領域。
(3) 典型數據格式
ACM數據集通常以CSV、JSON、Graph(圖數據格式,如Neo4j、DGL、PyG)存儲。常見的數據示例如下:
論文表 (Papers.csv)
PaperID | Title | Year | Conference |
---|---|---|---|
P001 | "Deep Learning for NLP" | 2018 | NeurIPS |
P002 | "Graph Neural Networks" | 2019 | ICML |
P003 | "A Survey on Recommender Sys" | 2017 | WWW |
作者表 (Authors.csv)
AuthorID | Name | Affiliation |
---|---|---|
A001 | John Smith | MIT |
A002 | Alice Brown | Stanford |
A003 | Bob Johnson | Harvard |
論文-作者關系 (Paper_Author.csv)
PaperID | AuthorID |
---|---|
P001 | A001 |
P002 | A002 |
P002 | A003 |
論文引用關系 (Paper_Citation.csv)
CitingPaperID | CitedPaperID |
---|---|
P002 | P001 |
P003 | P001 |
3. ACM數據集的用途
ACM數據集常用于以下研究領域:
(1) 論文推薦系統
- 基于協同過濾的推薦:使用論文-作者-領域關系構建推薦模型。
- 基于圖神經網絡(GNN)的論文推薦:利用異構圖神經網絡(Heterogeneous GNN)建模論文、作者和領域之間的關系。
(2) 學術社交網絡分析
- 研究作者合作關系,分析學術合作模式。
- 識別學術領域的關鍵作者、影響力最大論文等。
(3) 計算機科學研究趨勢分析
- 通過論文發表年份和研究領域分析不同方向的發展趨勢。
- 利用文本挖掘技術提取研究熱點。
(4) 引文網絡分析
- 分析論文的影響力和被引次數,研究學術傳播模式。
- 計算論文PageRank值,發現高影響力論文。
(5) 機器學習與深度學習實驗
- 異構圖表示學習:Heterogeneous Graph Embedding (如metapath2vec)。
- 圖神經網絡:Graph Neural Networks (如 GCN, GAT, HAN) 在學術網絡中的應用。
4. 相關研究與數據集下載
ACM數據集的不同版本可以從以下渠道獲取:
- Microsoft Academic Graph (MAG):Microsoft Academic Graph - Microsoft Research
- DBLP (計算機科學論文庫):dblp: computer science bibliography
- OGB (Open Graph Benchmark):Open Graph Benchmark | A collection of benchmark datasets, data-loaders and evaluators for graph machine learning in PyTorch.
- Graph Learning Benchmarks (GLB):https://graphlearning.io/
5. 代碼示例
使用Python和NetworkX分析ACM引文網絡的示例:
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt# 讀取數據
papers = pd.read_csv("Papers.csv") # 論文數據
authors = pd.read_csv("Authors.csv") # 作者數據
citations = pd.read_csv("Paper_Citation.csv") # 論文引用關系# 創建有向圖
G = nx.DiGraph()# 添加論文節點
for _, row in papers.iterrows():G.add_node(row["PaperID"], label="Paper", title=row["Title"])# 添加引用關系
for _, row in citations.iterrows():G.add_edge(row["CitingPaperID"], row["CitedPaperID"], relation="cites")# 繪制引文網絡
plt.figure(figsize=(10, 8))
nx.draw_networkx(G, with_labels=True, node_size=500, font_size=8)
plt.show()
該代碼讀取ACM數據集的論文和引文關系,并用 NetworkX 繪制引文網絡。
數據集特點
- 異構性(Heterogeneity):ACM 數據集包含 論文-作者-會議-研究領域 之間的復雜關系,適用于 異構圖分析。
- 高質量學術數據:數據來源于 ACM、DBLP、Microsoft Academic Graph (MAG) 等權威數據庫,適用于學術網絡分析和推薦系統研究。
- 大規模 & 小規模數據版本:
- 大規模 ACM-MAG 數據集 適用于大規模引文網絡分析(論文數百萬級)。
- 小規模 ACM-DBLP 數據集 適用于 Heterogeneous Graph Neural Networks (HGNN) 研究(論文數萬級)。
- 適用于機器學習 & 深度學習:
- 可用于 論文推薦系統、學術影響力分析、知識圖譜構建。
- 可用于 圖神經網絡(GNN)訓練,如 GCN、GAT、HAN 等。
常用子集
下載地址:ACM Dataset | Papers With Code
ACM數據集包含了發表在KDD、SIGMOD、SIGCOMM、MobiCOMM和VLDB等頂級會議上的論文,并根據研究領域分為三大類:數據庫(Database)、無線通信(Wireless Communication)和數據挖掘(Data Mining)。該數據集構建了一個異質圖(heterogeneous graph),其中包含以下實體和關系:
-
論文(Paper):3025篇論文,每篇論文的特征通過關鍵詞的詞袋模型(bag-of-words)表示。
-
作者(Author):5835位作者,與論文之間存在撰寫關系。
-
主題(Subject):56個主題,與論文之間存在分類關系。
數據集的核心特點:
-
異質圖結構:
-
圖中包含多種類型的節點(論文、作者、主題)和邊(論文-作者、論文-主題)。
-
這種異質圖結構適合用于圖神經網絡(GNN)等圖數據分析任務。
-
-
論文特征:
-
每篇論文的特征通過關鍵詞的詞袋模型表示,即用一組關鍵詞的向量來描述論文內容。
-
這種表示方法適用于文本挖掘、分類和推薦等任務。
-
-
類別劃分:
-
論文被劃分為三大類:數據庫、無線通信和數據挖掘。
-
這種分類信息可用于監督學習任務,如論文分類或領域預測。
-
應用場景:
-
論文分類:基于論文的關鍵詞特征和異質圖結構,對論文進行領域分類。
-
作者推薦:通過分析作者與論文的關系,推薦潛在的合作者。
-
主題挖掘:從論文與主題的關系中挖掘熱門研究領域或趨勢。
-
圖神經網絡研究:作為異質圖的典型數據集,用于驗證圖神經網絡算法的性能。
數據集的挑戰:
-
異質圖復雜性:由于包含多種類型的節點和邊,圖的構建和分析較為復雜。
-
特征稀疏性:詞袋模型表示的關鍵詞特征可能較為稀疏,需要特征工程或嵌入表示來優化。
-
類別不平衡:三大類論文的數量可能不均衡,需注意分類任務中的數據平衡問題。
ACM數據集是學術論文推薦、學術網絡分析和圖機器學習研究的重要數據集,廣泛用于學術社交網絡分析、推薦系統、文本挖掘、知識圖譜等領域。它不僅提供了學術論文的詳細信息,還通過引文、作者和研究領域的關系構建了一個復雜的學術網絡,適用于多種機器學習和數據挖掘任務。