本推文對2025年5月出版的數據挖掘領域國際頂級期刊《IEEE Transactions on Knowledge and Data Engineering》進行了分析,對收錄的62篇論文的關鍵詞與研究主題進行了匯總,并對其中的研究熱點進行了深入分析,希望能為相關領域的研究人員提供有價值的參考。
推文作者為鄧鏑,審校為韓煦
一、期刊介紹
IEEE Transactions on Knowledge and Data Engineering(簡稱TKDE)是由IEEE Computer Society出版的一份專注于知識與數據工程領域的學術期刊,每年共出版12期,被歸為中科院二區期刊,目前的影響因子為8.9。如圖1所示,TKDE的最新年度發文量約為905篇,顯著上升,顯示了該期刊的活躍度和對高質量研究的持續需求。?
圖 1 近年來TKDE發文量
TKDE的收稿范圍包括但不限于基于知識和專家系統的知識與數據工程、與知識和數據管理相關的人工智能技術、知識與數據工程工具和技術、分布式知識庫和數據庫處理、實時知識庫和數據庫、基于知識和數據的系統結構、數據管理方法、數據庫設計與建模、查詢、設計與實現語言、完整性、安全性與容錯性、分布式數據庫控制、統計數據庫、系統的集成與建模、算法及其性能評估、數據通信以及這些系統的應用。
期刊官網:https://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=69
二、?熱點分析
本文對該期所收錄的62篇論文進行了系統歸納。圖2為基于本期論文研究熱點生成的詞云圖,表1則總結了全部論文的標題、關鍵詞以及研究主題,旨在為數據挖掘等相關領域的研究人員提供研究方向上的參考。
圖 2 2025年5月TKDE研究熱點詞云圖
表 1 2025年5月TKED論文合集
標題 | 關鍵詞 | 研究主題 |
A Causal-Based Attribute Selection Strategy for Conversational Recommender Systems | 對話推薦系統、因果推理、去混淆、屬性選擇 | 提出了一種基于因果推斷的特征選擇策略,用于會話推薦系統以提升推薦效果。 |
A Novel Expandable Borderline SMOTE Over-Sampling Method for Class Imbalance Problem | 類別不平衡、過采樣、合成樣本、分類 | 提出了一種新型可擴展邊界SMOTE過采樣方法,用于解決類別不平衡問題。 |
A Unified Framework for Bandit Online Multiclass Prediction | 在線學習、多類別分類、帶臂學習、梯度下降 | 提出一個統一框架用于在線多類預測,在探索-利用場景下通過Bandit方法進行預測。 |
A Universal Pre-Training and Prompting Framework for General Urban Spatio-Temporal Prediction | 時空預測、預訓練、提示學習、通用模型 | 針對智慧城市中的時空數據預測,提出一個通用的預訓練加提示學習框架。 |
Adaptive Reliable Defense Graph for Multi-Channel Robust GCN | 圖神經網絡、魯棒性、防御、對抗攻擊 | 提出一種自適應可靠的多通道防御圖,用于提高圖卷積網絡對抗攻擊的魯棒性。 |
An Amortized O(1) Lower Bound for Dynamic Time Warping in Motif Discovery | 時間序列、動態時間規整、模體發現、下界 | 研究了時間序列模式發現中動態時間規整算法的復雜性,并提出了攤銷O(1)下界分析。 |
Build a Good Human-Free Prompt Tuning: Jointly Pre-Trained Template and Verbalizer for Few-Shot Classification | 提示學習、Few-shot、模板學習、Verbalizer | 提出聯合預訓練的模板和Verbalizer方法,實現無人工干預的提示調優用于少樣本分類。 |
CAFE: Improved Federated Data Imputation by Leveraging Missing Data Heterogeneity | 聯邦學習、缺失數據插補、數據異質性、個性化模型 | 提出Cafe框架,通過利用缺失數據的異質性來改進聯邦學習環境下的數據插補效果。 |
CGoFed: Constrained Gradient Optimization Strategy for Federated Class Incremental Learning | 聯邦學習、增量學習、遺忘、梯度優化 | 提出CGoFed策略,在聯邦增量學習中引入受約束的梯度優化,以緩解增量學習中的災難遺忘。 |
CMVC+: A Multi-View Clustering Framework for Open Knowledge Base Canonicalization | 多視圖聚類、知識庫規范化、實體聚類、對比學習 | 提出CMVC+框架,使用多視圖聚類和對比學習對開放知識庫進行實體規范化。 |
Collaboratively Semantic Alignment and Metric Learning for Cross-Modal Hashing | 跨模態檢索、哈希學習、語義對齊、度量學習 | 提出協同語義對齊與度量學習方法,用于提高跨模態哈希檢索的性能。 |
CoLLM: Integrating Collaborative Embeddings Into Large Language Models for Recommendation | 推薦系統、大語言模型、協同過濾、嵌入 | 提出CoLLM框架,將協同過濾嵌入作為獨立模態引入大型語言模型,以增強推薦系統性能。 |
Cross-Graph Interaction Networks | 圖神經網絡、跨圖交互、消息傳遞、鏈接預測 | 提出一種跨圖交互網絡,用于建模不同圖之間的交互關系以提升表示學習能力。 |
Data Optimization in Deep Learning: A Survey | 深度學習、數據增強、樣本加權、數據優化 | 對深度學習中的數據優化技術進行綜述,涵蓋數據增強、數據選擇等方法。 |
Discovery of Temporal Network Motifs | 時間網絡、網絡模體、時間序列、模式發現 | 研究時間網絡模式發現問題,提出新方法挖掘時序網絡中的重復結構。 |
Diversity-Promoting Recommendation With Dual-Objective Optimization | 推薦系統、多樣性、雙目標優化、精度-多樣性平衡 | 針對推薦系統提出雙目標優化模型,同時考慮推薦質量和多樣性,以促進推薦結果的多樣性。 |
“Do as I Can, Not as I Get”: Topology-Aware Multi-Hop Reasoning on Multi-Modal Knowledge Graphs | 知識圖譜、多跳推理、多模態、強化學習 | 提出拓撲感知的多跳推理模型DoAsICan,用于多模態知識圖譜的推理任務。 |
Doing More With Less: A Survey of Data Selection Methods for Mathematical Modeling | 數據選擇、主動學習、數據壓縮、統計建模 | 綜述數學建模中的數據選擇方法,總結在降低數據需求同時提升模型性能的策略。 |
Dual-State Personalized Knowledge Tracing With Emotional Incorporation | 知識追蹤、情緒建模、個性化學習、遷移學習 | 在個性化知識追蹤中引入情感因素,提出雙狀態模型以更準確地預測學習者的知識掌握。 |
Dynamic Ensemble Framework for Imbalanced Data Classification | 集成學習、不平衡數據、數據生成、動態集成 | 提出動態集成框架,通過自適應結合多個分類器來解決不平衡數據的分類問題。 |
Efficient and Accurate Spatial Queries Using Lossy Compressed 3D Geometry Data | 空間查詢、3D幾何、壓縮、GIS、數字孿生 | 提出利用有損壓縮的三維幾何數據來加速空間查詢的方法,提高查詢效率與精度。 |
Efficient PMU Data Compression Using Enhanced Graph Filtering Enabled Principal Component Analysis | PMU數據; 數據壓縮; 圖濾波; 主成分分析 | 提出基于增強圖濾波和主成分分析的高效PMU數據壓縮方法,用于電網監測數據處理。 |
Enhancing Attribute-Driven Fraud Detection With Risk-Aware Graph Representation | 欺詐檢測; 圖表示學習; 風險意識; 屬性分析 | 通過風險感知的圖表示學習方法提升了基于屬性的欺詐檢測性能。 |
Estimating Multi-Label Expected Accuracy Using Labelset Distributions | 多標簽分類; 準確率估計; 標簽分布; 性能評估 | 提出利用標簽集分布來估計多標簽分類任務期望準確率的方法。 |
Few-Shot Knowledge Graph Completion With Star and Ring Topology Information Aggregation | 知識圖譜補全; 少樣本學習; 拓撲信息; 表示聚合 | 引入星形和環形拓撲信息聚合策略,提出少樣本情況下的知識圖譜補全方法。 |
Finding Rule-Interpretable Non-Negative Data Representation | 非負矩陣分解;規則挖掘;可解釋表示;低維表示 | 論文結合規則挖掘與非負矩陣分解方法,構造了一種可解釋的數據低維非負表示,使得每個潛在因子都可通過相應的規則描述,從而提高了表示的可解釋性。 |
From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models | 圖表理解;基礎模型;數據可視化;深度學習 | 回顧了近年來大型基礎模型(如大型語言模型)在自動圖表理解任務中的研究進展,并討論了未來的挑戰與研究方向。 |
GAFExplainer: Global View Explanation of Graph Neural Networks Through Attribute Augmentation and Fusion Embedding | 可解釋性;圖神經網絡;節點屬性增強;融合嵌入 | 提出通過屬性增強和融合嵌入強調節點屬性的新型 GNN 解釋器 GAFExplainer,在保持計算效率的同時提升了解釋的有效性、準確性和可理解性。 |
Generating k-Hop-Constrained s-t Path Graphs | 圖搜索;路徑約束;k跳路徑;圖遍歷?? | 設計一種高效算法生成滿足k跳約束的源-匯路徑圖。? |
Graph Clustering With Harmonic-Maxmin Cut Guidance | 圖聚類;最小割;圖劃分;譜方法?? | 引入Harmonic-Maxmin cut指標優化圖聚類劃分質量。 |
Group-Aware Dynamic Graph Representation Learning for Next POI Recommendation | 下一個興趣點推薦;群組感知推薦;動態圖表示學習 | 提出群組感知動態圖表示學習方法 GDGRL,通過構建融合用戶交互和伙伴影響的動態圖結構學習用戶偏好。 |
Hierarchical Causal Discovery From Large-Scale Observed Variables | 因果發現;大規模觀測變量;因果割集;條件獨立檢驗;因果簇;簇內結構;簇間結構;模型無關;分層學習 | 提出分層因果發現框架 HCD,通過劃分因果簇并行處理并合并結構。 |
Hypergraph Collaborative Filtering With Adaptive Augmentation of Graph Data for Recommendation | 自監督學習;雙圖聯合學習;全局協作關系;多任務優化 | 提出基于超圖的自適應增強協同過濾框架 HCFAA,通過超圖聯合學習捕獲用戶 - 項目圖的全局與局部協作關系并過濾無效邊。 |
Improving Sequential Recommendations via Bidirectional Temporal Data Augmentation With Pre-Training | 序列推薦;數據增強;模型預訓練 | 提出 BARec 方法,通過雙向時序增強和知識增強微調生成保留用戶偏好的偽歷史項。 |
Intent Propagation Contrastive Collaborative Filtering | 意圖傳播;對比學習;協同過濾;推薦系統?? | 提出IPCCF算法,引入意圖傳播機制與對比學習以提升推薦表現。 |
k-Graph: A Graph Embedding for Interpretable Time Series Clustering | 時間序列;聚類;可解釋性 | 通過構建多尺度圖結構提升時間序列聚類的解釋性與精度。 |
Large-Scale Hierarchical Causal Discovery via Weak Prior Knowledge | 因果發現;層次模型;先驗知識;大規模數據 | 提出了一種層次化的因果發現方法,利用弱先驗知識進行搜索約束,有效降低了高維假設空間的復雜度。 |
Learning Location-Guided Time-Series Shapelets | 時間序列分類;連續優化;可解釋性;形狀子序列 | 提出了一種連續優化方法,在多類別問題中提升分類準確性和結果的可解釋性。 |
Model-Agnostic Dual-Side Online Fairness Learning for Dynamic Recommendation | 在線推薦;公平性;雙側學習;用戶公平;物品公平? | 在推薦系統中引入雙側公平優化機制,兼顧用戶與物品的公平性。 |
MTD-DS: An SLA-Aware Decision Support Benchmark for Multi-Tenant Parallel DBMSs | 基準測試;云計算;DBaaS;多租戶;服務等級協議 | 提出MTD-DS基準工具,衡量并行數據庫在多租戶場景下的SLA性能。 |
Multi-View Riemannian Manifolds Fusion Enhancement for Knowledge Graph Completion | 知識圖譜;知識補全;對比學習;雙曲空間;黎曼流形 | 提出MRME-KGC模型,融合多視圖黎曼空間提升知識補全性能。 |
One-Step Adaptive Graph Learning for Incomplete Multiview Subspace Clustering | 不完全多視圖聚類;自適應圖學習;譜嵌入;張量核范數 | 提出 OAGL 方法,通過稀疏初始化、譜嵌入融合及低秩張量學習實現高效聚類。 |
Partitioned Dynamic Hub Labeling for Large Road Networks | 動態最短路徑;索引維護;中心標號? | 基于圖劃分的TDHL擴展方法,提升動態路網查詢與索引更新效率。 |
Pattern Hiding and Authorized Searchable Encryption for Data Sharing in Cloud Storage | 云存儲;數據共享;結果模式隱藏;私集合交集;可搜索加密 | 提出AXT方案,實現加密檢索中對模式隱藏與訪問控制的支持。 |
PipeFilter: Parallelizable and Space-Efficient Filter for Approximate Membership Query | 近似成員查詢;過濾器;流水線并行;數據庫;數據索引 | 提出 PipeFilter 過濾器,通過流水線并行和子過濾器設計提升多平臺處理性能。 |
PipeOptim: Ensuring Effective 1F1B Schedule With Optimizer-Dependent Weight Prediction | 流水線并行;深度神經網絡;權重預測;異步訓練 | 提出PipeOptim機制解決1F1B訓練中的權重不一致與時延問題。 |
Practical Equi-Join Over Encrypted Database With Reduced Leakage | 加密數據庫;等值連接;信息泄露;可驗證計算? | 設計新協議減少等值連接中信息泄漏,同時保持高效連接性能。 |
PRADA: Pre-Train Ranking Models With Diverse Relevance Signals Mined From Search Logs | 排序模型;數據增強;多樣性 | 提出 PRADA 模型,通過局部 / 全局數據增強和生成正樣本挖掘多樣化關聯信號,提升排序模型對稀疏及長尾意圖的處理能力。 |
Probabilistic Learning of Multivariate Time Series With Temporal Irregularity | 概率預測;多變量時間序列;不規則采樣;RNN;歸一化流;神經ODEs | 提出處理時間不規則性的概率模型,提升多變量序列預測性能。 |
REP: An Interpretable Robustness Enhanced Plugin for Differentiable Neural Architecture Search | 神經架構搜索;對抗攻擊;對抗魯棒性;搜索空間;魯棒搜索基元 | 提出 REP 方法,通過采樣魯棒搜索基元與概率增強,提升神經架構搜索模型的對抗魯棒性和準確率法。 |
Rethinking Variational Bayes in Community Detection From Graph Signal Perspective | 變分貝葉斯;社區發現;圖信號處理? | 提出VBPG方法,從圖頻域角度改進社區檢測中的變分推理策略。 |
Scalable Min-Max Multi-View Spectral Clustering | 多視圖聚類;極小極大框架;錨點圖;梯度下降法 | 提出 SMMSC 模型,采用錨點圖和梯度下降法,提升聚類性能與大規模數據適用性。 |
Scalable Multi-View Graph Clustering With Cross-View Corresponding Anchor Alignment | 多視圖學習;圖聚類;錨點對齊;可擴展性 | 提出可擴展聚類方法,通過錨點對齊增強多視圖圖聚類精度。? |
SCHENO: Measuring Schema vs. Noise in Graphs | 圖結構分析;模式識別;圖數據質量? | 提出SCHENO指標用于衡量圖中結構與噪聲的比例,評估圖的有序性。 |
SemSI-GAT: Semantic Similarity-Based Interaction Graph Attention Network for Knowledge Graph Completion | 知識圖譜補全;交互信息;語義相似性采樣;圖注意力網絡 | 提出 SemSI-GAT,結合 BERT 與語義相似性采樣,提升補全性能。 |
Snoopy: Effective and Efficient Semantic Join Discovery via Proxy Columns | 語義連接發現;相似性搜索;代理列;表示學習 | 針對語義連接發現中單元格級方法低效、列級方法效果不足的問題,提出 Snoopy 框架,利用代理列嵌入平衡效率與效果。 |
Spatio-Temporal Multivariate Probabilistic Modeling for Traffic Prediction | 時空建模;多變量建模;概率預測;交通預測? | 構建時空概率模型實現多變量交通流量的準確預測。? |
Style Feature Extraction Using Contrastive Conditioned Variational Autoencoders With Mutual Information Constraints | 風格提取;特征提取;變分自編碼器;對比學習;無監督學習 | 利用對比條件VAE與互信息約束提取無監督數據中的風格特征。? |
TagRec: Temporal-Aware Graph Contrastive Learning With Theoretical Augmentation for Sequential Recommendation | 連續時間序列推薦;圖對比學習;圖神經網絡;數據增強?? | 提出TagRec模型,融合時序感知與圖對比學習提升推薦準確率。 |
TaylorS: A Multi-Order Expansion Structure for Urban Spatio-Temporal Forecasting | 時空預測;泰勒展開;多階導數;城市交通 | 提出了一種稱為 TaylorS 的模型,將泰勒級數展開引入城市時空序列預測,提高了時空序列預測的準確性。 |
Towards Stable and Explainable Attention Mechanisms | 注意力機制;可解釋性;模型穩定性;干預分析? | 提出一種可解釋且魯棒的注意力機制,有助于模型推理透明性。 |
Transfer-and-Fusion: Integrated Link Prediction Across Knowledge Graphs | 知識圖譜;知識遷移;融合;鏈接預測;注意力機制 | 提出了 Transfer-and-Fusion 框架,實現了不同知識圖譜信息的聯合學習,以提升鏈接預測效果。 |
為進一步展示本期研究熱點,本文還對出現頻率前10名的關鍵詞進行了整理,如表2所示。
表 2 2025年5月TKED論文標題高頻詞整理
關鍵詞 | 頻次 |
graph | 20 |
data | 11 |
learning | 10 |
temporal | 7 |
recommendation | 7 |
knowledge | 6 |
clustering | 5 |
prediction | 4 |
gat | 4 |
spatio-temporal | 3 |
基于詞云圖和關鍵詞出現頻次進行分析,當前研究熱點聚焦于圖神經網絡(GNN)的架構與應用拓展,核心體現在以下方向:
圖技術(graph: 20次)是研究中的主導,尤其在時序動態建模(temporal:7次,spatio-temporal:3次)中,支撐著推薦系統(recommendation: 7次)、預測任務(prediction:4次)等關鍵場景。關鍵詞中數據(data:11次)和學習(learning:10次)高頻出現,這表明以數據驅動的深度學習方法正與圖技術深度融合。
結合62篇論文題目和高頻關鍵詞分析,當前研究最熱門的方向集中在如何利用“圖”這種結構來分析復雜關系數據,特別是在隨時間或地點變化的場景(比如推薦下一個要去的地方、預測交通流量)。研究人員非常關注如何讓這些基于圖的技術更實用:一方面是讓它們更快、更省資源(比如研究如何壓縮數據、并行計算),另一方面是讓它們更可靠、更容易理解(比如解釋模型為什么這樣推薦、如何抵御惡意干擾)。
同時,一個顯著趨勢是融合不同的新方法:
- 結合大語言模型:探索用大語言模型理解文本信息,來輔助圖分析,尤其是在推薦系統上,希望結合用戶歷史行為和語言理解做出更精準的推薦。
- 引入因果關系:讓模型不僅能發現關聯,還能理解“原因和結果”,這樣推薦或預測的結果會更合理、更可解釋。
- 處理多種類型數據:研究如何讓模型同時理解和關聯不同類型的數據(比如圖片和描述它的文字),以及如何在數據分散、不完整甚至隱私受限的情況下(通過聯邦學習等技術)共同訓練模型。
?三、總結
總的來說,目前研究致力于讓基于圖的數據分析技術(尤其是處理動態時空數據的)變得更強大、更高效、更可信。核心的方法是融合大語言模型、因果推斷等新方法,并解決多模態數據融合與數據隱私/缺失等實際挑戰,最終目標是讓這些技術在推薦、預測、知識發現等應用上效果取得更好的效果。未來重點也許會放在如何讓這些融合技術更穩定、更透明(可解釋)、更節省資源。