ACM SIGKDD(國際數據挖掘與知識發現大會,KDD)是數據挖掘領域歷史最悠久、規模最大的國際頂級學術會議,也是首個引入大數據、數據科學、預測分析、眾包等概念的會議。
今年,第29屆 KDD 大會于上周在美國加州長灘圓滿結束,大會包含研究方向(Research)和應用數據科學方向(Applied Data Science,ADS)兩個 track,共公布了8篇獲獎論文。
KDD最佳論文獎
研究方向
All in One: Multi-task Prompting for Graph Neural Networks
標題:All in One: 多任務提示用于圖神經網絡
作者:Xiangguo Sun, Hong Cheng, Jia Li, Bo Liu, Jihong Guan
內容:受自然語言處理(NLP)中提示學習的啟發,提示學習在利用先驗知識進行各種NLP任務方面展示了顯著的有效性,我們研究圖形提示的主題,目的是填補預訓練模型和各種圖形任務之間的差距。
在本文中,作者為圖形模型提出了一種新的多任務提示方法。具體來說,首先使用提示詞、詞匯結構和插入模式統一了圖形提示和語言提示的格式。通過這種方式,NLP中的提示想法可以無縫地引入圖形領域。然后,為了進一步縮小各種圖形任務與最先進的預訓練策略之間的差距,作者進一步研究了各種圖形應用的任務空間,并將下游問題重構為圖形級任務。之后,作者引入元學習來有效地學習圖形多任務提示的更好初始化。以便提示框架對不同的任務更可靠和通用。經實驗,結果證明了該方法的優越性。
應用數據科學方向
Improving Training Stability for Multitask Ranking Models in Recommender Systems
標題:改進推薦系統中多任務排序模型的訓練穩定性
作者:Jiaxi Tang, Yoel Drori, Daryl Chang, Maheswaran Sathiamoorthy, Justin Gilmer, Li Wei, Xinyang Yi, Lichan Hong, Ed H. Chi
內容:在本文中,作者分享了對改進YouTube推薦的真實世界多任務排序模型訓練穩定性方面的發現和最佳實踐,展示了導致模型訓練不穩定的一些特性,并猜測原因。此外,根據作者對訓練不穩定點附近的訓練動態的觀察,作者推測為什么現有的解決方案會失敗,并提出了一種新的算法來緩解現有解決方案的局限性。在YouTube生產數據集上的實驗表明,與幾種常用的基線方法相比,所提出的算法可以顯著改善訓練穩定性而不損害收斂性。
KDD最佳學生論文獎
研究方向
Feature-based Learning for Diverse and Privacy-Preserving Counterfactual Explanations
標題:基于特征的學習方法用于生成多樣且保護隱私的反事實解釋
作者:Vy Vo, Trung Le, Van Nguyen, He Zhao, Edwin Bonilla, Gholamreza Haffari, Dinh Phung
內容:可解釋的機器學習旨在理解長期以來因缺乏可解釋性而臭名昭著的復雜黑盒系統的推理過程。一種繁榮的方法是通過反事實解釋,它提供了建議,告訴用戶可以做些什么來改變結果。反事實示例不僅必須反駁黑盒分類器的原始預測,還應滿足實際應用的各種約束。多樣性是討論較少的關鍵約束之一,雖然多樣的反事實解釋是理想的,但同時滿足一些其他約束在計算上具有挑戰性。
此外,針對發布的反事實數據的隱私問題日益受到關注。為此,作者提出了一個基于特征的學習框架,可以有效處理反事實約束,并為有限的私密解釋模型池貢獻自身。作者展示了該方法在生成具有可行性和合理性的多樣反事實解釋方面的靈活性和有效性。與同等容量的對應部分相比,作者的反事實引擎更高效,而重新識別風險也最低。
KDD時間檢驗獎
研究方向
Auto-WEKA: Combined Selection and Hyperparameter Optimization of Classification Algorithms
標題:Auto-WEKA: 分類算法的組合選擇和超參數優化
作者:Chris Thornton ,Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown
內容:存在許多不同的機器學習算法,考慮到每個算法的超參數,總體上有令人難以置信的大量可能的替代方案。作者考慮同時選擇學習算法并設置其超參數的問題,這超越了以前僅單獨解決這些問題的工作。作者表明這個問題可以通過一個完全自動化的方法來解決,利用貝葉斯優化的最新創新。
具體而言,作者考慮了廣泛的特征選擇技術(組合3種搜索方法和8種評估方法)以及WEKA中實現的所有分類方法,跨越2種集成方法、10種元方法、27種基本分類器以及每個分類器的超參數設置。在來自UCI倉庫、KDD Cup 09、MNIST數據集的變體和CIFAR-10的21個流行數據集上,作者展示的分類性能通常比使用標準選擇/超參數優化方法好很多。
應用數據科學方向
Ad Click Prediction: A View From the Trenches
標題:廣告點擊預測:來自第一線的視角
作者:Hugh Brendan McMahan, Gary Holt, David Sculley, Michael Young, Dietmar Ebner, Julian Grady, Lan Nie, Todd Phillips, Eugene Davydov, Daniel Golovin, Sharat Chikkerur, Dan Liu, Martin Wattenberg, Arnar Mar Hrafnkelsson, Tom Boulos, Jeremy Kubica
內容:預測廣告點擊率(CTR)是在數十億美元的在線廣告業中處于核心地位的大規模學習問題。作者介紹了一些案例研究和話題,這些內容來自部署的CTR預測系統的最近實驗。這包括在傳統監督學習框架下的改進,該框架基于FTRL-Proximal在線學習算法(具有出色的稀疏性和收斂特性)以及每坐標學習率。
作者還探討了一些在實際系統中出現但乍一看似乎不在傳統機器學習研究領域內的挑戰。這包括用于內存節省的有用技巧、評估和可視化性能的方法、為預測概率提供置信度估計的實際方法、校準方法以及自動管理特征的方法。本文的目標是強調理論進步與該工業環境下的實際工程之間的密切關系,并展示將傳統機器學習方法應用于復雜動態系統時出現的深層挑戰。
?杰出論文獎
On the Predictive Power of Graph Neural Networks
標題:關于圖神經網絡的預測能力
作者:Weihua Hu
內容:在本論文中,作者旨在通過理解、改進和基準測試GNNs的預測能力來構建強大的預測性GNNs,預測能力指GNNs進行準確預測的能力。本文由三個部分組成。在第I部分中,作者為理解GNNs的預測能力開發了一個理論框架。具體關注表達能力,詢問GNNs是否可以表達期望的圖函數。作者使用理論框架為給定GNN是否足夠強大提供洞見,以對數據中的地面真值目標函數建模。
作者還提出了一個可以證明對圖的大多數函數建模的最大表達能力GNN模型。在配備了設計表達能力強的GNN模型的框架之后,在第II部分中,作者繼續提高它們在未見/未標記的數據上的預測能力,即提高GNNs的泛化能力。出于實際應用的考慮,作者在兩個常見的有限數據場景下開發了提高GNN泛化能力的方法:有限標簽數據和有限邊連接性。最后,在第III部分中,作者創建了新的圖基準數據集,以解決現有基準的問題,并促進社區提高GNN的預測能力。
杰出論文獎(亞軍)
Characterization and Detection of Disinformation Spreading in Online Social Networks
標題:在線社交網絡中虛假信息傳播的特征和檢測
作者:Francesco Pierri
內容:在這項工作中,作者利用網絡和計算機科學方法來解決在線社交網絡中虛假信息傳播的問題。關注Twitter和Facebook,研究在政治選舉和新冠疫情等相關事件期間,虛假信息和其他惡意內容傳播所涉及的機制和參與者,因為公眾此時對可靠信息的需求更高。作者對主流和傳統新聞網站發布的可靠信息與反復被曝光傳播虛假信息、誤導信息、惡作劇、假新聞和極端宣傳的網站傳播的不可靠信息進行了系統性比較。
作者建立了一個回歸模型,考慮了人口統計學、社會經濟和政治因素,發現在線虛假信息與疫苗結果之間存在顯著關聯。最后,基于上述分析的結果,作者部署了一種方法來準確分類Twitter上用戶自然交互的新聞文章。按照用戶根據分享內容塑造不同傳播模式的直覺,訓練和測試現成的機器學習分類器,可以對新聞文章的真實性進行分類,而無需查看其內容。
Efficient and Secure Message Passing for Machine Learning
標題:機器學習的高效和安全的消息傳遞
作者:Xiaorui Liu
內容:機器學習(ML)技術給人類社會帶來了革命性影響,未來它們也將繼續作為技術創新者發揮作用。為了擴大其影響,迫切需要解決機器學習中出現的新興和關鍵挑戰,如效率和安全問題。
本論文的主要目標是通過創新研究和原理方法找出解決這些挑戰的解決方案。特別是,作者提出了多種具有高效消息傳遞的分布式優化算法,以緩解通信瓶頸并加速分布式ML系統中的ML模型訓練。作者還提出了多種安全消息傳遞方案作為圖神經網絡的構建模塊,旨在顯著提高ML模型的安全性和魯棒性。
關注下方《學姐帶你玩AI》🚀🚀🚀
回復“KDD”獲取全部獲獎論文+代碼合集
碼字不易,歡迎大家點贊評論收藏!