KDD 2023 獲獎論文公布,港中文、港科大等獲最佳論文獎

ACM SIGKDD(國際數據挖掘與知識發現大會,KDD)是數據挖掘領域歷史最悠久、規模最大的國際頂級學術會議,也是首個引入大數據、數據科學、預測分析、眾包等概念的會議。

今年,第29屆 KDD 大會于上周在美國加州長灘圓滿結束,大會包含研究方向(Research)和應用數據科學方向(Applied Data Science,ADS)兩個 track,共公布了8篇獲獎論文。

KDD最佳論文獎

研究方向

All in One: Multi-task Prompting for Graph Neural Networks

標題:All in One: 多任務提示用于圖神經網絡

作者:Xiangguo Sun, Hong Cheng, Jia Li, Bo Liu, Jihong Guan

內容:受自然語言處理(NLP)中提示學習的啟發,提示學習在利用先驗知識進行各種NLP任務方面展示了顯著的有效性,我們研究圖形提示的主題,目的是填補預訓練模型和各種圖形任務之間的差距。

在本文中,作者為圖形模型提出了一種新的多任務提示方法。具體來說,首先使用提示詞、詞匯結構和插入模式統一了圖形提示和語言提示的格式。通過這種方式,NLP中的提示想法可以無縫地引入圖形領域。然后,為了進一步縮小各種圖形任務與最先進的預訓練策略之間的差距,作者進一步研究了各種圖形應用的任務空間,并將下游問題重構為圖形級任務。之后,作者引入元學習來有效地學習圖形多任務提示的更好初始化。以便提示框架對不同的任務更可靠和通用。經實驗,結果證明了該方法的優越性。

應用數據科學方向

Improving Training Stability for Multitask Ranking Models in Recommender Systems

標題:改進推薦系統中多任務排序模型的訓練穩定性

作者:Jiaxi Tang, Yoel Drori, Daryl Chang, Maheswaran Sathiamoorthy, Justin Gilmer, Li Wei, Xinyang Yi, Lichan Hong, Ed H. Chi

內容:在本文中,作者分享了對改進YouTube推薦的真實世界多任務排序模型訓練穩定性方面的發現和最佳實踐,展示了導致模型訓練不穩定的一些特性,并猜測原因。此外,根據作者對訓練不穩定點附近的訓練動態的觀察,作者推測為什么現有的解決方案會失敗,并提出了一種新的算法來緩解現有解決方案的局限性。在YouTube生產數據集上的實驗表明,與幾種常用的基線方法相比,所提出的算法可以顯著改善訓練穩定性而不損害收斂性。

KDD最佳學生論文獎

研究方向

Feature-based Learning for Diverse and Privacy-Preserving Counterfactual Explanations

標題:基于特征的學習方法用于生成多樣且保護隱私的反事實解釋

作者:Vy Vo, Trung Le, Van Nguyen, He Zhao, Edwin Bonilla, Gholamreza Haffari, Dinh Phung

內容:可解釋的機器學習旨在理解長期以來因缺乏可解釋性而臭名昭著的復雜黑盒系統的推理過程。一種繁榮的方法是通過反事實解釋,它提供了建議,告訴用戶可以做些什么來改變結果。反事實示例不僅必須反駁黑盒分類器的原始預測,還應滿足實際應用的各種約束。多樣性是討論較少的關鍵約束之一,雖然多樣的反事實解釋是理想的,但同時滿足一些其他約束在計算上具有挑戰性。

此外,針對發布的反事實數據的隱私問題日益受到關注。為此,作者提出了一個基于特征的學習框架,可以有效處理反事實約束,并為有限的私密解釋模型池貢獻自身。作者展示了該方法在生成具有可行性和合理性的多樣反事實解釋方面的靈活性和有效性。與同等容量的對應部分相比,作者的反事實引擎更高效,而重新識別風險也最低。

KDD時間檢驗獎

研究方向

Auto-WEKA: Combined Selection and Hyperparameter Optimization of Classification Algorithms

標題:Auto-WEKA: 分類算法的組合選擇和超參數優化

作者:Chris Thornton ,Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown

內容:存在許多不同的機器學習算法,考慮到每個算法的超參數,總體上有令人難以置信的大量可能的替代方案。作者考慮同時選擇學習算法并設置其超參數的問題,這超越了以前僅單獨解決這些問題的工作。作者表明這個問題可以通過一個完全自動化的方法來解決,利用貝葉斯優化的最新創新。

具體而言,作者考慮了廣泛的特征選擇技術(組合3種搜索方法和8種評估方法)以及WEKA中實現的所有分類方法,跨越2種集成方法、10種元方法、27種基本分類器以及每個分類器的超參數設置。在來自UCI倉庫、KDD Cup 09、MNIST數據集的變體和CIFAR-10的21個流行數據集上,作者展示的分類性能通常比使用標準選擇/超參數優化方法好很多。

應用數據科學方向

Ad Click Prediction: A View From the Trenches

標題:廣告點擊預測:來自第一線的視角

作者:Hugh Brendan McMahan, Gary Holt, David Sculley, Michael Young, Dietmar Ebner, Julian Grady, Lan Nie, Todd Phillips, Eugene Davydov, Daniel Golovin, Sharat Chikkerur, Dan Liu, Martin Wattenberg, Arnar Mar Hrafnkelsson, Tom Boulos, Jeremy Kubica

內容:預測廣告點擊率(CTR)是在數十億美元的在線廣告業中處于核心地位的大規模學習問題。作者介紹了一些案例研究和話題,這些內容來自部署的CTR預測系統的最近實驗。這包括在傳統監督學習框架下的改進,該框架基于FTRL-Proximal在線學習算法(具有出色的稀疏性和收斂特性)以及每坐標學習率。

作者還探討了一些在實際系統中出現但乍一看似乎不在傳統機器學習研究領域內的挑戰。這包括用于內存節省的有用技巧、評估和可視化性能的方法、為預測概率提供置信度估計的實際方法、校準方法以及自動管理特征的方法。本文的目標是強調理論進步與該工業環境下的實際工程之間的密切關系,并展示將傳統機器學習方法應用于復雜動態系統時出現的深層挑戰。

?杰出論文獎

On the Predictive Power of Graph Neural Networks

標題:關于圖神經網絡的預測能力

作者:Weihua Hu

內容:在本論文中,作者旨在通過理解、改進和基準測試GNNs的預測能力來構建強大的預測性GNNs,預測能力指GNNs進行準確預測的能力。本文由三個部分組成。在第I部分中,作者為理解GNNs的預測能力開發了一個理論框架。具體關注表達能力,詢問GNNs是否可以表達期望的圖函數。作者使用理論框架為給定GNN是否足夠強大提供洞見,以對數據中的地面真值目標函數建模。

作者還提出了一個可以證明對圖的大多數函數建模的最大表達能力GNN模型。在配備了設計表達能力強的GNN模型的框架之后,在第II部分中,作者繼續提高它們在未見/未標記的數據上的預測能力,即提高GNNs的泛化能力。出于實際應用的考慮,作者在兩個常見的有限數據場景下開發了提高GNN泛化能力的方法:有限標簽數據和有限邊連接性。最后,在第III部分中,作者創建了新的圖基準數據集,以解決現有基準的問題,并促進社區提高GNN的預測能力。

杰出論文獎(亞軍)

Characterization and Detection of Disinformation Spreading in Online Social Networks

標題:在線社交網絡中虛假信息傳播的特征和檢測

作者:Francesco Pierri

內容:在這項工作中,作者利用網絡和計算機科學方法來解決在線社交網絡中虛假信息傳播的問題。關注Twitter和Facebook,研究在政治選舉和新冠疫情等相關事件期間,虛假信息和其他惡意內容傳播所涉及的機制和參與者,因為公眾此時對可靠信息的需求更高。作者對主流和傳統新聞網站發布的可靠信息與反復被曝光傳播虛假信息、誤導信息、惡作劇、假新聞和極端宣傳的網站傳播的不可靠信息進行了系統性比較。

作者建立了一個回歸模型,考慮了人口統計學、社會經濟和政治因素,發現在線虛假信息與疫苗結果之間存在顯著關聯。最后,基于上述分析的結果,作者部署了一種方法來準確分類Twitter上用戶自然交互的新聞文章。按照用戶根據分享內容塑造不同傳播模式的直覺,訓練和測試現成的機器學習分類器,可以對新聞文章的真實性進行分類,而無需查看其內容。

Efficient and Secure Message Passing for Machine Learning

標題:機器學習的高效和安全的消息傳遞

作者:Xiaorui Liu

內容:機器學習(ML)技術給人類社會帶來了革命性影響,未來它們也將繼續作為技術創新者發揮作用。為了擴大其影響,迫切需要解決機器學習中出現的新興和關鍵挑戰,如效率和安全問題。

本論文的主要目標是通過創新研究和原理方法找出解決這些挑戰的解決方案。特別是,作者提出了多種具有高效消息傳遞的分布式優化算法,以緩解通信瓶頸并加速分布式ML系統中的ML模型訓練。作者還提出了多種安全消息傳遞方案作為圖神經網絡的構建模塊,旨在顯著提高ML模型的安全性和魯棒性。

關注下方《學姐帶你玩AI》🚀🚀🚀

回復“KDD”獲取全部獲獎論文+代碼合集

碼字不易,歡迎大家點贊評論收藏!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/41002.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/41002.shtml
英文地址,請注明出處:http://en.pswp.cn/news/41002.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

HTTP--Request詳解

請求消息數據格式 請求行 請求方式 請求url 請求協議/版本 GET /login.html HTTP/1.1 請求頭 客戶端瀏覽器告訴服務器一些信息 請求頭名稱: 請求頭值 常見的請求頭: User-Agent:瀏覽器告訴服務器,我訪問你使用的瀏覽器版本信息 可…

藍橋杯每日N題 (消滅老鼠)

大家好 我是寸鐵 希望這篇題解對你有用,麻煩動動手指點個贊或關注,感謝您的關注 不清楚藍橋杯考什么的點點下方👇 考點秘籍 想背純享模版的伙伴們點點下方👇 藍橋杯省一你一定不能錯過的模板大全(第一期) 藍橋杯省一你一定不…

【日常積累】HTTP和HTTPS的區別

背景 在運維面試中,經常會遇到面試官提問http和https的區別,今天咱們先來簡單了解一下。 超文本傳輸協議HTTP被用于在Web瀏覽器和網站服務器之間傳遞信息,HTTP協議以明文方式發送內容,不提供任何方式的數據加密,如果…

09- DMA(DirectMemoryAccess直接存儲器訪問)

DMA 09 、DMA(DirectMemoryAccess直接存儲器訪問)DMA配置流程 09 、DMA(DirectMemoryAccess直接存儲器訪問) DMA配置流程 dma.c文件 main.c文件 詳見《stm32中文參考手冊》表57。

tsconfig.json和jsconfig.json配置

{// 編譯選項"compilerOptions": {// 生成代碼的語言版本:將我們寫的 TS 代碼編譯成哪個版本的 JS 代碼// 命令行: tsc --target es5 11-測試TS配置文件.ts"target": "es5",// 指定要包含在編譯中的 library"lib&quo…

3年 Android 開發的面試心經(后悔當初沒有拿 N+1)

作者:勇闖天涯 當某人順利通過大廠面試時,總會有人認為這是運氣比較好罷了,但他們不曾得知對方之前受過多少苦和委屈,又付出了多少努力一步步去突破這些困境。正是因為他們的努力付出,在合適的時間與地點,用…

SSH連接工具匯總

xshell 這是個熟悉的軟件啦,目前我正在使用Xshell_7 鏈接:https://www.xshell.com/zh/xshell/ FinalShell 國產軟件,有windows和MAC版本;使用方便而且免費,但是軟件比較占用內存。但是都2021年了,筆記本…

AlphaZero能否從圍棋和國際象棋飛躍到量子計算?

一項新的研究表明,DeepMind驚人的游戲算法AlphaZero可以幫助釋放量子計算的力量和潛力。 自兩年多前出現以來,AlphaZero一再證明了其快速學習能力,將自己提升到圍棋,國際象棋和將棋(日本象棋)的特級大師級別…

VHDL記錄

文章目錄 使用function名稱作為“常量”numeric_std包集中使用乘法的注意項variable的使用對于entity設置屬性的方法在entity聲明中嵌入function的定義VHDL仿真讀寫文件File declaration/File handingFile readingFile writing小例子 使用函數 模塊中打印出調試信息 使用functi…

RTC實驗

一、RTC簡介 RTC(Real Time Clock)即實時時鐘,它是一個可以為系統提供精確的時間基準的元器件,RTC一般采用精度較高的晶振作為時鐘源,有些RTC為了在主電源掉電時還可以工作,需要外加電池供電BCD碼,四位二進制表示一位…

Java Persistence APl(JPA)——JPA是啥? SpringBoot整合JPA JPA的增刪改查 條件模糊查詢 多對一查詢

目錄 引出Jpa是啥?Jpa的使用創建實體類寫dao接口類寫服務類 crud增刪改查增加修改根據id刪除全查詢分頁查詢 條件查詢模糊查詢單條件查詢多條件查詢模糊查詢排序查詢 多對一查詢定義實體類auto主鍵策略下新增進行全查詢測試 全部代碼application.yml配置類pom配置文…

Java反射機制是什么?

Java反射機制是 Java 語言的一個重要特性。 在學習 Java 反射機制前,大家應該先了解兩個概念,編譯期和運行期。 編譯期是指把源碼交給編譯器編譯成計算機可以執行的文件的過程。在 Java 中也就是把 Java 代碼編成 class 文件的過程。編譯期只是做了一些…

Python學習筆記第五十二天(Pandas 安裝)

Python學習筆記第五十二天 Pandas 安裝查看安裝版本 安裝驗證后記 Pandas 安裝 安裝 pandas 需要基礎環境是 Python,開始前我們假定你已經安裝了 Python 和 Pip。 使用 pip 安裝 pandas: pip install pandas安裝成功后,我們就可以導入 pandas 包使用&…

iPhone(iPad)安裝deb文件

最簡單的方法就是把deb相關的文件拖入手機對應的目錄,一般是DynamicLibraries文件夾 參考:探討手機越獄和安裝deb文件的幾種方式研究 1、在 Mac 上安裝 dpkg 命令 打包 deb 教程之在 Mac 上安裝 dpkg 命令_xcode打包root權限deb_qq_34810996的博客-CS…

神經網絡基礎-神經網絡補充概念-26-前向和反向傳播

簡單比較 前向傳播(Forward Propagation): 前向傳播是神經網絡中的正向計算過程,用于從輸入數據開始,逐層計算每個神經元的輸出值,直到得到最終的預測值。在前向傳播過程中,我們按以下步驟進行…

驅動DAY4 字符設備驅動分步注冊和ioctl函數點亮LED燈

頭文件 #ifndef __HEAD_H__ #define __HEAD_H__ typedef struct{unsigned int MODER;unsigned int OTYPER;unsigned int OSPEEDR;unsigned int PUPDR;unsigned int IDR;unsigned int ODR; }gpio_t; #define PHY_LED1_ADDR 0X50006000 #define PHY_LED2_ADDR 0X50007000 #d…

一百五十八、Kettle——Kettle各版本及其相關安裝包分享(網盤鏈接,不需積分、不需驗證碼) 持續更新、持續分享

一、目的 最近因為kettle9.3的shim問題看了好多博客,都沒有網盤分享。后來有一位博主分享了kettle9.2的shim安裝包,已經很感謝他,但是是博客分享,下載還需要搞驗證碼下載碼之類的。 kettle9.2的shim安裝包下載好后,一…

圖數據庫_Neo4j基于docker服務版安裝_Neo4j Desktop桌面版安裝---Neo4j圖數據庫工作筆記0004

然后我們來看看如何用docker來安裝Neo4j community server 首先去執行docker pull neo4j:3.5.22-community 去拉取鏡像 然后執行命令就可以安裝了 可以用docker ps查看一下 看看暴露了哪些端口 然后再看一下訪問一下這個時候,要用IP地址了注意 然后再來看一下安裝Desktop 去下…

Sigmastar SSC8826Q 2K行車記錄儀解決方案

一、方案描述 行車記錄儀是智能輔助汽車駕駛,和管理行車生活的車聯網智能終端設備,利用智能芯片處理器、GPS定位、網絡通信、自動控制等技術,將與行車生活有關的各項數據有機地結合在一起。 行車記錄儀如今已經成了必不可少的車載用品之一&…

雙向-->帶頭-->循環鏈表

目錄 一、雙向帶頭循環鏈表概述 1.什么是雙向帶頭循環鏈表 2.雙向帶頭循環鏈表的優勢 3.雙向帶頭循環鏈表簡圖 二、雙向帶頭循環鏈表的增刪查改圖解及代碼實現 1.雙向帶頭循環鏈表的頭插 2.雙向帶頭循環鏈表的尾插 3.雙向帶頭循環鏈表的頭刪 4.雙向帶頭循環鏈表的尾刪…