深度圖學習在分布偏移下的綜述:從圖的分布外泛化到自適應
Northwestern University, USA
Repository
Abstract
圖上的分布變化——訓練和使用圖機器學習模型之間的數據分布差異——在現實世界中普遍存在,并且通常不可避免。這些變化可能會嚴重惡化模型性能,給可靠的圖機器學習帶來重大挑戰。因此,分布變化下的圖機器學習研究激增,旨在訓練模型以在分布外(OOD)測試數據上實現令人滿意的性能。在我們的調查中,我們提供了分布變化下深度圖學習的最新和前瞻性綜述。具體來說,我們涵蓋了三個主要場景:圖OOD泛化(graph OOD generalization),訓練階段的圖OOD自適應(training-time graph OOD adaptation)和測試階段的圖OOD自適應(test-time graph OOD adaptation)。我們正式定義這些問題,并討論各種類型的分布變化,可以影響圖的學習,如Covariate Shifts.。為了更好地理解文獻,我們根據我們提出的分類法對現有模型進行了系統的分類,并研究了背后采用的技術。我們還總結了在這一研究領域中常用的數據集,以方便進一步的調查。最后,我們指出了一些有前景的研究方向及其相應的挑戰,以推動這一重要領域的進一步研究。
Introduction
盡管圖機器學習取得了顯著的成功,但大多數現有方法假設測試數據的分布與訓練數據相同,而這種假設在真實環境中往往不成立。當面對OOD樣本時,圖機器學習方法的性能可能大幅下降,限制了其在金融和醫療等高風險圖應用中的有效性。盡管已有眾多遷移學習方法被提出以應對歐幾里得數據的分布偏移,但直接將這些方法應用于圖數據存在挑戰:
這是由于圖中的實體是相互關聯的,違背了傳統遷移學習方法中獨立同分布(IID)假設。此外,各類圖分布偏移帶來了新的挑戰。這些偏移存在于特征、結構和標簽等不同模態中,表現形式多種多樣,包括圖大小、子圖密度和同配性等的變化。鑒于這些障礙,越來越多的研究致力于提高圖機器學習在分布偏移下的可靠性,主要集中在三個場景:圖的OOD泛化、訓練階段的圖OOD自適應,以及測試階段的圖OOD自適應。
圖的OOD泛化與自適應方法的主要區別
在于對目標數據可用性的假設。
圖的OOD泛化方法通常假設在模型訓練過程中目標數據不可用,旨在提升模型對任何潛在未見測試分布的泛化能力。相反,訓練階段和測試階段的自適應方法則假設目標數據可用,目標是提高模型在該特定目標上的表現。然而,兩者在對源數據的假設和如何利用源分布知識方面有所不同。訓練階段的自適應假設源圖和目標圖同時可用,使得模型可以從頭開始在訓練過程中進行適應;而測試階段的自適應通常假設訪問的是預先在源圖上訓練好的模型,而非源圖本身,然后從該預訓練狀態開始適應目標數據。盡管圖的OOD泛化、訓練階段的OOD自適應和測試階段的OOD自適應密切相關,但目前尚無統一的框架能夠全面探討這三個場景下的深度圖學習在分布偏移下的表現。
該文有異配會加劇結構偏移的結論?