文章目錄
- An unsupervised multi-view contrastive learning framework with attention-based reranking strategy for entity alignment
- 摘要
- 1. 引言
- 2. 相關工作
- 2.1. 實體對齊
- 2.2 對比學習中的數據增強
- 3. 問題定義
- 4. 方法論
- 4.1 嵌入初始化
- 4.2 圖譜數據增強
- 4.3 多視圖對比學習
- 4.4. 基于注意力的重排序
- 4.5 多任務學習
- 5 實驗
- 5.1 性能對比
- 5.2. 消融實驗
- 5.3. 深入分析
- 6. 結論
- 本文是對原論文學習過程中的中文翻譯,僅用于學術交流與科普分享,無任何商業目的。
- 翻譯已盡力忠實原文,但受限于譯者水平,可能存在偏差;術語或公式若有疑義,請以原文為準。
- 若原作者、期刊或版權方提出異議,譯者將在收到通知后 24 小時內刪除本文并致歉。
- 歡迎讀者引用原文,并請注明出處
An unsupervised multi-view contrastive learning framework with attention-based reranking strategy for entity alignment
基于注意力重排序策略的無監督多視角對比學習實體對齊框架
AR-Align-NN-2024
摘要
實體對齊是知識圖譜中的關鍵任務,旨在匹配不同知識圖譜中的對應實體。由于現實場景中預對齊實體的稀缺性,無監督實體對齊研究日益受到關注。然而現有方法缺乏信息性實體引導,難以準確預測名稱和結構相似的挑戰性實體。為此,我們提出AR-Align框架——一種融合注意力重排序策略的無監督多視角對比學習方法。該框架采用兩種數據增強技術分別生成鄰域和屬性的互補視圖,通過多視角對比學習縮小增強實體間的語義鴻溝,并創新性地通過計算不同結構上的嵌入相似度加權和,對困難實體進行注意力重排序。實驗表明,AR-Align在三個基準數據集上超越了多數有監督和無監督的先進方法。
1. 引言
知名大規模知識圖譜(KGs),如YAGO和Wikidata,已支撐了諸多下游應用,包括推薦系統、問答平臺以及復雜邏輯推理任務。由于來自不同源知識圖譜的實體可能以不同名稱表示,整合這些知識圖譜面臨重大挑戰。為緩解此問題,實體對齊(EA)已成為關鍵研究領域,促進大規模知識圖譜間的高效協作。
當前EA計算方法通常分為監督與無監督方法。監督EA可進一步分為基于翻譯的方法和基于圖神經網絡的方法。然而,預對齊實體的固有稀缺性導致監督EA難以適應廣泛現實場景,這促使無監督EA日益突出。先前無監督EA方法通常采用優化問題轉換、偽標簽生成和自監督學習來規避對標注數據的需求。
這些監督與無監督EA方法雖取得顯著成功,但仍受困于"困難實體"問題——具有相似名稱和結構的不同實體易被誤對齊。例如,若負樣本與目標實體過于相似,目標實體可能在候選實體中僅排名第二。對比學習中的困難負采樣研究表明,選擇高相似度負樣本可有效增強嵌入的判別性。類似地,監督EA方法采用k近鄰采樣技術選擇負樣本,但該技術需標注數據以避免假陰性,使其在無監督場景中難以實施。現有無監督EA方法主要關注無標簽下的性能提升,常忽視困難實體問題。UPLR和EVA基于語義或視覺相似度的高閾值標準生成偽標簽,雖降低數據噪聲,卻易產生過于簡單的標簽,限制模型識別高相似度不同實體的能力。SelfKG和ICLEA通過負樣本隊列增加負樣本數量,但隊列中添加的數據批次經隨機打亂,導致許多負樣本與錨點實體差異顯著。此類易區分負樣本對模型助益有限。此外,SelfKG和ICLEA受限于單視角樣本,使模型難以學習實體間的細微差異。
基于上述考量,我們提出了一種名為AR-Align的無監督多視角對比學習框架,該框架采用基于注意力的重排序策略來實現實體對齊。為突破現有局限,我們設計了基于注意力的重排序策略以挖掘困難實體。根據注意力分數,每個候選實體的不同嵌入相似度會自動獲得相應權重。這種自適應方法的優勢在于能根據數據特征和top-k排序評估候選實體嵌入的重要性,無需人工干預。隨后通過嵌入相似度的加權和對候選實體重新排序。此外,采用混合操作來避免假陰性樣本。基于注意力的重排序策略使模型能夠通過重排序實體中的困難正樣本和困難負樣本來修正錯誤,從而學習更具判別性的特征。進一步地,我們引入了多視角對比學習框架:通過隨機掩碼鄰居特征和自適應擾動屬性特征生成兩個增強視圖,為實體提供互補信息;采用多視角對比損失函數來最小化增強實體在不同視角下的語義差距。本文主要貢獻可概括為:
-
提出兩種圖數據增強方法(鄰居特征掩碼與自適應屬性擾動)以提供互補信息
-
引入多視角對比學習方法以最小化增強實體跨視角的語義差距
-
開發基于注意力的重排序策略挖掘困難實體,使模型能區分相似實體的細微差異
-
通過在三個基準數據集上與有監督/無監督前沿方法的對比實驗,驗證了AR-Align的有效性
2. 相關工作
2.1. 實體對齊
實體對齊是知識圖譜研究中的關鍵任務,旨在匹配不同知識圖譜中的相同實體。為此已涌現大量方法,主要分為監督式與無監督式兩大方法論。Zhang、Trisedya、Li、Jiang和Qi(2022年)提供了全面綜述與基準測試,系統探討了知識圖譜實體對齊的各種方法與技術。早期監督方法僅關注結構信息,基于翻譯的方法如MTransE和BootEA采用TransE獲取實體表征。基于圖神經網絡的RDGCN設計了關系感知圖卷積網絡來捕捉鄰域結構。CAECGAT通過預對齊種子傳播跨圖譜信息,提出新型上下文對齊增強的跨圖注意力網絡。DuGa-DIT利用圖譜內注意力和跨圖譜注意力層動態捕獲鄰域及跨圖譜對齊特征。RANM提出自適應鄰域匹配策略。AliNet與RPR-RHGT均致力于最小化多跳鄰居噪聲。PEEA將位置信息融入表征學習以解決標注數據不足導致的性能瓶頸。FuAlign采用預訓練模型初始化并引入基于可靠性的穩定匹配。但僅依賴結構信息獲取嵌入表征存在局限。為豐富實體表征,GAEA融合關系信息與數據增強進行基于間隔的對齊學習。EMEA通過鄰居映射提升模型兼容性。STEA利用實體間依賴關系降低自訓練策略中的假陽性噪聲。JAPE、GCN-Align、AttrGNN及MHNA則結合屬性三元組——包含屬性及屬性值,提供更豐富的語義信息。實踐證明整合多樣化附加信息可顯著提升模型性能。多模態模型MCLEA與MEAformer采用對比學習損失函數學習跨模態關系。此外,MEAformer運用元學習與Transformer層動態調整不同模態權重。
監督學習方法依賴于大量預對齊實體,這在實際應用中并不現實。因此,研究者們越來越關注無監督和自監督方法的探索。例如,MultiKE采用跨知識圖譜推理方法來提升對齊性能;AttrE通過計算編輯距離實現半自動謂詞對齊,該方法使模型具備統一的關系嵌入空間,支持結構與屬性嵌入的聯合學習。SEU和UDCEA分別將跨語言實體對齊問題轉化為分配問題和二分圖匹配問題,從而擺脫對監督標簽的依賴。此外,EVA利用圖像特征相似性生成高置信度偽標簽,UPLR則通過非采樣校準策略提升偽標簽質量。上述基于偽標簽的方法聚焦于提升置信度,卻忽視了信息豐富性。對比學習近期被應用于實體對齊領域,其通過最小化正樣本對距離、最大化負樣本對距離來優化實體表征。具體而言,SelfKG和ICLEA采用對比學習與多重負樣本隊列捕獲實體特征。隨著大語言模型(LLM)的興起,部分方法開始運用ChatGPT和BLOOM等模型輔助實體對齊。AutoAlign在LLM支持下構建謂詞鄰近圖,擴展了AttrE的功能,實現了知識圖譜的自動對齊。
2.2 對比學習中的數據增強
數據增強在對比學習中至關重要,其通過對圖結構進行擾動生成兩個差異化視圖以構成正樣本對。為提升圖表示學習效果,現有多種成熟的數據增強方法。例如GraphCL設計了節點丟棄、邊擾動、屬性掩碼和子圖抽取四類圖增強策略;GCA提出自適應增強方法引導模型忽略不重要邊上的噪聲;SAIL通過自增強圖對比學習平滑圖拓撲與節點特征所度量鄰近性的差異。此外,部分數據增強方法融合對抗學習以增強圖表示學習的魯棒性。盡管眾多圖數據增強方法已取得顯著成效,基于對比學習的實體對齊在圖數據增強領域仍有待深入探索。
3. 問題定義
本研究探索無監督標簽的實體對齊(EA)方法。我們將知識圖譜(KG)定義為G={E,R,A,V,TA,TR}G = \left\{ {E,R,A,V,{T}_{A},{T}_{R}}\right\}G={E,R,A,V,TA?,TR?},其中E,R,A,VE,R,A,VE,R,A,V分別表示實體集、關系集、屬性集和值集。TA={T}_{A} =TA?={(e,a,v)∣e∈E,a∈A,v∈V}\{ \left( {e,a,v}\right) \mid e \in E,a \in A,v \in V\}{(e,a,v)∣e∈E,a∈A,v∈V}稱為屬性三元組,TR={(e,r,t)∣e,t∈E,r∈R}{T}_{R} = \{ \left( {e,r,t}\right) \mid e,t \in E,r \in R\}TR?={(e,r,t)∣e,t∈E,r∈R}稱為關系三元組。給定兩個知識圖譜Gs={E,R,A,V,TA,TR}{G}_{s} = \left\{ {E,R,A,V,{T}_{A},{T}_{R}}\right\}Gs?={E,R,A,V,TA?,TR?}和Gt={G}_{t} =Gt?={E′,R′,A′,V′,TA′,TR′}\left\{ {{E}^{\prime },{R}^{\prime },{A}^{\prime },{V}^{\prime },{T}_{A}^{\prime },{T}_{R}^{\prime }}\right\}{E′,R′,A′,V′,TA′?,TR′?},已對齊實體對的集合定義為S={(e,e′)∣e∈E,e′∈E′,e?e′}S = \left\{ {\left( {e,{e}^{\prime }}\right) \mid e \in E,{e}^{\prime } \in {E}^{\prime },e \leftrightarrow {e}^{\prime }}\right\}S={(e,e′)∣e∈E,e′∈E′,e?e′},其中?\leftrightarrow?表示等價關系。實體對齊旨在精準識別等價實體。根據是否使用SSS,這些對齊方法可分為監督式或無監督式。
4. 方法論
我們開發了AR-Align實體對齊框架,采用多視角對比學習機制和基于注意力的重排序策略。如圖1所示,AR-Align包含五個組件:(1)嵌入初始化4.1:通過預訓練語言模型LaBSE初始化實體名稱和屬性;(2)圖譜數據增強4.2:分別通過鄰居特征掩碼和自適應屬性擾動創建兩種增強視圖;(3)多視角對比學習4.3:新型對比學習縮小增強實體不同視圖間的語義差距;(4)基于注意力的重排序4.4:利用嵌入相似度加權和挖掘困難實體的策略;(5)多任務學習4.5:多個損失函數聯合優化查詢編碼器和注意力重排序模塊參數。具體細節如下。
圖1. AR-Align整體架構。包含五個組件:(1)嵌入初始化 (2)圖數據增強 (3)多視圖對比學習 (4)基于注意力的重排序 (5)多任務學習
4.1 嵌入初始化
使用多語言預訓練語言模型進行嵌入初始化,可在無需額外翻譯的情況下保留實體語義信息。因此引入多語言預訓練模型初始化實體名稱和屬性如下:采用LaBSE——基于109種語言大規模語料訓練的模型,提取實體名稱en{e}^{n}en和屬性ea{e}^{a}ea的嵌入表示:
hn=∥fLaBSE?(en)∥2,(1){h}^{n} = {\begin{Vmatrix}{f}_{\text{LaBSE }}\left( {e}^{n}\right) \end{Vmatrix}}_{2}, \tag{1} hn=?fLaBSE??(en)??2?,(1)
ha=∥fLaBSE?(ea)∥2,(2){h}^{a} = {\begin{Vmatrix}{f}_{\text{LaBSE }}\left( {e}^{a}\right) \end{Vmatrix}}_{2}, \tag{2} ha=?fLaBSE??(ea)??2?,(2)
其中fLaBSE?{f}_{\text{LaBSE }}fLaBSE??為LaBSE編碼器,直接用于初始化嵌入而無需微調。∥∥2\parallel {\parallel }_{2}∥∥2?表示L2{L}_{2}L2?范數運算。
4.2 圖譜數據增強
圖譜對比學習中的數據增強通過對輸入圖譜進行操作(如掩碼、去噪、丟棄等)提供互補視圖。為保留鄰域結構和重要屬性語義,我們開發了新型圖譜數據增強方案,包含自適應擾動屬性特征和掩碼鄰居特征。首先為實體e.TRe.{T}_{R}e.TR?構建鄰域子圖和屬性子圖,TA{T}_{A}TA?分別表示關系三元組和屬性三元組。在TR{T}_{R}TR?中,頭尾節點均為實體,邊表示關系。為實體eee構建鄰域子圖時,我們采樣其連接的一定數量實體作為鄰居。在TA{T}_{A}TA?中,頭節點為實體,尾節點為屬性值,邊表示屬性。由于屬性值噪聲較高,我們將其舍棄。此時將屬性視為尾節點,采樣實體eee連接的一定數量屬性構建其屬性子圖。
鄰居特征掩碼。我們隨機選擇實體的鄰居并將其所有特征置零。請注意,此操作保留了完整的拓撲結構而不移除任何邊。給定實體eee在鄰域子圖中的鄰居為Ne={\mathcal{N}}_{e} =Ne?={h1n,h2n,…,hmn}\left\{ {{h}_{1}^{n},{h}_{2}^{n},\ldots ,{h}_{m}^{n}}\right\}{h1n?,h2n?,…,hmn?},新生成的鄰居特征h~in{\widetilde{h}}_{i}^{n}hin?計算如下:
λin~B(1?pτ),?i,{\lambda }_{i}^{n} \sim \mathcal{B}\left( {1 - {p}_{\tau }}\right) ,\forall i, λin?~B(1?pτ?),?i,
h~in={hinλin=10λin=0,(3){\widetilde{h}}_{i}^{n} = \left\{ {\begin{array}{ll} {h}_{i}^{n} & {\lambda }_{i}^{n} = 1 \\ 0 & {\lambda }_{i}^{n} = 0 \end{array},}\right. \tag{3} hin?={hin?0?λin?=1λin?=0?,(3)
其中λn∈Rm×1{\lambda }^{n} \in {\mathbb{R}}^{m \times 1}λn∈Rm×1是從伯努利分布B\mathcal{B}B采樣的二元向量,pτ{p}_{\tau }pτ?表示每個鄰居特征被置零的概率。
自適應屬性擾動。創建增強視圖的過程通常會對實體的某些屬性施加均勻擾動。然而這種方法可能破壞重要屬性特征。我們認為保持重要屬性的完整特征至關重要,而不重要屬性可承受更廣泛的擾動。受GCA中心性度量方法(Zhu等人,2021)啟發,我們采用歸一化的度中心性來評估給定屬性ai{a}_{i}ai?的重要性:
ci=min?(log?(dmax??didmax??μd)?pγ,pγ),(4){c}_{i} = \min \left( {\log \left( \frac{{d}_{\max } - {d}_{i}}{{d}_{\max } - {\mu }_{d}}\right) \cdot {p}_{\gamma },\;{p}_{\gamma }}\right) , \tag{4} ci?=min(log(dmax??μd?dmax??di??)?pγ?,pγ?),(4)
其中di{d}_{i}di?是屬性ai{a}_{i}ai?的總度數(根據包含ai.dmax?{a}_{i}.{d}_{\max }ai?.dmax?的屬性三元組數量計算),μd{\mu }_{d}μd?和ddd分別是ddd的最大值與平均值。pν{p}_{\nu }pν?為擾動比率。給定屬性子圖中實體eee的屬性為Na={h1a,h2a,…,hma}{\mathcal{N}}_{a} = \left\{ {{h}_{1}^{a},{h}_{2}^{a},\ldots ,{h}_{m}^{a}}\right\}Na?={h1a?,h2a?,…,hma?},新生成的屬性特征h~ia{\widetilde{h}}_{i}^{a}hia?計算如下:
λia~B(1?ci),?i,{\lambda }_{i}^{a} \sim \mathcal{B}\left( {1 - {c}_{i}}\right) ,\forall i, λia?~B(1?ci?),?i,
zi~B(1?pσ),?i,(5){z}_{i} \sim \mathcal{B}\left( {1 - {p}_{\sigma }}\right) ,\forall i, \tag{5} zi?~B(1?pσ?),?i,(5)
h~ia={hiaλia=1hia?zi?λia=0,{\widetilde{h}}_{i}^{a} = \left\{ {\begin{array}{ll} {h}_{i}^{a} & {\lambda }_{i}^{a} = 1 \\ {h}_{i}^{a} \cdot {z}_{i}^{\top } & {\lambda }_{i}^{a} = 0 \end{array},}\right. hia?={hia?hia??zi???λia?=1λia?=0?,
其中λa∈Rm×1{\lambda }^{a} \in {\mathbb{R}}^{m \times 1}λa∈Rm×1是從伯努利分布B\mathcal{B}B采樣的二元向量,ci{c}_{i}ci?是每個屬性被擾動的概率。mmm為屬性數量,fff為特征維度。z∈Rm×fz \in {\mathbb{R}}^{m \times f}z∈Rm×f是從伯努利分布B\mathcal{B}B采樣的二元矩陣,pσ{p}_{\sigma }pσ?決定被置零的特征維度比例。
4.3 多視圖對比學習
對比學習通過優化正負樣本對之間的差異來提升性能。如圖1所示,我們提出一種新型多視圖對比學習方法,該方法整合了查詢編碼器和鍵編碼器(各包含鄰域聚合器和屬性聚合器)。值得注意的是,鍵編碼器的參數采用動量更新機制,并利用對比學習損失進行多視圖優化。具體細節如下。
鍵編碼器參數通過動量方式進行更新。此外,采用對比學習損失函數實現多視圖優化。更多細節如下所述。
鄰域聚合器。每個鄰居實體的重要性各不相同。為捕獲實體的鄰域特征,我們采用GAT聚合中心節點相鄰實體的嵌入表示,再通過全連接層將實體名稱嵌入hin{h}_{i}^{n}hin?與鄰域嵌入hise{h}_{i}^{se}hise?相結合。最終鄰域嵌入uise{u}_{i}^{se}uise?計算公式如下:
uise=Ws[hin∥hise]+b,{u}_{i}^{se} = {W}_{s}\left\lbrack {{h}_{i}^{n}\parallel {h}_{i}^{se}}\right\rbrack + b, uise?=Ws?[hin?∥hise?]+b,
hise=∥k=1Kσ(∑j∈NeαijkW1kh~jn),(6){h}_{i}^{se} = {\parallel }_{k = 1}^{K}\sigma \left( {\mathop{\sum }\limits_{{j \in {\mathcal{N}}_{e}}}{\alpha }_{ij}^{k}{W}_{1}^{k}{\widetilde{h}}_{j}^{n}}\right) , \tag{6} hise?=∥k=1K?σ?j∈Ne?∑?αijk?W1k?hjn??,(6)
αij=e(σ(q?[W1h~in∥W1h~jn]))∑l∈Nee(σ(q?[W1h~in∥W1h~ln])),{\alpha }_{ij} = \frac{{e}^{\left( \sigma \left( {q}^{\top }\left\lbrack {W}_{1}{\widetilde{h}}_{i}^{n}\parallel {W}_{1}{\widetilde{h}}_{j}^{n}\right\rbrack \right) \right) }}{\mathop{\sum }\limits_{{l \in {\mathcal{N}}_{e}}}{e}^{\left( \sigma \left( {q}^{\top }\left\lbrack {W}_{1}{\widetilde{h}}_{i}^{n}\parallel {W}_{1}{\widetilde{h}}_{l}^{n}\right\rbrack \right) \right) }}, αij?=l∈Ne?∑?e(σ(q?[W1?hin?∥W1?hln?]))e(σ(q?[W1?hin?∥W1?hjn?]))?,
其中Ne{\mathcal{N}}_{e}Ne?表示實體ei.Ws{e}_{i}.{W}_{s}ei?.Ws?的鄰居集合,W1{W}_{1}W1?是全連接層的可學習權重矩陣,qqq是共享線性變換的權重矩陣,KKK是作為單層前饋神經網絡實現的注意力機制。σ\sigmaσ表示多頭注意力數量,代表LeakyReLU激活函數。
屬性聚合器。在現實世界中,僅依賴實體的鄰居特征是不夠的,因為知識圖譜常包含大量長尾實體,這會限制鄰域信息的可用性。為豐富實體表征,我們使用圖注意力網絡(GAT)獲取屬性嵌入hice{h}_{i}^{ce}hice?。類似地,通過全連接層將實體名稱嵌入hin{h}_{i}^{n}hin?與屬性嵌入hice{h}_{i}^{ce}hice?結合,最終屬性嵌入uice{u}_{i}^{ce}uice?計算公式如下:
uice=Wc[hin∥hice]+b,{u}_{i}^{ce} = {W}_{c}\left\lbrack {{h}_{i}^{n}\parallel {h}_{i}^{ce}}\right\rbrack + b, uice?=Wc?[hin?∥hice?]+b,
hice=∑j∈Naσ(βijh^ja),{h}_{i}^{ce} = \mathop{\sum }\limits_{{j \in {\mathcal{N}}_{a}}}\sigma \left( {{\beta }_{ij}{\widehat{h}}_{j}^{a}}\right) , hice?=j∈Na?∑?σ(βij?hja?),
βij=e(σ(h^ja))∑l∈Nae(σ(h^la)),(7){\beta }_{ij} = \frac{{e}^{\left( \sigma \left( {\widehat{h}}_{j}^{a}\right) \right) }}{\mathop{\sum }\limits_{{l \in {\mathcal{N}}_{a}}}{e}^{\left( \sigma \left( {\widehat{h}}_{l}^{a}\right) \right) }}, \tag{7} βij?=l∈Na?∑?e(σ(hla?))e(σ(hja?))?,(7)
h^ja=W2h~ja,{\widehat{h}}_{j}^{a} = {W}_{2}{\widetilde{h}}_{j}^{a}, hja?=W2?hja?,
其中Na{\mathcal{N}}_{a}Na?表示實體屬性集合,ei.Wc{e}_{i}.{W}_{c}ei?.Wc?是全連接層的可學習權重矩陣,W2{W}_{2}W2?為共享線性變換的權重矩陣,σ\sigmaσ代表LeakyReLU激活函數。最終通過拼接use{u}^{se}use和uce{u}^{ce}uce得到實體融合嵌入uf{u}^{f}uf。
動量更新。我們建立兩個編碼器:查詢編碼器與鍵編碼器。查詢編碼器通過梯度反向傳播在每次訓練迭代中更新參數θq{\theta }_{q}θq?。而鍵編碼器雖與查詢編碼器結構一致,但采用動量更新機制來維持負樣本一致性,其參數θk{\theta }_{k}θk?更新方式如下:
θk=δ×θk+(1?δ)×θq,δ∈[0,1),(8){\theta }_{k} = \delta \times {\theta }_{k} + \left( {1 - \delta }\right) \times {\theta }_{q},\delta \in \lbrack 0,1), \tag{8} θk?=δ×θk?+(1?δ)×θq?,δ∈[0,1),(8)
其中δ\deltaδ為動量超參數。
對比學習。對比學習的優化目標是拉近正樣本對距離、推遠負樣本對距離。給定正樣本對時,負樣本定義為除自身外的所有節點。這些負樣本對可來自視圖內和視圖間實體,損失函數定義如下:
?gcl=?log?es(ui,vi)/τes(ui,vi)/τ+∑j=1,j≠iNes(ui,vj)/τ+∑j=1,j≠iNes(ui,uj)/τ,(9)\begin{array}{l} {\ell }_{\mathrm{{gcl}}} = \\ \; - \log \frac{{e}^{s\left( {{u}_{i},{v}_{i}}\right) /\tau }}{{e}^{s\left( {{u}_{i},{v}_{i}}\right) /\tau } + \mathop{\sum }\limits_{{j = 1,j \neq i}}^{N}{e}^{s\left( {{u}_{i},{v}_{j}}\right) /\tau } + \mathop{\sum }\limits_{{j = 1,j \neq i}}^{N}{e}^{s\left( {{u}_{i},{u}_{j}}\right) /\tau }}, \end{array} \tag{9} ?gcl?=?loges(ui?,vi?)/τ+j=1,j=i∑N?es(ui?,vj?)/τ+j=1,j=i∑N?es(ui?,uj?)/τes(ui?,vi?)/τ?,?(9)
式中s(u,v)s\left( {u,v}\right)s(u,v)為計算相似度的點積操作,τ\tauτ是溫度超參數。uuu與vvv分別代表查詢編碼器和鍵編碼器的輸出。
多對比視圖。為減小實體不同視圖間的語義差距,我們將原始視圖納入對比學習。具體將原始G0n{G}_{0}^{n}G0n?和G0a{G}_{0}^{a}G0a?經查詢編碼器處理得到原始視圖use0{u}^{se0}use0和uce0{u}^{ce0}uce0;增強后的G1n{G}_{1}^{n}G1n?與G1a{G}_{1}^{a}G1a?分別通過查詢編碼器和鍵編碼器處理,獲得增強視圖use1{u}^{se1}use1、uce1,vse{u}^{ce1},{v}^{se}uce1,vse和vce{v}^{ce}vce。這兩組視圖配置如下:
- 原始-增強視圖。use0{u}^{se0}use0與use1{u}^{se1}use1構成鄰域原始-增強對,uce0{u}^{ce0}uce0和uce1{u}^{ce1}uce1組成屬性原始-增強對。原始視圖與增強視圖間的損失計算如下:
?oa=?gcl(use0,use1)+?gcl(uce0,uce1).(10){\ell }_{\mathrm{{oa}}} = {\ell }_{\mathrm{{gcl}}}\left( {{u}^{se0},{u}^{se1}}\right) + {\ell }_{\mathrm{{gcl}}}\left( {{u}^{ce0},{u}^{ce1}}\right) . \tag{10} ?oa?=?gcl?(use0,use1)+?gcl?(uce0,uce1).(10)
- 增強-增強視圖。將use1{u}^{se1}use1和vse{v}^{se}vse視為鄰域增強視圖對,uce1{u}^{ce1}uce1與vce{v}^{ce}vce作為屬性增強視圖對。兩個增強視圖間的損失計算如下:
?aa=?gcl(use1,vse)+?gcl(uce1,vce).(11){\ell }_{\mathrm{{aa}}} = {\ell }_{\mathrm{{gcl}}}\left( {{u}^{se1},{v}^{se}}\right) + {\ell }_{\mathrm{{gcl}}}\left( {{u}^{ce1},{v}^{ce}}\right) . \tag{11} ?aa?=?gcl?(use1,vse)+?gcl?(uce1,vce).(11)
最終,總對比學習損失?cl{\ell }_{\mathrm{{cl}}}?cl?計算公式為:
?cl=?oa+?aa.(12){\ell }_{\mathrm{{cl}}} = {\ell }_{\mathrm{{oa}}} + {\ell }_{\mathrm{{aa}}}. \tag{12} ?cl?=?oa?+?aa?.(12)
4.4. 基于注意力的重排序
相比簡單偽標簽,困難實體能為模型訓練提供更有價值的信息。但由于這些實體與鄰近實體高度相似,模型可能難以將其排在候選集前列。如圖1所示,我們提出基于注意力的重排序策略,通過計算不同結構上嵌入相似度的加權和來挖掘困難實體,具體細節如下。
給定源實體ei{e}_{i}ei?,候選目標實體為Ne′={\mathcal{N}}_{{e}^{\prime }} =Ne′?={e1′,e2′,…,en′}\left\{ {{e}_{1}^{\prime },{e}_{2}^{\prime },\ldots ,{e}_{n}^{\prime }}\right\}{e1′?,e2′?,…,en′?}。每個目標實體包含來自查詢編碼器的三種嵌入:u′f,u′se{u}^{\prime f},{u}^{\prime {se}}u′f,u′se、u′ce{u}^{\prime {ce}}u′ce。各目標實體的新得分r(ek′)r\left( {e}_{k}^{\prime }\right)r(ek′?)計算公式如下:
d(uix,uk′x)=ewkxs(uix,uk′x)∑j=1newjxs(uix,uj′x)s(uix,uk′x),x∈M,(13)d\left( {{u}_{i}^{x},{u}_{k}^{\prime x}}\right) = \frac{{e}^{{w}_{k}^{x}s\left( {{u}_{i}^{x},{u}_{k}^{\prime x}}\right) }}{\mathop{\sum }\limits_{{j = 1}}^{n}{e}^{{w}_{j}^{x}s\left( {{u}_{i}^{x},{u}_{j}^{\prime x}}\right) }}s\left( {{u}_{i}^{x},{u}_{k}^{\prime x}}\right) ,\;x \in \mathcal{M}, \tag{13} d(uix?,uk′x?)=j=1∑n?ewjx?s(uix?,uj′x?)ewkx?s(uix?,uk′x?)?s(uix?,uk′x?),x∈M,(13)
r(ek′)=∑x∈Md(uix,uk′x),r\left( {e}_{k}^{\prime }\right) = \mathop{\sum }\limits_{{x \in \mathcal{M}}}d\left( {{u}_{i}^{x},{u}_{k}^{\prime x}}\right) , r(ek′?)=x∈M∑?d(uix?,uk′x?),
其中wkx{w}_{k}^{x}wkx?為可學習的注意力權重,s(ux,u′x)s\left( {{u}^{x},{u}^{\prime x}}\right)s(ux,u′x)為計算相似度的點積操作,nnn表示候選目標實體數量。集合M={f,se,ce}\mathcal{M} = \{ f,{se},{ce}\}M={f,se,ce}代表三類實體嵌入:鄰域、屬性和融合。集合Ve′={\mathcal{V}}_{{e}^{\prime }} =Ve′?={u1′+,u2′?,…,un′?}\left\{ {{u}_{1}^{\prime + },{u}_{2}^{\prime - },\ldots ,{u}_{n}^{\prime - }}\right\}{u1′+?,u2′??,…,un′??}按得分r(ek′)r\left( {e}_{k}^{\prime }\right)r(ek′?)從高到低重排序,u1′+{u}_{1}^{\prime + }u1′+?作為硬正樣本,其余樣本為硬負樣本。為防止負樣本集中的假陰性,采用混合操作計算如下:
mix?(uj′?)=ξ?uj′?+(1?ξ)u1′+,j∈[2,n],(14)\operatorname{mix}\left( {u}_{j}^{\prime - }\right) = \xi \cdot {u}_{j}^{\prime - } + \left( {1 - \xi }\right) {u}_{1}^{\prime + },\;j \in \left\lbrack {2,n}\right\rbrack , \tag{14} mix(uj′??)=ξ?uj′??+(1?ξ)u1′+?,j∈[2,n],(14)
其中ξ\xiξ為混合超參數。隨后對重排序集Ve′{V}_{{e}^{\prime }}Ve′?應用InfoNCE損失函數(Oord, Li,&Vinyals,2018):
?hcl=?log?e(s(ui,u1′+)/τ)∑k=2ne(s(ui,mix?(uk′?))/τ),(15){\ell }_{\mathrm{{hcl}}} = - \log \frac{{e}^{\left( s\left( {u}_{i},{u}_{1}^{\prime + }\right) /\tau \right) }}{\mathop{\sum }\limits_{{k = 2}}^{n}{e}^{\left( s\left( {u}_{i},\operatorname{mix}\left( {u}_{k}^{\prime - }\right) \right) /\tau \right) }}, \tag{15} ?hcl?=?logk=2∑n?e(s(ui?,mix(uk′??))/τ)e(s(ui?,u1′+?)/τ)?,(15)
其中τ\tauτ為溫度超參數,與公式(9)定義相同。
鑒于實體ek′{e}_{k}^{\prime }ek′?在候選集中的排名越高,其作為目標實體的可能性越大。通過均勻分布自動生成實體ek′{e}_{k}^{\prime }ek′?的權重wkx{w}_{k}^{x}wkx?:
?c=KL(wx∥wt),(16){\ell }_{\mathrm{c}} = \mathrm{{KL}}\left( {{w}^{x}\parallel {w}^{t}}\right) , \tag{16} ?c?=KL(wx∥wt),(16)
其中wt{w}^{t}wt與wx{w}^{x}wx維度相同,其值從均勻分布采樣后按逆序排列。通過最小化wt{w}^{t}wt與wx{w}^{x}wx分布的KL散度,確保wx{w}^{x}wx滿足逆序約束。
4.5 多任務學習
無監督優化過程的總損失定義為?cl,?hcl{\ell }_{\mathrm{{cl}}},{\ell }_{\mathrm{{hcl}}}?cl?,?hcl?與?c{\ell }_{\mathrm{c}}?c?之和:
?total?=?cl+?hcl+?c,(17){\ell }_{\text{total }} = {\ell }_{\mathrm{{cl}}} + {\ell }_{\mathrm{{hcl}}} + {\ell }_{\mathrm{c}}, \tag{17} ?total??=?cl?+?hcl?+?c?,(17)
總損失函數?total?{\ell }_{\text{total }}?total??專為多任務學習設計,可同步優化查詢編碼器與基于注意力的重排序模塊參數。
5 實驗
數據集。采用WK31-15K、DBP15K和DWY100K三個基準數據集評估AR-Align效果。
-
WK31-15K 包含英法、英德兩個跨語言數據集,各含V1和V2兩個版本,其中V2比V1密度更高。
-
DBP15K 包含源自DBpedia的中英、日英、法英三個跨語言數據集。
-
DWY100K 包含DBP-WD和DBP-YG兩個大規模單語數據集,每個知識圖譜均含10萬個對齊實體。
詳細數據集統計信息見表1。
基線方法。我們將提出的方法與監督式和非監督式方法進行對比。對于監督式方法,為便于比較分析,將其分為兩組:第一組僅使用結構信息,包括以下方法:MTransE、BootEA、RDGCN、AliNet、CAEC-GAT、DuGa-DIT、RPR-RHGT、PEEA、RANM以及FuAlign;第二組使用屬性或關系信息作為輸入,包括:JAPE、GCN-Align、MRAEA、AttrGNN、MHNA、EMEA、SDEA、STEA、GAEA、MCLEA和MEAformer。此外,還與MultiKE、AttrE、SEU、EVA、SelfKG、ICLEA、UPLR、UDCEA及AutoAlign等非監督方法進行了比較。
評估指標。與現有研究一致,采用Hit@k(k=1,10)k\left( {k = 1,{10}}\right)k(k=1,10)和MRR(平均倒數排名)作為評估指標。Hit@k表示正確對齊實體位于前kkk候選中的比例,MRR通過公式1N∑i=1N1rank?i\frac{1}{N}\mathop{\sum }\limits_{{i = 1}}^{N}\frac{1}{{\operatorname{rank}}_{i}}N1?i=1∑N?ranki?1?計算倒數排名的平均值(其中NNN代表測試集樣本量)。Hit@k與MRR值越高,表明性能越優。
表1 數據集統計。WK31-15K包含英語(EN)、法語(FR)和德語(DE);DBP15K包含中文(ZH)、日語(JA)、法語(FR)和英語(EN);DWY100K則涉及DBpedia、Wikidata和YAGO3。
表2 DBP15K數據集上的實驗結果。"#“表示使用預訓練語言模型(如LaBSE)作為初始化方法的基線模型。”?\star?"表示使用多模態信息的基線模型。加粗結果為各組別中的最佳結果。
實現細節。AR-Align采用Python和Pytorch框架實現,優化器選用Adam(學習率1e-4),在配備Intel E5-2680 CPU和GPU(3090/24G顯存)的工作站上執行任務。整個實驗過程中,輸入嵌入維度、批大小、訓練輪次、注意力頭數、動量系數δ\deltaδ、溫度參數τ\tauτ、掩碼率pτ{p}_{\tau }pτ?、擾動率pγ{p}_{\gamma }pγ?、維度比率pσ{p}_{\sigma }pσ?及混合系數ξ\xiξ分別設置為768、512、300、1、0.9999、0.08、0.2、0.3、0.9和0.8。為公平對比,所有模型均未使用實體描述作為特征。預訓練語言嵌入統一采用LaBSE(Feng等人,2022)初始化,且不涉及翻譯過程。為高效評估AR-Align,我們使用相似性搜索工具Faiss4{}^{4}4,基于L2{L}_{2}L2?距離度量識別目標知識圖譜中排名1-10的最近鄰實體。實驗中從訓練集劃分5%5\%5%作為驗證集,驗證集表現最佳的模型將用于測試集性能評估。AR-Align源代碼及測試數據詳見:https://github.com/edc3000/AR-Align。
表3 WK31-15K數據集結果。"#"標記表示使用預訓練語言模型(如LaBSE)初始化的基線方法。加粗結果為各組最優值。
5.1 性能對比
表2、表3和表4展示了所有基線的性能表現
表4 DWY100K數據集結果。"#"標記表示使用預訓練語言模型(如LaBSE)初始化的基線。加粗結果為各組最優值。
與無監督方法相比,我們的AR-Align模型在WK31-15K和DWY100K數據集上分別以0.8%-1.2%和0.1%-1.3%的hit@1指標優勢超越次優方法。多模態方法MCLEA和MEAformer在DBP15K的中英(ZH-EN)和日英(JA-EN)語對上表現突出,這證明了多模態信息能有效幫助模型從不同信息視角區分實體。值得注意的是,AR-Align在中英和日英語對上的表現與這些方法相當,在DBP15K的法英(FR-EN)語對上甚至更優,這驗證了我們提出的多視角對比學習和基于注意力的重排序策略的有效性與可比性。SelfKG和ICLEA均采用對比學習,其中ICLEA通過融入關系語義信息和偽對齊對來增強性能,但這些方法受限于單一視角對比。實驗結果表明,AR-Align通過圖數據增強實現了更全面的對比信息利用。EVA和UPLR分別基于視覺/語義相似度的高閾值標準生成偽標簽,這類標簽可能過于簡單且缺乏辨別細微差異的指導信息。AR-Align在三個數據集上均超越UPLR,證明基于注意力的重排序策略能有效通過挖掘困難樣本來提升性能。AttrE和AutoAlign因屬性值噪聲影響嵌入編碼而表現欠佳,但AutoAlign借助ChatGPT和BLOOM等大語言模型實現全自動對齊,在日英語對上優于AttrE,這預示大語言模型為性能提升提供了新方向(如減少人工干預)。
在有監督方法組中,可劃分為兩類:利用結構信息的方法和利用附加信息(如關系與屬性信息)的方法。我們觀察到,附加信息類方法整體表現優于結構信息類。具體而言,多模態方法MEAformer和MCLEA超越了所有其他有監督方法,這歸因于多模態方法能有效整合多種信息類型(如視覺、結構、關系和屬性)。MEAformer采用元學習和Transformer層動態調整不同模態的權重,相比MCLEA取得了更優性能。雖然EVA也是多模態方法,但因缺乏監督標簽和對比學習導致性能下降。值得注意的是,我們的AR-Align在DBP15K的FR-EN數據集上表現與MEAformer相當,這驗證了多視角對比學習和基于注意力的重排序策略的有效性。CAECGAT和DuGa-DIT整合了跨知識圖譜信息,其中DuGa-DIT通過動態更新新預測實體的注意力分數顯著提升性能。PEEA和STEA都致力于解決標注數據不足問題,STEA還利用實體間依賴關系降低假陽性噪聲。我們的AR-Align優于PEEA和STEA,證明了無監督框架和重排序策略的優勢,使模型無需依賴標注數據。此外,通過基于多視角嵌入和top-k排序的重候選實體,該策略有效緩解了假陽性噪聲。
我們進一步發現:(1) 采用LaBSE初始化的基線方法普遍優于其他初始化方法(如GloVe和fastText);(2) LaBSE初始化的有監督方法整體超越使用LaBSE的無監督方法,例如FuAlign和SDEA顯著優于所有LaBSE無監督方法;(3) 其他初始化的有監督方法通常優于采用其他方法的無監督方法,如MultiKE和EVA表現低于其他方法初始化的有監督基線;(4) 有趣的是,LaBSE初始化的無監督方法甚至優于其他初始化的有監督方法。最終如消融實驗5.2所示,LaBSE被證明是最有效的初始化方法。
5.2. 消融實驗
圖數據增強、基于注意力的重排序策略、多視角對比學習和屬性是AR-Align的核心組件。為驗證各組件有效性,我們設計了消融實驗,構建了AR-Align的七個變體:
-
w/o GDA:移除圖數據增強(GDA)模塊
-
w/o AR:移除基于注意力的重排序(AR)模塊
-
w/ SV:排除多視角對比損失?oa{\ell }_{\mathrm{{oa}}}?oa?,僅保留單視角對比學習
-
Arch. only:鑒于屬性信息與重排序模塊的關聯性,同時移除兩者并與w/o AR對比,以評估屬性信息的重要性
-
w/ IL:用迭代學習(IL)替代AR模塊,通過將模型預測作為偽標簽進行連續訓練,以評估AR的相對優勢
-
w/ GloVe:采用GloVe詞嵌入技術初始化實體嵌入,該技術通過共現矩陣和矩陣分解捕獲詞語義信息,作為LaBSE的替代方案
-
采用fastText:fastText是另一種詞嵌入技術,它通過融合子詞信息來增強詞語表征。在本研究中,我們使用預訓練的fastText向量初始化實體嵌入,而非LaBSE。
如表5所示,對比實驗表明,未使用圖數據增強(w/o GDA)時AR-Align的hit@1指標下降0.8%?2.8%{0.8}\% - {2.8}\%0.8%?2.8%。這說明數據增強能通過多視角表征嵌入來提升模型魯棒性。僅使用單一對比視角(w/ SV)時,hit@1下降約1%,證實多對比視角對彌合增強實體間語義鴻溝的重要性。值得注意的是,移除基于注意力的重排序(w/o AR)模塊后,AR-Align性能顯著下降,hit@1最大降幅達5%。而用迭代學習(w/ IL)替代AR模塊時,hit@1下降約2%,凸顯了我們AR模塊的有效性。迭代學習使用模型預測作為偽標簽,這些標簽往往過于簡單化,限制了模型指導效果。為解決此局限,AR模塊通過計算嵌入相似度的加權和來挖掘困難實體,這些實體能幫助AR-Align更有效識別細微差異。當排除屬性信息(標記為Arch. only)時,hit@1下降0.2%-6.8%,表明屬性為實體表征學習提供了全面信息。這些結果證明,圖數據增強、基于注意力的重排序策略、多對比視角和屬性信息共同提升了AR-Align的性能。
表5 AR-Align組件的消融研究。GDA、AR、SV、Arch. only、IL、GloVe和fastText分別代表圖數據增強(graph data augmentation)、基于注意力的重排序(attention-based reranking)、單一對比視圖(single contrastive view)、僅結構(structure only)、迭代學習(iterative learning)、GloVe初始化和fastText初始化。
為探究初始化效果,我們進行實驗:分別用GloVe和fastText替代LaBSE初始化實體表征。如表5所示,采用LaBSE的AR-Align顯著優于GloVe和fastText變體。這驗證了LaBSE的有效性——基于大規模多語料庫訓練且模型復雜度更高的LaBSE,能有效縮小跨語言語義鴻溝,使相似實體在嵌入空間中更緊密。
5.3. 深入分析
掩碼與擾動比例的魯棒性研究。我們對圖數據增強的超參數進行敏感性分析,重點考察掩碼比例pτ{p}_{\tau }pτ?和擾動比例pγ{p}_{\gamma }pγ?對魯棒性的影響。將比例從0.0調整至0.5(零值表示禁用該操作),實驗時固定其中一個參數。如圖2(a)所示,圖數據增強顯著提升模型性能,且比例增大時性能保持穩定,表明AR-Align對圖數據增強超參數不敏感,在參數調整中保持魯棒性。
圖2. 中英數據集上掩碼比例、擾動比例、溫度參數和動量參數的敏感性分析。
溫度與動量的影響。溫度參數τ\tauτ和動量參數δ\deltaδ是多視角對比學習的核心超參數,其中動量值影響負樣本一致性(He等人,2020)。如圖2(b)所示,當動量δ\deltaδ處于0.999至0.9999區間時AR-Align表現良好,且不同動量值均能保持訓練穩定性。最優溫度參數可幫助模型隱式學習困難負樣本(Chen等人,2020)。圖2?顯示,溫度設為0.08左右時性能最佳。
在更具挑戰性的數據集上評估。現實場景中的實體對齊(EA)因大量相似實體的存在而變得復雜。為模擬這種情況,我們創建了中英數據集(ZH-EN)的困難版本:首先通過名稱嵌入計算已對齊實體與其前5個最近鄰實體的平均相似度,按降序排列后,排名靠前的實體與其相鄰實體間的高相似度顯著增加了模型預測難度。據此我們選取前50%,30%{50}\% ,{30}\%50%,30%和10%{10}\%10%比例的實體構建困難版本,其中10%難度級別最具挑戰性。如圖3所示,所有基線模型的hit@1指標相對常規版本均下降,但AR-Align在所有難度級別上持續領先。這種優勢源于我們的注意力重排序(AR)模塊能有效區分困難實體。值得注意的是,UPLR和SelfKG在10%難度級別的hit@1顯著下降,而AR-Align仍保持高效,凸顯其在實際場景的適用性。與無AR\mathrm{{AR}}AR和w/IL\mathrm{w}/\mathrm{{IL}}w/IL的版本相比,性能差距隨難度增加而擴大,分別達到2.7%-4.0%和6.7%-8.8%的差異,證實了AR模塊的優越性。
圖3. 中英數據集上不同難度級別研究。
6. 結論
本文提出基于注意力重排序策略的無監督多視圖對比學習框架AR-Align用于實體對齊。具體而言,輸入數據通過圖增強模塊生成兩種視圖:鄰域增強視圖和屬性增強視圖。通過開發多視圖對比學習機制來縮小增強實體的不同視圖間的語義差距。此外,我們設計基于注意力的重排序策略,通過自動分配權重挖掘困難實體。最終通過優化總體損失獲得實體嵌入向量。在三個基準數據集上的實驗驗證了AR-Align的有效性和泛化能力。
盡管AR-Align表現出色,仍有改進空間。與其他基于語義嵌入的實體對齊方法(Cai, Ma等, 2022; Liu等, 2020; Wang等, 2023; Zhong等, 2022)類似,AR-Align面臨實體名稱缺失的挑戰。為提升普適性,我們計劃開發靈活框架,在可獲得時序數據時利用時間信息(Cai, Mao等, 2022; Liu, Wu, Li, Chen & Gao, 2023)補充缺失的實體名稱。此外,將通過融合視覺信息(Chen等, 2023)增強實體嵌入的區分度。預期改進后的AR-Align將推動未來研究。