論文淺嘗 | 用于文檔級事件關系抽取的稀疏事件表示的判別推理

81fb51f2be556248a527c9543d1720e4.png

筆記整理:鄒銘輝,天津大學碩士,研究方向為自然語言處理

鏈接:https://aclanthology.org/2023.acl-long.897

動機

文檔級事件關系抽取(Document-level Event-Event Relation Extraction,簡稱DERE)旨在從文檔中提取事件之間的關系。相較于傳統的句子級任務(SERE),它涉及更加復雜的長文本理解。為了更好地進行文檔級推理,不同于現有方法通過語言工具構建事件圖,本文工作更關注文檔本身的性質,并且不依賴于任何先驗知識。為了做到這一點,作者強調以下關鍵問題:(1)如何捕捉可能相距較遠的事件依賴關系?(2)考慮到SERE和DERE之間的本質差異,是否應該將所有事件對同等對待?為了解決這些問題,作者提出了一種新穎的DERE模型,該模型學習稀疏的事件表示,用于區分句內和句間推理,即SENDIR(Sparse EveNt representations for Discriminating Intra- and inter-sentential Reasoning)。其基本思想是通過假設同一句子中或跨越多個句子的事件對具有不同的信息密度來區分它們:(1)文檔中的低密度暗示著對不相關信息的稀疏注意。本文模型的模塊1設計了各種類型的注意力機制來學習事件表示,以捕捉遠距離依賴關系。(2)句子中的高密度使得SERE相對較容易。本文模型的模塊2使用不同的權重來強調句內和句間推理的作用和貢獻,從而為聯合建模引入了支持性事件對。大量實驗證明了SENDIR的顯著改進以及各種稀疏注意力在文檔級表示上的有效性。

亮點

本文亮點主要包括:

(1)考慮到DERE和SERE任務的本質差異,提出了區分句內推理和句間推理的想法;

(2)本文提出的SENDIR模型關注文檔本身的性質,而無需任何的先驗知識和外部工具。

模型與方法

ae309ad60a053410e4d2da2c9ff4a225.png

SENDIR旨在學習高質量的事件表示,以促進句內和句間推理。如圖2所示,模型框架有四個主要組件:(1)編碼器(Encoder)用于將文檔編碼為向量,(2)稀疏事件表示學習(SER)根據文檔嵌入進一步學習事件表示,(3)區分句內和句間推理(DIR)基于每對事件表示進行聯合推理,以及(4)分類模塊(Classification)用于進行最終預測。

編碼器(Encoder)

使用BERT和Bi-LSTM對長文檔(超過512個token)進行編碼,具體來說,首先使用BERT對單個句子進行編碼得到每個句子中token的表示,然后使用Bi-LSTM對所有句子的所有token進行編碼。公式如下:

0f259907c55865565c9390d75f3dae83.png

其中Xi=[x1, x2, …, xm]表示第i個包含m個token的句子,H=[?h1, h2, …, hn]表示所有句子的所有n個token的嵌入。

對于事件ei,p,其中i表示第i個事件,p表示句子的索引,定義其嵌入為ei,p = hk,如果事件提及的詞是xk,則該事件在文檔中的位置為k。

稀疏事件表示學習(SER)

SER研究了不同類型的注意力機制,以捕捉句子之間的長距離依賴關系,以獲得高質量的文檔表示,并用于增強事件表示。具體而言,SER首先學習事件特定的句子嵌入ci作為局部上下文(基于事件嵌入與所在句子的句子嵌入計算點積注意力):

202ee2c68a2ff6aee21a793ab53fe927.png

基于這些嵌入,SER再應用稀疏自注意力機制來跳過不相關的信息,以得到全局上下文c'i。特別地,SER引入了六種不同類型的長距離依賴假設。圖2的模型結構圖的左下角可視化展示了不同類型的注意力掩碼。Global→假設前兩個句子中的事件是文檔的核心主題,并且應該看到所有其他事件;Global←假設最后兩個句子中的事件是文檔的結論主題,并且應該看到所有其他事件;Random通常用于增加非局部交互的能力,本文隨機采樣20%的矩陣元素為0,其他為1;Banded假設相關信息僅限于鄰居句子(距離小于3),即每個事件只能看到鄰居句子中的事件;Narrative假設事件大多是按敘述順序描述的,以便前一個事件可以看到后一個事件;Flashback假設事件是按順序寫入的,因此后一個事件應該看到前一個事件。

然后,根據局部和全局上下文定義事件表示e'i為:

c4c5ee4db5275beae710d626482d820b.png

最后,給定一個事件對(ei, ej),定義其表示vi,j為:

c988e2d66c4c51210ed67af8f23909ea.png

區分句內和句間推理(DIR)

上一節定義了基于局部和全局上下文的事件對表示vi,j。在本節中,DIR將它們作為句內特征進行處理,表明尚未考慮從其他句子中獲取事件對以形成推理鏈。為了進一步獲得每對事件的句間特征,DIR首先為每對事件選擇支持事件對,并使用GAU進行信息融合。然后,以不同的權重將兩種類型的特征組合在一起,以區分兩種類型的推理。

首先,假設只有共享至少一個公共事件的事件對才能對推理鏈做出貢獻,而不是使用所有事件對作為支持。基于這一假設,可以為給定的一個事件對(ei, ej)構建一個支持事件對集合T1=[vi,j, vi,1, …, vN,j],然后使用GAU進行推理得到增強后的事件對表示T2=[v'i,j, v'i,1, …, v'N,j]。公式如下:

3bac2d59fa021c640256acde77d69549.png

然后,需要將兩種不同權重的特征組合起來。基本思想是,同一句子內的事件對相對容易預測,并且有很高的置信度。因此,DIR利用句內特征來促進跨不同句子的事件對。為了避免更容易的預測帶來的問題,如果事件對在同一句子內,則給予句內特征更高的權重。相反,對于來自不同句子的事件,則給予句間特征更高的權重,以突出句間推理。最后,對于關系(ei, ej)之間的查詢事件對表示定義如下:

cb498522ef1d4b9b43fa9cf6ea940332.png

其中β1, β2和β3是超參數(本文中分別設置為0.8,?0.2和0),p和q表示事件所在句子的索引。

分類模塊(Classification)

給定事件對的最終表示o,使用線性函數來預測關系,公式如下:

28b038bc6e4b9ccc8b94d7f49d208f22.png

實驗

本文在兩個領域的三個數據集上對模型進行評估。EventStoryLine和Causal-TimeBank是事件因果關系抽取(RE)數據集,而MATRES是事件時間關系抽取數據集。其中,EventStoryLine標注了258份文檔,包含22個主題,共有4,316個句子,5,334個事件提及,7,805個句內事件對,以及46,521個句間事件對。Causal-TimeBank (Causal-TB)標注了184份文檔,包含6,813個事件,和7,608個事件對。MATRES標注了275份文檔,涵蓋了四種時間關系,即BEFORE,AFTER,EQUAL和VAGUE。

本文使用精確率(P)、召回率(R)和F1分數(F1)作為評估指標。

866b3f0e6c19df301a27a33c5c394bd0.png

b44efa0bbe1b2e0534539ff497ff3de4.png

表1和表2分別展示了在EventStoryLine、Causal-TB和MATRES上的整體性能。我們可以看到:(1)SENDIR在EventStoryLine和Causal-TB上取得了更好的F1得分,并且在MATRES上也有競爭力的結果,這證明了模型的有效性和泛化能力。(2)在MATRES上,SENDIR略低于SCS-EERE。因為事件時間關系抽取對事件之間的方向尤為敏感。(3)在表1中,所有模型在句內表現比句間更好。這與本文的論斷一致,即句內關系抽取更容易。(4)特別地,SENDIR在句內具有更高的精確度。因為區分性推理方案減輕了更困難的跨句子推理的負面影響。(5)在句間設置中,改進主要來自更高的召回率。作者將這歸因于增強的遠距離建模能力和支持性的查詢集——它傾向于從更廣泛的上下文和其他事件對中找到關系線索。

3e2befa6612e4d5fd76001de1704c43c.png

為了進一步分析SENDIR,本文還進行了消融分析,以說明主要模塊的有效性。表3展示了消融實驗的結果。

1a4cce74cc2944ff8c6c78ca8ca6af2a.png

為了研究不同的稀疏注意力掩碼對SER(某個特定任務或模型的準確率)的影響,本文使用了以下不同的稀疏注意力掩碼:Narrative、Flashback、Global→、Global←、Random和Banded。從圖4中可以得到以下結論:(1)在句內,這些稀疏注意力掩碼除了Global→外,其他的結果都相似。這與之前的結果一致,即事件對更多地依賴于局部語境而不是遠距離的全局語境。(2)Random意外地表現良好,表明文檔中存在大量冗余信息,而稀疏掩碼矩陣可以減輕噪聲的影響。(3)Narrative取得了最佳性能,這反映了人類寫作習慣中的語言偏好——總是首先談論主題。

總結

本文將一種新穎的具有稀疏事件表示的判別推理方法SENDIR用于DERE。該方法可以學習高質量的事件表示,并促進文檔級理解中的跨句推理。實驗結果表明了方法的有效性,改善了句間情況,而不損害句內事件對。廣泛的分析還為稀疏長文本表示學習中的各種語言偏差提供了有趣的見解。SENDIR的局限性包括以下兩個方面:(1)它尚未擴展到文檔級別的以實體為中心的關系任務。本文工作是以事件為中心的,未來的工作將在實體為中心的情況下進行擴展。文檔級別的以實體為中心的關系抽取需要考慮實體的多次提及以及同一實體對的不同方向上的不同關系。(2)它沒有引入外部常識知識。知識可以用于豐富事件并提高準確的事件關系抽取。


OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

f833813bfd1d2f4726cae04440f605f6.png

點擊閱讀原文,進入 OpenKG 網站。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/162547.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/162547.shtml
英文地址,請注明出處:http://en.pswp.cn/news/162547.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

vite配置proxy代理

如下代碼: "/cygl/api/cyfx" 和 "/cygl/api" 兩個代理配置。 如果將"/cygl/api/cyfx"放到"/cygl/api"的下邊,那么"/cygl/api/cyfx"代理將會失效。 因為他們的前置路徑一樣。會先行匹配掉/cygl/api 在…

【TypeScrpt算法】算法的復雜度分析

算法的復雜度分析 什么是算法復雜度? 不同的算法,其實效率是不一樣的 讓我舉一個案例來比較兩種不同的算法在查找數組中給定元素的時間復雜度 [1,2,3,4,5,6,7,...9999,n] 順序查找 這種方法從頭到尾遍歷整個數組,依次比較每個元素和給定元…

SAP-查看業務變更記錄

一、通過事務碼查詢修改記錄 1、輸入TCODE:AUT10,輸入時間和事務處理代碼,全部搜索輸入*。 2、點擊刷新,對已輸入的條件進行重置。 3、在左側下菜單,選擇要查詢的事務記錄,雙擊,會帶入“事務處…

【nlp】3.2 Transformer論文復現:1. 輸入部分(文本嵌入層和位置編碼器)

Transformer論文復現:輸入部分(文本嵌入層和位置編碼器) 1 輸入復現1.1 文本嵌入層1.1.1 文本嵌入層的作用1.1.2 文本嵌入層的代碼實現1.1.3 文本嵌入層中的注意事項1.2 位置編碼器1.2.1 位置編碼器的作用1.2.2 位置編碼器的代碼實現1.2.3 位置編碼器中的注意事項1 輸入復現…

探索結構體的奧秘

目錄 🍂結構體 1,結構體的聲明 1.1 結構的基礎知識 1.2 結構的聲明 1.3 特殊的聲明 1.4 結構的自引用 1.5 結構體變量的定義和初始化 1.6 結構體內存對齊 1.6.1 如何計算 1.6.2 為什么存在內存對齊 1.7 修改默認對齊數 1.8 結構體傳參 2&am…

3.7寸墨水屏藍牙卡證

超薄機身,厚度不足一厘米,輕松佩戴無負重感。 無需基站,服務器,手機APP直接更新~ 獨創快速掃描技術,智能感應標簽 超長待機,超低功耗,Type C接口充電,一次充電可續航一年&#xf…

極智開發 | 隨機初始化onnx模型權重的方法

歡迎關注我的公眾號 [極智視界],獲取我的更多經驗分享 大家好,我是極智視界,本文分享一下 隨機初始化onnx模型權重的方法。 邀您加入我的知識星球「極智視界」,星球內有超多好玩的項目實戰源碼和資源下載,鏈接:https://t.zsxq.com/0aiNxERDq onnx 模型一直是在算法部署中…

增量有余、后勁不足,星途汽車10月份銷量環比下降3.9%

撰稿|行星 來源|貝多財經 近日,奇瑞集團發布了10月銷量月報。報告顯示,奇瑞集團于2023年10月銷售汽車20.03萬輛,同比增長50.8%,單月銷量首次突破20萬輛;2023年前10個月的累計銷量為145.36輛,同比增長41.6…

C語言運算符詳解

詳細介紹了C語言表達式、算術運算符、賦值運算符、關系運算符、條件結構、邏輯運算符、位運算符的語法和使用方法,并討論了運算符的優先級。 1、表達式與算術運算符 在C語言中,表達式是一個類似數學中的算式,表達式由變量、字面值、常量、運…

【坑】JDK21虛擬線程不支持run方法

【坑】JDK21虛擬線程不支持run方法 run // do nothing java.lang.VirtualThread Overridepublic void start() {start(ThreadContainers.root());}Overridepublic void run() {// do nothing}

vue的模板編譯

Vue如何進行模板編譯 Vue 模板編譯是 Vue.js 在運行時將模板字符串轉換為渲染函數的過程。Vue 模板編譯分為兩個主要步驟: 模板解析: Vue 編譯器將模板字符串解析成一個抽象語法樹(AST,Abstract Syntax Tree)。AST 是…

2023年,人工智能在醫療行業領域的應用場景

本期行業洞察將帶領大家了解人工智能在醫療行業領域的應用,主要了解在患者治療和運營中的應用、人工智能作為預防工具以及大型醫院目前如何使用人工智能。未來的智慧醫療時代已經悄然到來。 人工智能在患者治療和機構運營中的應用 人工智能有望徹底改變醫療護理的…

csapp archlab part 1

part A [rootedb3963640a6 misc]#./yas sum.ys [rootedb3963640a6 misc]# ./yis sum.yo./yas 和 ./yis 是匯編語言編譯器和模擬器的命令行工具。 ./yas 是一個匯編語言編譯器,它將匯編語言代碼轉換為可執行的二進制文件。./yas sum.ys 將sum.ys文件編譯成了sum.yo可…

Mysql 中如何導入數據?

文章目錄 前言使用 LOAD DATA 導入數據使用 mysqlimport 導入數據mysqlimport的常用選項介紹后言 前言 hello world歡迎來到前端的新世界 😜當前文章系列專欄:Mysql 🐱?👓博主在前端領域還有很多知識和技術需要掌握,正…

計算機畢業設計項目選題推薦(免費領源碼)Java+ssm+MYSQL酒店大數據資源管理系統的設計與實現02029

摘要 信息化社會內需要與之針對性的信息獲取途徑,但是途徑的擴展基本上為人們所努力的方向,由于站在的角度存在偏差,人們經常能夠獲得不同類型信息,這也是技術最為難以攻克的課題。針對酒店大數據資源管理系統等問題,對…

發揮云計算潛力:Amazon Lightsail 與 Amazon EC2 的綜述

文章作者:Libai 歡迎來到云計算世界,這里有無數的機會和無限的應用程序增長。 在當今的數字時代,企業可能會發現管理基礎架構和擴展應用程序具有挑戰性。 傳統的本地解決方案需要大量的硬件、軟件和維護前期投資。 要滿足不斷增長的需求&…

3D Slicer使用與體繪制

3D Slicer默認不進行體繪制,右上角的三維重建窗口只顯示一個空的立方體框。要進行體繪制,先切換到體繪制設置窗口: 在體繪制設置窗口中,選擇進行體繪制的DICOM序列,然后將體繪制開關打開(眼睛標志&#xff…

如何快速查找日志?

快速查找日志 在報障處理中&#xff0c;經常會有查日志的情況&#xff0c;快速查找日志&#xff0c;就能快速發現問題。 以下提供我常用的二種查找方式&#xff1a;關鍵詞查找和時間查找。 1.關鍵詞 cat <fileName> | grep 關鍵詞2.按時間順序切割日志文件 sed -n /2023…

Omniverse合成數據生成【城市交通場景】

智慧城市是城市生活的未來。 然而&#xff0c;它們可能給城市規劃者帶來各種挑戰&#xff0c;尤其是在交通領域。 為了取得成功&#xff0c;城市的各個方面—從環境和基礎設施到商業和教育—必須在功能上整合。 這可能很困難&#xff0c;因為單獨管理交通流量是一個復雜的問題…

程序員護城河:保障系統安全與網絡穩定的不可或缺力量

引言&#xff1a; 在當今數字化時代&#xff0c;計算機和互聯網的廣泛應用使得程序員的角色變得越來越重要。作為保障系統安全與網絡穩定的關鍵力量&#xff0c;程序員需要具備一系列的基本能力&#xff0c;同時還需掌握一些專業技術和策略&#xff0c;以確保系統運行的安全性…