摘要
????????信息提取(IE)旨在從簡單的自然語言文本中提取結構知識。最近,生成型大型語言模型(LLMs)在文本理解和生成方面表現出了顯著的能力。因此,已經提出了許多基于生成范式將LLM集成到IE任務中的工作。為了對IE任務的LLM工作進行全面的系統回顧和探索,在這項研究中,我們調查了該領域的最新進展。我們首先根據各種IE子任務和技術對這些作品進行分類,然后對最先進的方法進行實證分析,發現使用LLM的IE任務的新興趨勢。基于全面的綜述,我們確定了一些技術見解和有前景的研究方向,值得在未來的研究中進一步探索。我們維護一個公共存儲庫,并持續更新GitHub上的相關作品和資源(LLM4IE存儲庫)。
關鍵字?
信息抽取,大型語言模型,綜述
一、簡介
????????信息提取(IE)是自然語言處理(NLP)中的一個關鍵領域,它將純文本轉換為結構化知識(例如,實體,關系和事件),并作為廣泛的下游任務的基本要求,如知識圖構建[1],知識推理[2]和問題回答[3]。典型的IE任務包括命名實體識別(NER),關系提取(RE)和事件提取(EE)[4,5,6,7]。然而,執行IE任務本身就是一項挑戰。這是因為IE涉及從各種來源提取信息,并處理復雜和不斷變化的領域需求[8]。與傳統的NLP任務不同,IE包含廣泛的目標,如實體提取,關系提取等。在IE中,提取目標表現出復雜的結構,其中實體表示為跨度結構(字符串結構),關系表示為三元結構[4]。此外,為了有效地處理不同的信息提取任務,有必要采用多個獨立的模型。這些模型針對每個特定任務單獨訓練,不共享任何資源。然而,這種方法有一個缺點:管理大量的信息提取模型在構建和訓練所需的資源方面變得昂貴,如注釋語料庫。
????????大型語言模型(LLM)的出現,如GPT-4 [9],極大地推動了NLP領域的發展,因為它們在文本理解和生成方面具有非凡的能力[10,11,12]。使用自回歸預測的預訓練LLM允許它們捕獲文本語料庫中的固有模式和語義知識[13,14,15,16、17、18、19]。這增強了LLM執行零次和少次學習的能力,使它們能夠一致地對各種任務進行建模,并作為數據增強的工具[20,21,22]。此外,LLM可以作為復雜任務規劃和執行的智能代理,利用記憶檢索和各種工具來提高效率并成功完成任務[23,24,25,26,27]。因此,最近對采用LLM生成結構信息而不是從純文本中提取結構信息的生成IE方法[28]的興趣激增。這些方法已被證明在現實世界的場景中比區分方法更實用[29,30],因為它們可以處理包含數百萬個實體的模式而不會顯著降低性能[31]。
????????一方面,LLM吸引了研究人員的極大關注,以探索其在IE的各種場景和任務中的潛力。除了在個別IE任務中表現出色外,LLM還具有以通用格式有效建模所有IE任務的卓越能力。這是通過捕捉任務間的依賴性與指導性提示,并實現一致的性能[4,5,32,33,34,35,36]。另一方面,最近的工作已經顯示了LLM的突出概括,不僅通過微調從IE訓練數據中學習[33,33,37,38,39],而且還在少數甚至零拍攝場景中提取信息,僅依賴于上下文示例或指令[40,41,42,43,44]。
????????然而,現有的綜述[8,45,46]并沒有為上述兩組研究工作提供對這些領域的全面探索:1)滿足多種任務的通用框架和 2)針對訓練數據有限的場景的尖端學習技術。社區迫切需要更深入地分析如何將LLM更適當地應用于IE任務,以提高IE字段的性能。這是因為在學習和理解知識方面,將LLM應用于IE仍然存在挑戰和問題[47]。這些挑戰包括自然語言輸出和結構化形式之間的不一致[6],LLM中的幻覺問題[48],上下文依賴性,高計算資源需求[49],更新內部知識的困難[50]等。
圖1 LLM已被廣泛探索用于生成IE。這些研究包括各種IE技術,為單個子任務設計的專門框架,以及能夠同時解決多個子任務的通用框架
????????在本綜述中,我們提供了一個全面的探索LLM的生成式IE,如圖1所示。為了實現這一目標,我們主要使用兩種分類法對現有方法進行分類:(1)眾多IE子任務的分類法,其目的是對可以單獨或統一提取的不同類型的信息進行分類;(2)IE技術的分類法,其對利用LLM進行生成式IE的各種新方法進行分類,特別是在低資源場景下。此外,我們提出了一個專門針對IE技術在各個領域中的應用進行的研究全面的審查。我們還討論了旨在評估和分析用于IE的LLM性能的研究。根據以上劃分,我們構建了一個相關研究的分類系統,如圖2所示。我們還比較了幾種有代表性的方法,以更深入地了解它們的潛力和局限性,并對未來的發展方向進行了有見地的分析。據我們所知,這是第一次對LLM的生成式IE進行調查。
圖2 使用LLM的生成IE研究的分類。由于篇幅所限,有些論文被省略了。
????????本綜述的其余部分組織如下:我們首先介紹了生成IE的定義和所有子任務的目標在第2節。然后,在第3節中,我們介紹了每個任務和通用IE的代表性模型,并比較了它們的性能。在第4節中,我們總結了IE LLM的不同學習技術。此外,我們在第五節介紹了針對特定領域的工作,并在第六節介紹了最近的研究,評估和分析了LLMs在IE任務上的能力。最后,我們提出了未來的研究的潛在的研究方向在第7節。在第8節中,我們提供了最常用的LLM和數據集統計的全面總結,以供研究人員參考。
二、生成式IE的分類
????????在本節中,我們提供了判別式和生成式IE的正式定義,并總結了IE子任務,如[46]所述。本調查主要關注命名實體識別(NER),關系提取(RE)和事件提取(EE)[5,32]的任務,因為這些任務在IE論文中受到最多關注。示例如圖3所示。
圖3不同IE任務的示例
????????(1)對于判別模型,目標是最大化數據的可能性。這涉及到考慮一個帶注釋的句子和一個可能重疊的三元組的集合。
????????另一種區分方法涉及使用針對每個位置i的順序加標簽來生成標簽。對于由n個單詞組成的句子x,基于“BIESO”(開始、內部、結束、單個、外部)表示法模式來注釋n個不同的標簽序列。在模型的訓練期間,目標是通過利用每個位置處的隱藏向量
來最大化目標標簽序列的對數似然:
????????(2)這三種類型的IE任務可以以生成的方式制定。給定輸入文本(例如,句子或文檔)與個標記的序列
、提示符
和目標提取序列
,目標是最大化自回歸公式中的條件概率:
????????其中提供LLM的參數,這些參數可以被凍結或可訓練。在LLM時代,一些作品提出了在
上附加額外的提示或指令
,以增強LLM任務的可理解性[5]。即使輸入文本
保持不變,每個任務的目標序列也會有所不同:
- 命名實體識別(NER)包括兩個任務:實體識別和實體類型化。前一個任務涉及標識實體的范圍,后一個任務側重于為這些已標識的實體分配類型。
- 關系提取(RE)在不同的作品中可能具有不同的設置。我們按照文獻[4,5]使用三個術語對其進行分類:(1)關系分類是指對兩個給定實體之間的關系類型進行分類;(2)關系三元組是指識別關系類型和相應的頭尾實體跨度;(3)關系嚴格是指給出正確的關系類型,跨度和頭尾實體的類型。
- 事件提取(EE)可以分為兩個子任務[151]:(1)事件檢測(在某些作品中也稱為事件觸發器提取)旨在識別和分類最清楚地代表事件發生的觸發詞和類型。(2)事件論元抽取的目的是從句子中識別和分類事件中具有特定角色的論元。
三、不同信息提取任務的LLM
????????在本節中,我們首先介紹IE子任務的相關LLM技術,包括NER(§3.1),RE(§3.2)和EE(§3.3)。我們還進行了實驗分析,以評估各種方法在三個子任務的代表性數據集上的性能。此外,我們將通用IE框架分為兩類:自然語言(NL-LLM)和代碼語言(Code-LLM),以討論它們如何使用統一的范式(§3.4)對三個不同的任務進行建模。
3.1命名實體識別
? ? ? ? nNER是IE的重要組成部分,可以看作是RE和EE的前身或子任務。這也是其他自然語言處理任務中的一項基本任務,因此引起了研究人員的極大關注,以探索低密度脂蛋白時代的新可能性[47,90,91,92,93,94,95,108,122,124,125,126,164,165,172,173,177,179,182]。考慮到序列標注和生成模型之間的差距,GPT-NER[42]將NER轉化為生成任務,并提出了一種自驗證策略來糾正將空輸入錯誤標記為實體的問題。謝等人。[63]提出了一種無需訓練的自改進框架,該框架利用LLM對未標注語料庫進行預測,從而得到偽句示范,從而提高零射擊凈入學率的LLM的性能。
????????表1顯示了從原始論文中獲得的五個主要數據集的NER比較。我們可以觀察到:?
表1 命名實體識別(鑒定和分型)的LLM與Micro-F1指標(%)的比較
?表示該模型是有區別的。我們展示了一些普適的和判別的模型,以供比較。IE技術包括跨域學習(CDL)、零觸發提示(ZS Pr)、上下文學習(ICL)、監督微調(SFT)、數據增強(DA)。單位。表示該模型是否具有普適性。上。5表示OntoNotes 5.0。數據集和主干的詳細信息見第8節。所有后續表格的設置都與此格式一致。
- 1)在少數提示和零提示設置的模型仍然有一個巨大的性能差距背后的SFT和DA。
- 2)盡管主干之間的差異很小,但在ICL范式下,方法之間的性能差異很大。例如,GPT-NER在每個數據集上與其他方法的F1值差距至少為6%,最高可達19%。
- 3)與ICL相比,SFT后不同模型之間的性能只有微小的差異,即使它們的主干中的參數可能相差數百倍。
- 4)使用SFT范式訓練的模型的性能在數據集之間表現出更大的可變性,特別是對于通用模型。例如,YAYI-UIE [155]和KnowCoder [160]在CoNLL 03上的表現分別優于其他模型至少2.89%和1.22%,而與GENIA上的最佳模型相比,分別下降了7.04%和5.55%。我們假設,這種差異可能是由于這些模型在主要來自新聞和社交媒體領域的不同數據集上進行訓練,而GENIA在訓練集中只占一小部分,因為它屬于生物醫學領域;因此,不同領域之間的分配差距很大,最終影響到業績成果。此外,通用模型需要同時訓練多種的子任務,這不可避免地加劇了這種分配差距。
- 5)相反,EnTDA [58]在所有數據集上表現出異常的穩定性并優于其他方法,從而證實了DA范式在解決特定任務時的魯棒性。
3.2關系抽取
????????RE在IE中也起著重要的作用,如第2節所述,IE在不同的研究中通常有不同的設置。如[187]所示,為了解決由于在預防調整數據集中RE的發生率較低而導致的LLM在RE任務上的性能較差問題,QA 4 RE [98]引入了一個框架,通過將RE任務與QA任務對齊來增強LLM的性能。GPT-RE [99]結合了任務感知表示和豐富的表達使用推理邏輯來改進實體和關系之間的低相關性以及無法解釋輸入-標簽映射。由于大量預定義的關系類型和不受控制的LLM,Li等人。[161]提出將LLM與自然語言推理模塊集成以生成關系三元組,增強文檔級關系數據集。
????????如表2和表3所示,我們統計發現,由于學習多任務之間的依賴關系,通用IE模型通常可以更好地解決更困難的關系嚴格問題[4,33],而特定于任務的方法可以解決更簡單的RE子任務(例如關系分類)。此外,與NER相比,很明顯,RE模型之間的性能差異更加明顯,從而突出了LLM在解決RE任務方面的潛力。
表2 關系提取的LLM與“relationstrict”[4] Micro-F1度量的比較(%)。?表示該模型是有區別的
表3 用于關系分類的LLM與Micro-F1度量的比較(%)
3.3事件抽取
????????事件可以定義為特定事件或在給定上下文中發生的事件。最近,許多研究[135,138]旨在通過使用LLM提取事件觸發器和參數來理解事件并捕獲它們的相關性,這對于各種推理任務至關重要[199]。例如,Code4Struct [41]利用LLM將文本轉換為代碼來處理結構化預測任務,使用編程語言功能通過結構和代碼之間的對齊來引入外部知識和約束。考慮到在擴展的上下文中不同論點之間的相互關系,PGAD [137]采用文本擴散模型來創建各種上下文感知的提示表示,通過識別多個角色特定的參數跨度查詢并將其與上下文協調來增強事件級和文檔級事件參數提取。
????????從表4中最近的研究結果可以看出,目前絕大多數方法都是基于SFT范式,只有少數方法使用LLM進行零次或少次學習。此外,生成式方法的性能遠遠優于判別式方法,特別是在參數分類任務的度量方面,表明生成式LLM在EE中具有巨大的潛力。
表4 ACE 05上事件提取的Micro-F1值比較。評估任務包括:觸發器標識(Trg-I)、觸發器分類(Trg-C)、自變量標識(Arg-I)以及自變量分類(Arg-C)?表示該模型是有區別的。
3.4通用信息抽取
????????不同的IE任務差異很大,具有不同的優化目標和特定于任務的模式,需要單獨的模型來處理不同IE任務、設置和場景的復雜性[4]。如圖2所示,許多工作僅僅集中在IE的子任務上。然而,LLM的最新進展導致了幾項研究中提出了一個統一的生成框架[5,32]。該框架旨在對所有IE任務進行建模,捕獲IE的共同能力并學習多個任務之間的依賴關系。Uni-IE的提示格式通常可分為基于自然語言的LLM(NL-LLM)和基于代碼的LLM(代碼-LLM),如圖4所示。
圖4 通用IE的NL-LLM和Code-LLM的提示比較。基于NL和基于代碼的方法都試圖構建一個通用的模式,但它們在提示格式和利用LLM生成功能的方式方面有所不同。此圖取自[5]和[6]。
NL-LLMs:
????????基于自然語言的方法將所有的IE任務統一在一個通用的自然語言模式中。比如說,UIE [4]提出了一個統一的文本到結構生成框架,該框架對提取結構進行編碼,并通過結構化提取語言捕獲常見的IE功能。InstructUIE [5]通過構建用于微調LLM的專家編寫的指令來增強UIE,以一致地建模不同的IE任務并捕獲任務間的依賴性。此外,ChatIE [40]探索了使用LLM(如ChatGPT [200])進行零射擊提示,將任務轉換為多輪問答問題。
Code-LLMs:
????????另一方面,基于代碼的方法通過生成具有通用編程模式的代碼來統一IE任務[41]。Code 4UIE [6]提出了一種通用的檢索擴充代碼生成器框架,它利用Python類來定義模式,并使用上下文學習來生成從文本中提取結構知識的代碼。此外,CodeKGC [159]利用了代碼中固有的結構知識,并采用了模式感知提示和理性增強生成來提高性能。為了使LLM能夠遵循現成的指導方針,GoLLIE [32]通過與注釋指導方針保持一致,增強了對不可見IE任務的零命中能力。
????????一般來說,NL-LLM接受了廣泛的文本訓練,可以理解和生成人類語言,這使得提示和說明更加簡潔,更容易設計。然而,NL_LLM可能會產生不自然的輸出,由于IE任務的獨特語法和結構[159],與訓練數據不同。代碼作為一種形式化的語言,具有跨不同模式準確表示知識的內在能力,這使得它更適合于結構預測[6]。但是基于代碼的方法通常需要大量的文本來定義Python類(參見圖4),這反過來限制了上下文的樣本大小。通過表1、表2和表4中的實驗比較,我們可以觀察到,對于大多數數據集,SFT后的Uni-IE模型在NER、RE和EE任務中優于特定任務模型。
3.5 任務總結
????????在本節中,我們探討了IE中的三個主要任務及其相關的子任務,以及統一這些任務的框架[4]。一個關鍵的觀察結果是生成LLM在NER中的應用越來越多[67,178],這已經取得了顯著的進步,并且仍然是IE中高度活躍的研究領域。相比之下,關系提取和事件提取等任務的應用相對較少,特別是對于嚴格關系提取[39]和僅檢測事件提取[128]。這種差異可能歸因于NER的關鍵重要性,其在各種下游任務中的實用性,以及其相對簡單的結構化輸出,這有助于大規模的監督微調[1]。
????????此外,一個值得注意的趨勢是IE任務的統一模型的出現,利用現代大型模型的一般文本理解能力[4,6,156]。一些研究已經提出了統一的生成框架,捕獲跨IE任務的共同能力,并學習它們之間的依賴關系。這些統一的方法可以大致分為自然語言的方法和基于代碼的方法,每種方法都有不同的優點和局限性。表1、表2、表3和表4中總結的實驗結果表明,通用IE模型通常在更復雜的嚴格關系提取任務上表現更好,因為它們能夠學習多個任務之間的依賴關系。此外,生成方法在事件提取任務中的表現明顯優于判別方法,特別是在參數分類中,突出了生成LLM在這一領域的巨大潛力。
四、生成式IE中LLM的4種技術
????????在本節中,我們根據技術對最近的方法進行分類,包括數據增強(第4.1節,指通過使用LLM對現有數據應用各種轉換來增強信息),提示設計(第4.2節,指使用特定于任務的指令或提示來指導模型的行為)。Zero-shot學習(§4.3,指的是在沒有針對特定IE任務的任何訓練示例的情況下生成答案),約束解碼生成(§4.4,指的是在遵守特定約束或規則的情況下生成文本的過程),少鏡頭學習(§4.5,指的是通過訓練或上下文學習從少量標記的示例中泛化),監督微調(第4.6節,指的是使用標記數據在IE任務上進一步訓練LLM),以突出用于使LLM適應IE的常用方法。
4.1數據增強
????????數據增強涉及生成有意義的和多樣化的數據,以有效地加強培訓示例,同時避免引入不切實際的、誤導性的和偏移的模式。最近強大的LLM在數據生成任務中也表現出了卓越的性能[201,202,203,204,205],這吸引了許多研究人員使用LLM為IE生成合成數據的注意力[44,61,101,127,161,162,163]。根據其技術的不同,可以大致分為四種策略,如圖5所示。
圖5 數據增強方法的比較
數據標注
????????該策略直接使用LLM生成帶標簽的結構數據。例如,Zhang等人[61]提出了LLMaAA,通過在主動學習循環中使用LLMs作為注釋器來提高準確性和數據效率,從而優化注釋和訓練過程。AugURE [101]采用句內對擴充和跨句對抽取來增強無監督RE中正對的多樣性,并引入了句對的邊緣損失。Li等人[161]解決了從長上下文中提取文檔級關系的難題,并提出了一種自動化注釋DocRE的一種推理方法,它將LLM與自然語言推理模塊相結合,以生成關系三元組。
知識檢索
????????該策略有效地從用于IE的LLM中檢索相關信息,這類似于檢索擴充生成(RAG)[206]。PGIM [167]提出了一個多模態NER的兩階段框架,該框架利用ChatGPT作為隱式知識庫,以啟發式方式檢索輔助知識,從而實現更高效的實體預測。Amalvy等人[59]提出通過生成合成上下文檢索訓練數據集并訓練神經上下文檢索器來提高長文檔的NER。Chen等人。[166]專注于多模態NER和RE的任務,并展示了他們通過采用一系列包含不同方面的CoT提示來增強常識推理技能的方法,包括名詞,句子和多模態輸入。此外,他們還采用了數據增強技術,如樣式、實體和圖像操作,以進一步提高性能。
反向生成
????????該策略鼓勵學習者通過利用作為輸入提供的結構化數據來生成自然的文本或問題,這與學習者的培訓范式相一致。例如,SynthIE [168]表明,LLM可以通過反轉任務方向為復雜任務創建高質量的合成數據,并訓練優于以前基準的新模型。星星[100]不是依賴于限制可推廣性和可擴展性的地面事實目標,而是從有效的觸發器和參數生成結構,然后通過設計細粒度的指令,錯誤識別和迭代修訂來生成LLM的段落。為了解決在保留實體的同時保持文本連貫性的難題,EnTDA [58]提出了一種涉及操縱原始文本的實體列表的方法。此操作包括添加、刪除、替換或交換實體。并進一步引入分集波束搜索來增強實體到文本生成過程中的分集。
用于微調的合成數據集
????????這個策略涉及到通過查詢LLM來生成一些數據以進行預調優。通常情況下,這些數據是由一個更強大的模型生成的,用于微調對話中的指令,然后提取到一個更小的模型中,使其也能夠獲得更強的零觸發能力[64,67,84]。例如,UniversalNER [64]探索了以任務為中心的指令調整的目標蒸餾,以訓練在開放式NER中表現出色的學生模型,該模型使用ChatGPT作為教師模型,并將其蒸餾成較小的UniversalNER模型。GNER [67]提出了負面實例的整合,通過引入上下文信息和改進標簽邊界來增強現有方法。作者使用Pile-NER訓練了他們的模型,Pile-NER是一個數據集,包括13 K個不同實體類別的大約240 K個實體,這些實體從Pile語料庫中采樣[207],并使用ChatGPT進行處理以生成實體。結果表明,在不可見實體域中,零觸發性能得到了改善。
4.2提示設計
????????提示工程是一種用于增強LLM能力而不改變其網絡參數的技術[49,208,209,210,211,212]。它需要利用任務特定的指令,稱為提示,來指導模型的行為[13,213,214]。快速設計的實踐已在各種應用中證明是成功的[215,216,217,218]。毫無疑問,有效的提示設計對于提高LLM在IE任務上的表現也起著至關重要的作用。在本節中,我們將根據不同的策略對提示設計方法進行分類,并詳細解釋這些技術背后的潛在動機:
問答(QA)
????????LLM使用基于對話的方法[219,220]進行預調,與IE任務的結構化預測要求相比,這會產生差距。因此,最近已經努力采用QA提示方法來增強LLM并更無縫地促進所需結果的生成[40,90,96,98,108]。例如,QA 4 RE [98]發現LLM往往在RE上表現不佳,因為用于訓練它們的預防調整數據集具有較低的RE任務發生率,因此建議將RE重新定義為多項選擇QA,以利用預防調整數據集中QA任務的較高流行率。Li等人。[96]分析了現有RE提示的局限性,并提出了一種稱為summarize-andask提示的新方法,該方法使用LLM遞歸地將零拍攝RE輸入轉換為有效的QA格式。它還顯示出在提取超過搭接關系,有效應對非以上關系的挑戰。ChatIE [40]提出了一個兩階段框架,將零鏡頭IE任務轉換為多輪QA問題。框架最初識別不同類型的元素,然后對每個識別的元素類型執行順序IE過程。每個階段都采用了多輪次QA流程,其中使用模板和先前提取的信息構建提示。
思想鏈(CoT)
????????CoT [221]是一種與LLM一起使用的提示策略,通過提供逐步和連貫的推理鏈作為指導模型響應生成的提示來增強其性能。CoT提示近年來得到了關注[222],并且正在進行研究探索其對IE任務的有效性[43,91,166,169,170,171]。LLtNER [43]將LLM與基于LtNER的邏輯學和實體定義相結合。它提示LLM根據提供的實體類型定義生成潛在實體及其解釋的列表。Bian等人。[171]提出了一種使用LLM改善生物醫學NER的兩步法。他們的方法涉及利用CoT使LLM能夠以逐步的方式處理生物醫學NER任務,將其分解為實體跨度提取和實體類型確定。Yuan等人。[170]還提出了CoT提示作為兩階段方法來指導ChatGPT執行時態RE任務的時態關系推理。
自我完善
????????雖然COT技術可以部分地引出LLM的推理能力,但LLM仍不可避免地會產生事實錯誤。因此,已經有一些努力[63,73,144]采用LLM進行迭代自我驗證和自我改進,旨在糾正結果。例如,Xie等人[63]提出了一個無需訓練的自我提升框架,該框架包括三個主要步驟。首先,LLM對未標注語料進行預測,通過自一致性生成自標注數據集。其次,作者探索了不同的策略來選擇可靠的注釋。最后,在推理過程中,從可靠的自標注數據集中檢索出示例,用于上下文學習。ProgGen [73]涉及引導LLM在特定領域內進行自我反思,從而生成領域相關屬性,有助于創建富含屬性的訓練數據。此外,ProgGen采用了一種主動策略,通過預先生成實體術語并圍繞這些實體構建NER上下文數據,從而規避了LLM在處理復雜結構時所面臨的挑戰
4.3 Zero-shot學習
????????零觸發學習的主要挑戰包括確保模型可以有效地推廣到它沒有訓練過的任務和領域,同時還要將LLM的預訓練范式與這些新任務相匹配。由于嵌入了大量的知識,LLM在看不見的任務的零射擊場景中顯示出令人印象深刻的能力[40,223]。為了在IE任務中實現LLM的零射擊跨域泛化,已經提出了幾項工作[5,32,64]。這些工作為各種IE任務和領域建模提供了一個通用框架,并引入了創新的培訓提示,例如,指令[5]和指南[32],用于學習和捕獲已知任務的任務間依賴性,并將其推廣到未知任務和域。對于跨類型泛化,BART-Gen [130]引入了一個文檔級神經模型,將EE任務框定為條件生成,從而提高對未知事件類型的性能和強大可移植性。
????????另一方面,為了提高LLM在零鏡頭提示下的能力(不需要微調),QA4RE [98]和ChatIE [40]提出將IE轉換為多輪問答問題,以便將其與QA任務對齊,這是解釋調整數據集的主要任務。Li等人。[96]集成了思想鏈方法,并提出了總結和詢問提示,以解決確保黑盒LLM輸出可靠性的挑戰[62]。
4.4約束解碼生成
????????LLM是預先訓練的模型,最初是在預測序列中的下一個令牌的任務上訓練的。這種預訓練使研究人員能夠利用這些模型的優勢來完成各種NLP任務[8,224]。然而,LLM主要是為生成自由形式的文本而設計的,并且可能在只有有限的輸出集有效的結構化預測任務上表現不佳。
????????為了應對這一挑戰,研究人員探索了使用約束生成來更好地解碼[4,123,174,175]。自回歸LLM中的約束解碼生成是指在遵守特定約束或規則的同時生成文本的過程[225,226,227]。例如,Geng等人。[174]提出使用語法約束解碼作為控制LM生成的解決方案,確保輸出遵循給定的結構。作者引入了依賴于輸入的語法來增強靈活性,允許語法依賴于輸入,并為不同的輸入生成不同的輸出結構。與以前的方法不同,Zaratiana等人。[123]引入了一種新的方法,通過生成一個線性圖來提取實體和關系,其中節點表示文本跨度,邊表示關系三元組。他們使用了一個Transformer編碼器/解碼器體系結構,該體系結構具有指向機制和動態的跨度和關系類型詞匯表,以捕獲結構特征和邊界,同時將輸出建立在原始文本中
4.5?Few-shot學習
????????Few-shot學習只能訪問有限數量的標記示例,導致過度擬合和難以捕獲復雜關系等挑戰[228]。幸運的是,與小型預訓練模型相比,擴大LLM的參數為它們提供了驚人的泛化能力,使它們能夠在少量設置中實現出色的性能[43,91]。Paolini等人[33]提出了增強自然語言框架之間的翻譯; Lu等人[4]提出了文本到結構生成框架; Chen等人[60]提出了NER的協作域前綴調優。這些方法已經實現了最先進的性能,并證明了在少數拍攝設置的有效性。盡管LLM取得了成功,但由于序列標記和文本生成模型之間的差異,它們在免訓練IE中面臨挑戰[187]。為了克服這些限制,GPT-NER [42]引入了自我驗證策略,而GPT-RE [99]增強了任務感知表示并將推理邏輯納入豐富的演示中。這些方法有效地展示了如何利用GPT進行上下文學習。CODEIE [36]和CodeKGC [159]表明,與NL-LLM相比,將IE任務轉換為具有代碼風格提示和上下文示例的代碼生成任務會導致上級性能。這是因為代碼樣式的提示提供了更有效的結構化輸出表示,使它們能夠有效地處理了自然語言中的復雜依賴關系。
4.6 監督微調
????????使用所有訓練數據來微調LLM是最常見和最有前途的方法[88,110,111,113,129,141,143,229,230,231,232,233],它允許模型捕獲數據中的潛在結構模式,并很好地推廣到看不見的樣本。例如,DEEPRECT [151]在一組任務不可知的語料庫上引入了結構預訓練,以增強對語言模型的結構理解。UniNER [64]探索了有針對性的蒸餾和以任務為中心的教學調整,以訓練學生模型用于廣泛的應用,如NER。GIELLM [34]使用混合數據集對LLM進行微調,收集這些數據集是為了利用相互強化效應來提高多個任務的性能。
4.7 技術總結
????????數據增強[61,101]是一個廣泛探索的方向,因為它在提高模型性能方面具有潛力。LLM擁有廣泛的隱含知識和強大的文本生成能力,使其非常適合數據注釋任務[222]。然而,雖然數據增強可以擴展訓練數據集并提高模型泛化能力,但它們也可能引入噪聲。例如,知識檢索方法可以提供關于實體和關系的額外上下文,豐富提取過程。然而,噪聲可能會降低提取信息的整體質量[94,167]。
????????另一方面,設計有效的提示仍然是利用LLM(如GPT-4)的重大挑戰。雖然QA對話和CoT [104]策略等方法可以增強LLM的IE功能,但純粹基于人工智能的方法仍然落后于較小模型的監督微調。監督微調[5,64,67],包括跨域和少量學習,通常會產生更好的性能,這表明將用于數據注釋的大規模LLM與使用額外數據的監督微調相結合可以優化性能并降低手動注釋成本[68,95,164]。總之,雖然使用LLM的各種IE技術提供了明顯的優勢,但它們也帶來了挑戰。正確地結合這些策略可以顯著增強IE任務。
五、在特定領域的應用
????????不可否認的是,LLM在從一些特定領域提取信息方面具有巨大的潛力,例如多模態[57,94,166,167],多語言[83,133,163],醫學[85,91,162,163,171,172,179,183,184,185,186,187,188,189,234,235],科學[47,80,180,181,182],天文[164,173],歷史[126,189],和法律的[78,89,115]。此外,我們在表5中提供了統計數據。例如,Chen等人。[166]介紹了一種條件提示蒸餾方法,該方法通過將文本圖像對與LLM的思想鏈知識相結合來增強模型的推理能力,從而顯著提高了多模態NER和多模態RE的性能。Tang等人。[162]探索了LLM在臨床文本挖掘領域的潛力,并提出了一種新型訓練方法,該方法利用合成數據來提高性能并解決隱私問題。Dunn等人。[180]提出了一種序列到序列的方法,通過使用GPT-3從復雜的科學文本中聯合NER和RE,證明了其在材料化學中提取復雜的科學知識有效性。Shao等人[173]探索了使用LLM從天體物理學期刊文章中提取天文知識實體。傳統的方法遇到的困難,如體力勞動和有限的普遍性。為了解決這些問題,作者提出了一種包含五個提示元素和八個組合提示的提示策略,旨在專門針對天體標識符和望遠鏡名稱作為感興趣的實驗對象。Gonz 'alez等人。[189]研究了ChatGPT在NER任務中的表現,特別是在歷史文本上。該研究不僅將ChatGPT與其他最先進的基于語言模型的系統進行了比較,還深入研究了在這種零觸發設置中遇到的挑戰。研究結果揭示了歷史文本中實體識別的局限性,包括與注釋指南,實體復雜性,代碼轉換和提示的特異性有關的問題。
表5 特定領域的研究統計
六、 評價與分析
????????盡管LLM在各種自然語言處理任務中取得了巨大成功[236,237],但它們在信息提取領域的表現仍有改進的空間[193]。為了緩解這個問題,最近的研究已經探索了LLM在IE的主要子任務方面的能力,即,[2019 - 12 - 19][2019 - 09 - 19][2019 - 11 - 19][2019 - 09 - 11][2019 - 09 - 11][2019 - 019] 19 - 019 01:考慮到LLM的上級推理能力,Xie等人[190]提出了四種NER的推理策略,旨在模擬ChatGPT在零射擊NER上的潛力。Wadhwa等人。[169]探索了LLM在RE中的使用,發現GPT 3的幾次提示可以達到接近SOTA的性能,而Flan-T5可以通過GPT-3生成的思維鏈風格解釋來改進。對于EE任務,Gao等人。[191]表明,由于需要復雜的指令和缺乏魯棒性,ChatGPT仍然在努力解決這個問題。
????????沿著這條路線,一些研究人員通過同時評估多個IE子任務對LLM進行了更全面的分析。Li等人。[195]評估了ChatGPT在IE上的整體能力,包括性能,可解釋性,校準和忠誠度。他們發現ChatGPT在標準IE設置中的表現大多比基于BERT的模型差,但在OpenIE設置中表現出色。此外,Han等人。[193]引入了一種軟匹配策略以進行更精確的評估,并將“未注釋的跨度”確定為主要錯誤類型,突出了數據注釋質量的潛在問題。
七、未來方向
????????針對生成式IE的LLM的開發仍處于早期階段,并且存在許多改進的機會。
通用IE
????????“以前的生成式IE方法和基準測試通常是針對特定領域或任務量身定制的,限制了它們的可推廣性[51]。盡管最近提出了一些使用線性線性插值法的統一方法[4],但它們仍然受到一定的限制(例如,長上下文輸入和結構化輸出的未對準)。因此,進一步開發能夠靈活適應不同領域和任務的通用IE框架(如集成任務特定模型的見解以輔助構建通用模型)是一個很有前景的研究方向。
低資源IE
????????在資源有限的情況下,具有LLM的生成式IE系統仍然會遇到挑戰[195]。有必要進一步探索在語境中學習法,特別是在改進范例的選擇方面。未來的研究應優先發展穩健的跨領域學習技術[5],如領域適應或多任務學習,以利用來自資源豐富領域的知識。此外,還應探索使用LLM的有效數據注釋策略。
IE的提示設計
????????設計有效的指令被認為對LLM的性能有著十分重要的影響[224,238]。提示設計的一個方面是構建可以更好地與LLM的預訓練階段(例如,代碼生成)[6]。另一個方面是優化提示以用于更好的模型理解和推理(例如,Chain-of-Thought)[96],通過鼓勵邏輯學習者進行邏輯推理或可解釋的生成。此外,研究人員還可以探索交互式提示設計(如多圈QA)[98],其中LLM可以迭代地對自動生成的提取進行改進或提供反饋。
開放IE
????????開放的IE設置對IE模型提出了更大的挑戰,因為它們不提供候選標簽集,并且僅僅依賴于模型理解任務的能力。LLM憑借其知識和理解能力,在一些Open IE任務中具有顯著優勢[64]。然而,在更具挑戰性的任務中,仍然存在表現不佳的情況[28],這需要研究人員進一步探索。
8、基準和骨干
8.1代表性數據集
表6 一些代表性IE數據集的總結
????????在本節中,我們分別介紹了NER、RE和EE的代表性數據集,并在表6中對每個數據集進行了簡要總結,以幫助讀者更好地理解這些任務。
CoNLL 03
????????CoNLL 03 [239]是NER的代表性數據集,包括1,393篇英語新聞和909篇德語新聞。語料庫的英文部分來源于路透社策劃的共享任務數據集。該數據集包含四種不同實體類型的注釋:PER(人員)、LOC(位置)、ORG(組織)和MISC(包括所有其他類型的實體)。
CoNLL 04
????????CoNLL 04 [240]是用于RE任務的眾所周知的基準數據集,包括從新聞文章中提取的句子,每個句子包含至少一個實體-關系三元組。它有四種實體(PER、ORG、LOC、OTH)和五種關系(Kill、Work For、Live In、OrgBased In、Located In)。
ACE 05
????????自動內容提取05 [241]被廣泛認可并用于IE任務。它作為一種有價值的資源,用于評估自動化系統在從各種文本源(包括新聞文章、采訪、報告等)中提取結構化信息方面的功效。此外,該數據集涵蓋了廣泛的流派,包括政治、經濟、體育等。特別是對于ACE 05中的EE任務,它包含599個新聞文檔,這些文檔封裝了33個不同的事件類型和22個參數角色。
8.2性能指標評測
????????如表7所示,我們編制了一個涵蓋各個領域和任務的基準測試的綜合集合,為研究人員提供了一個有價值的資源,他們可以根據需要查詢和參考。此外,我們還總結了我們的開源存儲庫(LLM4IE存儲庫)中每個數據集的下載鏈接。
表7 信息提取常用數據集統計
* 表示數據集是多模態的。#是指類別或句子的數量。表中的數據部分引用自InstructUIE [192]
8.3骨干
????????我們簡要介紹了一些在生成式信息抽取領域中常用的主干,如表8所示
表8 生成式信息提取的公共主干
我們標記了常用的基本版本和大版本,以便更好地參考。
九、結論
????????在本次調查中,我們首先介紹了IE的子任務,并討論了一些通用的框架,目的是使用LLM統一所有IE任務。另外的理論和實驗分析為這些方法提供了有見地的探索。然后,我們深入研究了將LLM應用于IE的不同IE技術,并展示了它們在特定領域提取信息的潛力。最后,我們分析了當前的挑戰,并提出了潛在的未來方向。我們希望這項調查可以為研究人員提供一個有價值的資源,以探索更有效地利用LLM 來解決 IE。