AI推介-信息抽取（information extraction,NER）論文速覽（arXiv方向）：2023.08.01-2024.10.15

文章目錄～

1.Reconstructing Materials Tetrahedron: Challenges in Materials Information Extraction
2.Utilizing Contextual Clues and Role Correlations for Enhancing Document-level Event Argument Extraction
3.Benchmarking Large Language Models with Augmented Instructions for Fine-grained Information Extraction
4.Guideline Learning for In-context Information Extraction
5.GoLLIE: Annotation Guidelines improve Zero-Shot Information-Extraction
6.PrIeD-KIE: Towards Privacy Preserved Document Key Information Extraction
7.Multimodal Question Answering for Unified Information Extraction
8.Fine-tuning and aligning question answering models for complex information extraction tasks
9.Comprehensive Overview of Named Entity Recognition: Models, Domain-Specific Applications and Challenges
10.A Survey of Document-Level Information Extraction
11.Localize, Retrieve and Fuse: A Generalized Framework for Free-Form Question Answering over Tables
12.Named Entity Recognition via Machine Reading Comprehension: A Multi-Task Learning Approach
13.LMDX: Language Model-based Document Information Extraction and Localization
14.Contextual Label Projection for Cross-Lingual Structured Prediction
15.Improving Information Extraction on Business Documents with Specific Pre-Training Tasks
16.Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty
17.A Comparative Analysis of Pretrained Language Models for Text-to-Speech
18.Zero-shot information extraction from radiological reports using ChatGPT
19.mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view Contrastive Learning
20.MT4CrossOIE: Multi-stage Tuning for Cross-lingual Open Information Extraction
21.Slot Induction via Pre-trained Language Model Probing and Multi-level Contrastive Learning
22.UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition
23.Explaining Relation Classification Models with Semantic Extents
24.Learning Implicit Entity-object Relations by Bidirectional Generative Alignment for Multimodal NER

1.Reconstructing Materials Tetrahedron: Challenges in Materials Information Extraction

標題:重建材料四面體：材料信息提取面臨的挑戰

author:Kausik Hira, Mohd Zaki, Dhruvil Sheth, Mausam, N M Anoop Krishnan

date Time:2023-10-12

paper pdf:http://arxiv.org/pdf/2310.08383v3

摘要：
幾個世紀以來，新材料的發現推動了人類的進步。材料的性能是其組成、結構和特性的函數，而這些又進一步取決于其加工和測試條件。深度學習和自然語言處理領域的最新發展，使得從同行評議出版物、書籍和專利等已出版文獻中大規模提取信息成為可能。然而，這些信息以表格、文本和圖像等多種格式傳播，報告風格幾乎沒有統一性，這給機器學習帶來了一些挑戰。在此，我們討論、量化并記錄了從材料科學文獻中進行自動信息提取（IE）以創建大型材料科學知識庫所面臨的挑戰。具體來說，我們重點關注從文本和表格中進行信息提取，并通過實例概述了幾項挑戰。我們希望目前的工作能激勵研究人員以連貫一致的方式應對挑戰，為實現材料知識庫的 IE 開發提供動力。

2.Utilizing Contextual Clues and Role Correlations for Enhancing Document-level Event Argument Extraction

標題:利用上下文線索和角色關聯加強文檔級事件論據提取

author:Wanlong Liu, Dingyi Zeng, Li Zhou, Yichen Xiao, Weishan Kong, Malu Zhang, Shaohuan Cheng, Hongyang Zhao, Wenyu Chen

publish:pre-submission

date Time:2023-10-08

paper pdf:http://arxiv.org/pdf/2310.05116v4

摘要：
文檔級事件論據提取是信息提取領域中一項重要而又具有挑戰性的任務。目前的主流方法主要關注事件觸發器與其論據之間的信息交互，面臨著兩個局限：上下文交互不足和對事件相關性的忽略。在此，我們引入了一個名為 CARLG（上下文線索聚合和基于角色的潛信息引導）的新型框架，由兩個創新組件組成：上下文線索聚合（CCA）和基于角色的潛信息引導（RLIG）。CCA 模塊利用從預先訓練的編碼器中獲得的注意力權重，自適應地吸收更廣泛的上下文信息，而 RLIG 模塊則旨在捕捉事件角色之間的語義關聯。然后，我們根據當前主流 EAE 方法的兩種類型，將 CARLG 框架實例化為兩種變體。值得注意的是，我們的 CARLG 框架只引入了不到 1% 的新參數，但卻顯著提高了性能。在 RAMS、WikiEvents 和 MLEE 數據集上進行的綜合實驗證實了 CARLG 的優越性，與主要基準相比，CARLG 在性能和推理速度方面都有顯著優勢。進一步的分析證明了所提模塊的有效性。

3.Benchmarking Large Language Models with Augmented Instructions for Fine-grained Information Extraction

標題:利用用于細粒度信息提取的增強指令對大型語言模型進行基準測試

author:Jun Gao, Huan Zhao, Yice Zhang, Wei Wang, Changlong Yu, Ruifeng Xu

date Time:2023-10-08

paper pdf:http://arxiv.org/pdf/2310.05092v1

摘要：
信息提取（IE）是自然語言處理中的一項重要任務。傳統方法依賴于使用簡單指令的粗粒度提取。然而，隨著大型語言模型（LLM）的出現，有必要調整 IE 技術，以充分利用這些模型的能力。本文介紹了專為 LLMs 量身定制的細粒度 IE 基準數據集，采用了針對每種信息類型的增強指令，其中包括任務描述、提取規則、輸出格式和示例。通過廣泛的評估，我們發現編碼器-解碼器模型，尤其是 T5 和 FLAN-T5，在泛化到未見過的信息類型方面表現出色，而 ChatGPT 則對新的任務形式表現出更強的適應性。我們的研究結果還表明，性能并不完全取決于模型的規模，并強調了架構、數據多樣性和學習技術的重要性。這項工作為在信息提取中更精細、更全面地利用 LLM 鋪平了道路。

4.Guideline Learning for In-context Information Extraction

標題:針對上下文信息提取的準則學習

author:Chaoxu Pang, Yixuan Cao, Qiang Ding, Ping Luo

publish:EMNLP 2023 main conference

date Time:2023-10-08

paper pdf:http://arxiv.org/pdf/2310.05066v2

摘要：
大型語言模型（LLM）只需根據任務指令和一些輸入-輸出示例進行調節，而無需優化任何參數，就能完成一項新任務。這就是所謂的上下文學習（ICL）。最近，上下文信息提取（IE）引起了研究界的關注。然而，上下文中信息提取的性能通常落后于最先進的有監督專家模型。我們強調了造成這一不足的一個關鍵原因：任務描述不夠具體。長度有限的上下文難以徹底表達錯綜復雜的 IE 任務指令和各種邊緣情況，從而導致任務理解與人類理解不一致。在本文中，我們提出了一種用于上下文智能交互的指南學習（GL）框架，它能反思性地學習并遵循指南。在學習過程中，GL 會根據一些錯誤案例自動合成一套指南；在推理過程中，GL 會檢索有用的指南，以便更好地進行 ICL。此外，我們還提出了一種基于自一致性的主動學習方法，以提高 GL 的效率。在事件提取和關系提取方面的實驗表明，GL 可以顯著提高上下文信息檢索（in-context IE）的性能。

5.GoLLIE: Annotation Guidelines improve Zero-Shot Information-Extraction

標題:GoLLIE：改進零點信息提取的注釋指南

author:Oscar Sainz, Iker García-Ferrero, Rodrigo Agerri, Oier Lopez de Lacalle, German Rigau, Eneko Agirre

publish:The Twelfth International Conference on Learning Representations -
ICLR 2024

date Time:2023-10-05

paper pdf:http://arxiv.org/pdf/2310.03668v5

摘要：
大型語言模型（LLM）與指令調整相結合，在泛化到未見任務時取得了顯著進展。然而，它們在信息提取（IE）方面卻不太成功，落后于特定任務模型。通常情況下，信息提取任務的特點是有復雜的注釋指南來描述任務并為人類提供示例。以往利用這些信息的嘗試都以失敗告終，即使是最大型的模型也是如此，因為它們無法完全遵循這些指南。在本文中，我們提出了 GoLLIE（Guideline-following Large Language Model for IE），該模型能夠根據注釋指南進行微調，從而提高未見 IE 任務的零拍攝結果。綜合評估從經驗上證明，GoLLIE 能夠泛化并遵循未見的指南，其性能優于之前的零點信息提取嘗試。消融研究表明，詳細的指南是取得良好結果的關鍵。

6.PrIeD-KIE: Towards Privacy Preserved Document Key Information Extraction

標題:PrIeD-KIE：實現隱私保護的文檔關鍵信息提取

author:Saifullah Saifullah, Stefan Agne, Andreas Dengel, Sheraz Ahmed

date Time:2023-10-05

paper pdf:http://arxiv.org/pdf/2310.03777v1

摘要：
本文介紹了利用大型預訓練文檔基礎模型，結合差分隱私（DP）、聯合學習（FL）和差分隱私聯合學習（DP-FL），開發隱私密鑰信息提取（KIE）系統的策略。通過在六個基準數據集（FUNSD、CORD、SROIE、WildReceipts、XFUND 和 DOCILE）上進行廣泛的實驗，我們證明了大型文檔基礎模型可以在隱私設置下針對 KIE 任務進行有效的微調，從而在保持強大隱私保證的同時獲得足夠的性能。此外，通過深入分析各種訓練和模型參數對模型性能的影響，我們提出了簡單而有效的指導原則，以便在全局 DP 下實現 KIE 任務的最佳隱私效用權衡。最后，我們介紹了一種新穎的 DP-FL 算法 FeAm-DP，該算法可將全局 DP 從單機環境高效升級到多客戶端聯合環境。我們在各種客戶端和隱私設置下對該算法進行了全面評估，并證明了該算法能夠實現與獨立 DP 相當的性能和隱私保證，即使在參與客戶端數量不斷增加的情況下也是如此。總之，我們的研究為私人 KIE 系統的開發提供了寶貴的見解，并凸顯了文檔基礎模型在隱私保護文檔人工智能應用中的潛力。據作者所知，這是第一項利用文檔基礎模型探索隱私保護文檔 KIE 的研究。

7.Multimodal Question Answering for Unified Information Extraction

標題:統一信息提取的多模態問題解答

author:Yuxuan Sun, Kai Zhang, Yu Su

publish:24 pages, 2 figures

date Time:2023-10-04

paper pdf:http://arxiv.org/pdf/2310.03017v1

摘要：
多模態信息提取（MIE）旨在從非結構化多媒體內容中提取結構化信息。由于任務和環境的多樣性，目前大多數多模態信息提取模型都是特定任務和數據密集型的，這就限制了它們在任務要求多樣、標注數據有限的現實世界場景中的通用性。為了解決這些問題，我們提出了一個新穎的多模態問題解答（MQA）框架，通過將三個 MIE 任務重新組合為一個統一的跨度提取和多選擇問題解答管道，將它們統一起來。在六個數據集上進行的廣泛實驗表明1) 與虛假提示相比，我們的 MQA 框架在 MIE 任務上持續、顯著地提高了各種現成大型多模態模型（LMM）的性能。2) 在零鏡頭設置中，MQA 的表現大大優于之前的最先進基線。此外，我們框架的有效性還可以成功地轉移到少鏡頭環境中，增強 10B 參數規模的 LMM，使其具有競爭力或優于更大的語言模型，如 ChatGPT 和 GPT-4。我們的 MQA 框架可以作為利用 LMM 更好地解決 MIE 以及其他潛在下游多模態任務的一般原則。

8.Fine-tuning and aligning question answering models for complex information extraction tasks

標題:微調和調整復雜信息提取任務的問題解答模型

author:Matthias Engelbach, Dennis Klau, Felix Scheerer, Jens Drawehn, Maximilien Kintz

publish:Accepted at: 15th International Conference on Knowledge Discovery an
Information Retrieval (KDIR 2023), part of IC3K

date Time:2023-09-26

paper pdf:http://arxiv.org/pdf/2309.14805v1

摘要：
大型語言模型（LLM）的出現提高了各種 NLP 任務的性能和可能性。雖然 ChatGPT 等生成式人工智能模型的使用為一些商業用例帶來了新的機遇，但它們目前產生虛假內容的傾向極大地限制了它們在文檔分析（如文檔信息檢索）中的適用性。與此相反，問題解答（QA）或段落檢索模型等抽取式語言模型可確保在相應上下文文檔的范圍內找到查詢結果，這使它們成為在公司生產環境中進行更可靠信息提取的候選模型。在這項工作中，我們提出了一種方法，將提取式 QA 模型用于改進德國商業文檔（如保險報告或醫療傳單）的特征提取，并將其集成到文檔分析解決方案中。我們進一步證明，對現有德語質量保證模型進行微調，即使只使用一小部分注釋數據集，也能提高復雜語言特征（如損害原因解釋或藥物外觀描述）定制提取任務的性能。最后，我們討論了評估信息提取任務的評分指標的相關性，并從萊文斯坦距離、F1-分數、精確匹配和 ROUGE-L 中推導出一個綜合指標，以模仿人類專家的評估標準。

9.Comprehensive Overview of Named Entity Recognition: Models, Domain-Specific Applications and Challenges

標題:命名實體識別綜合概述：模型、特定領域的應用和挑戰

author:Kalyani Pakhale

date Time:2023-09-25

paper pdf:http://arxiv.org/pdf/2309.14084v1

摘要：
在自然語言處理（NLP）領域，命名實體識別（NER）是一種從非結構化文本中提取結構化見解的關鍵機制。本手稿詳盡探討了不斷發展的 NER 方法，將基本原理與當代人工智能的進步融為一體。研究從 NER 的基本概念開始，涵蓋了從傳統的基于規則的策略到當代奇妙的轉換器架構等各種技術，尤其突出了 BERT 與 LSTM 和 CNN 的集成。研究重點介紹了為金融、法律和醫療保健等復雜領域量身定制的特定領域 NER 模型，強調了這些模型的專業適應性。此外，研究還深入探討了包括強化學習在內的前沿范式、E-NER 等創新結構，以及光學字符識別 (OCR) 在增強 NER 能力方面的相互作用。論文以實際領域為基礎，揭示了 NER 在金融和生物醫學等領域中不可或缺的作用，并探討了這些領域所面臨的獨特挑戰。結論部分概述了有待解決的挑戰和發展方向，使這篇論文成為深入開展 NER 研究和應用的全面指南。

10.A Survey of Document-Level Information Extraction

標題:文檔級信息提取概覽

author:Hanwen Zheng, Sijia Wang, Lifu Huang

date Time:2023-09-23

paper pdf:http://arxiv.org/pdf/2309.13249v1

摘要：
文檔級信息提取（IE）是自然語言處理（NLP）中的一項重要任務。本文對最近的文檔級信息提取文獻進行了系統回顧。此外，我們還對當前最先進的算法進行了全面的誤差分析，并找出了這些算法的局限性以及文檔級信息提取任務所面臨的挑戰。根據我們的研究結果，標簽噪聲、實體核心參照解析和推理的缺乏嚴重影響了文檔級 IE 的性能。本調查報告旨在提供更多見解，幫助 NLP 研究人員進一步提高文檔級 IE 的性能。

11.Localize, Retrieve and Fuse: A Generalized Framework for Free-Form Question Answering over Tables

標題:定位、檢索和融合：表上自由格式問題解答的通用框架

author:Wenting Zhao, Ye Liu, Yao Wan, Yibo Wang, Zhongfen Deng, Philip S. Yu

publish:Accepted by AACL-IJCNLP 2023

date Time:2023-09-20

paper pdf:http://arxiv.org/pdf/2309.11049v2

摘要：
表格數據問題解答（又稱 TableQA）旨在根據所提供的表格生成問題的答案，近來備受關注。以前的工作主要是通過從單個或有限的表格單元中提取信息來生成簡潔的事實性回答，缺乏跨不同表格單元進行推理的能力。然而，自由形式的 TableQA 領域需要復雜的策略來選擇相關的表格單元格，并對離散的數據片段進行復雜的整合和推理，而這一領域的大部分內容仍未被探索。為此，本文提出了一種通用的三階段方法：表圖轉換和單元定位、外部知識檢索以及表格和文本融合（稱為 TAG-QA），以解決生成式 TableQA 中推斷長篇自由格式答案的難題。具體來說，TAG-QA (1) 使用圖神經網絡定位相關表格單元格，收集相關行列之間的交叉單元格；(2) 利用維基百科的外部知識；(3) 通過整合表格數據和自然語言信息生成答案。實驗表明，TAG-QA 在生成既忠實又連貫的句子方面具有卓越的能力，尤其是與幾種最先進的基線相比。值得注意的是，TAG-QA 在 BLEU-4 和 PARENT F 分數方面分別比基于流水線的穩健基線 TAPAS 高出 17% 和 14%。此外，TAG-QA 在 BLEU-4 和 PARENT F 分數上分別比端到端模型 T5 高出 16% 和 12%。

12.Named Entity Recognition via Machine Reading Comprehension: A Multi-Task Learning Approach

標題:通過機器閱讀理解進行命名實體識別：多任務學習方法

author:Yibo Wang, Wenting Zhao, Yao Wan, Zhongfen Deng, Philip S. Yu

date Time:2023-09-20

paper pdf:http://arxiv.org/pdf/2309.11027v1

摘要：
命名實體識別（NER）旨在將文本中提到的實體提取并分類為預定義的類型（如組織或人名）。最近，許多人提出將 NER 塑造成一個機器閱讀理解問題（也稱為基于 MRC 的 NER），根據上下文，通過 MRC 回答與預定義實體類型相關的問題，從而實現實體識別。然而，這些工作忽略了實體類型之間的標簽依賴關系，而這對于精確識別命名實體至關重要。在本文中，我們建議將實體類型之間的標簽依賴關系納入多任務學習框架，以更好地實現基于 MRC 的 NER。我們將基于 MRC 的 NER 分解為多個任務，并使用自我注意模塊來捕捉標簽依賴性。我們在嵌套 NER 和平面 NER 數據集上進行了綜合實驗，以驗證所提出的多重 NER 的有效性。實驗結果表明，Multi-NER 在所有數據集上都能取得更好的性能。

13.LMDX: Language Model-based Document Information Extraction and Localization

標題:LMDX：基于語言模型的文檔信息提取和本地化

author:Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ramya Sree Boppana, Zilong Wang, Zifeng Wang, Jiaqi Mu, Hao Zhang, Chen-Yu Lee, Nan Hua

date Time:2023-09-19

paper pdf:http://arxiv.org/pdf/2309.10952v2

摘要：
大型語言模型（LLM）給自然語言處理（NLP）帶來了革命性的變化，改進了最先進的技術，并在各種任務中展現出了新的能力。然而，它們在從視覺豐富的文檔中提取信息方面的應用尚未取得成功，而這正是許多文檔處理工作流程的核心，涉及從半結構化文檔中提取關鍵實體。在這項任務中采用 LLM 的主要障礙包括 LLM 中缺少對高質量提取至關重要的布局編碼，以及缺少在文檔中定位預測實體的接地機制。本文介紹了基于語言模型的文檔信息提取和本地化（LMDX），這是一種為 LLM 重構文檔信息提取任務的方法。LMDX 可以在有訓練數據和沒有訓練數據的情況下抽取單個、重復和分層實體，同時提供基礎保證并定位文檔中的實體。最后，我們將 LMDX 應用于 PaLM 2-S 和 Gemini Pro LLM，并在 VRDU 和 CORD 基準上對其進行了評估，從而確立了新的先進水平，并展示了 LMDX 如何幫助創建高質量、數據高效的解析器。

14.Contextual Label Projection for Cross-Lingual Structured Prediction

標題:跨語言結構化預測的上下文標簽投射

author:Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng

publish:Accepted at NAACL 2024

date Time:2023-09-16

paper pdf:http://arxiv.org/pdf/2309.08943v3

摘要：
標簽投射涉及聯合獲取翻譯標簽和文本，對于利用機器翻譯促進結構化預測任務中的跨語言轉移至關重要。之前探索標簽投影的研究往往傾向于簡化標簽翻譯或僅依賴詞級對齊，從而影響翻譯準確性。在本文中，我們介紹了一種新穎的標簽投射方法 CLaP，它能將文本翻譯為目標語言，并以翻譯后的文本為語境對標簽進行上下文翻譯，從而確保翻譯后的標簽具有更高的準確性。我們利用具有多語言能力的指令調整語言模型作為上下文翻譯器，通過指令對翻譯文本中翻譯標簽的存在施加限制。我們在兩種具有代表性的結構預測任務–事件論據提取（EAE）和命名實體識別（NER）–上對 CLaP 與其他標簽投影技術進行了基準測試，結果表明 CLaP 在 39 種語言中實現了零次跨語言傳輸，EAE 的 F1 提高了 2.4 倍，NER 的 F1 提高了 1.4 倍。我們進一步探索了 CLaP 在十種資源極其匱乏的語言上的適用性，以展示其在跨語言結構化預測方面的潛力。

15.Improving Information Extraction on Business Documents with Specific Pre-Training Tasks

標題:通過特定的預培訓任務改進商業文檔的信息提取

author:Thibault Douzon, Stefan Duffner, Christophe Garcia, Jérémy Espinas

publish:Conference: Document Analysis Systems. DAS 2022

date Time:2023-09-11

paper pdf:http://arxiv.org/pdf/2309.05429v1

摘要：
基于變換器的語言模型被廣泛應用于自然語言處理相關任務中。由于采用了預訓練方法，這些模型已成功應用于商業文檔的信息提取。然而，文獻中針對商業文檔提出的大多數預訓練任務都過于通用，不足以學習更復雜的結構。在本文中，我們使用了在商業文檔集上預訓練的語言模型 LayoutLM，并引入了兩個新的預訓練任務，以進一步提高其提取相關信息的能力。第一個任務旨在更好地理解文檔的復雜布局，第二個任務側重于數值及其數量級。這些任務迫使模型學習更好的掃描文檔上下文表征。我們進一步引入了一種新的后處理算法，用于解碼信息提取中的 BIESO 標記，該算法在處理復雜實體時表現更佳。我們的方法大大提高了由費用收據、發票和采購訂單組成的公共數據集（F1 分數從 93.88 分提高到 95.50 分）和私人數據集（F1 分數從 84.35 分提高到 84.84 分）的提取性能。

16.Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty

標題:利用大型語言模型改進開放式信息提取：關于示范不確定性的研究

author:Chen Ling, Xujiang Zhao, Xuchao Zhang, Yanchi Liu, Wei Cheng, Haoyu Wang, Zhengzhang Chen, Takao Osaki, Katsushi Matsuda, Haifeng Chen, Liang Zhao

date Time:2023-09-07

paper pdf:http://arxiv.org/pdf/2309.03433v1

摘要：
開放式信息提取（OIE）任務旨在從非結構化文本中提取結構化事實，通常采用（主題、關系、對象）三元組的形式。盡管像 ChatGPT 這樣的大型語言模型（LLMs）具有作為通用任務解決工具的潛力，但由于兩個關鍵問題，它們在 OIE 任務中落后于最先進的（監督）方法。首先，由于對模型微調的限制，LLMs 難以區分無關上下文和相關關系，也難以生成結構化輸出。其次，LLMs 根據概率自回歸生成響應，這使得預測的關系缺乏可信度。在本文中，我們評估了 LLMs 在改進 OIE 任務方面的能力。特別是，我們提出了多種上下文學習策略來增強 LLM 的指令跟隨能力，并提出了一個示范不確定性量化模塊來增強生成關系的置信度。我們在三個 OIE 基準數據集上的實驗表明，我們的方法在定量和定性方面都能與已有的監督方法相媲美。

17.A Comparative Analysis of Pretrained Language Models for Text-to-Speech

標題:文本到語音的預訓練語言模型比較分析

author:Marcel Granero-Moya, Penny Karanasou, Sri Karlapati, Bastian Schnell, Nicole Peinelt, Alexis Moinet, Thomas Drugman

publish:Accepted for presentation at the 12th ISCA Speech Synthesis Workshop
(SSW) in Grenoble, France, from 26th to 28th August 2023

date Time:2023-09-04

paper pdf:http://arxiv.org/pdf/2309.01576v1

摘要：
最先進的文本到語音（TTS）系統利用預訓練語言模型（PLMs）來增強前音，并創建聽起來更自然的語音。然而，雖然 PLM 在自然語言理解（NLU）方面得到了廣泛的研究，但其對 TTS 的影響卻一直被忽視。在本研究中，我們針對兩個 TTS 任務–前音預測和停頓預測–對不同的 PLM 進行了比較分析，旨在填補這一空白。首先，我們使用 15 種不同的 PLM 訓練了一個前音預測模型。我們的研究結果表明，模型大小和質量之間存在對數關系，中性和表現性前音之間也存在顯著的性能差異。其次，我們使用 PLM 進行停頓預測，發現這項任務對小模型的敏感度較低。我們還發現，我們的經驗結果與這些語言模型獲得的 GLUE 分數之間存在很強的相關性。據我們所知，這是首次研究不同 PLM 對 TTS 的影響。

18.Zero-shot information extraction from radiological reports using ChatGPT

標題:使用 ChatGPT 從放射學報告中提取零鏡頭信息

author:Danqing Hu, Bing Liu, Xiaofeng Zhu, Xudong Lu, Nan Wu

date Time:2023-09-04

paper pdf:http://arxiv.org/pdf/2309.01398v2

摘要：
電子健康記錄包含大量有價值的信息，但其中許多都是以自由文本形式記錄的。信息提取是將字符序列轉化為結構化數據的策略，可用于二次分析。然而，命名實體識別和關系提取等傳統信息提取組件需要注釋數據來優化模型參數，這已成為構建信息提取系統的主要瓶頸之一。隨著大型語言模型在各種下游 NLP 任務中無需調整參數就能取得良好表現，使用大型語言模型進行零點信息提取成為可能。在本研究中，我們旨在探索最流行的大型語言模型 ChatGPT 能否從放射報告中提取有用信息。我們首先針對 CT 報告中感興趣的信息設計了提示模板。然后，我們將提示模板與 CT 報告結合起來生成提示，并將其作為 ChatGPT 的輸入，從而得到回復。我們還開發了一個后處理模塊，用于將回復轉化為結構化提取結果。我們使用從北京大學腫瘤醫院收集的 847 份 CT 報告進行了實驗。實驗結果表明，與基線信息提取系統相比，ChatGPT 在某些提取任務中的表現具有競爭力，但一些局限性需要進一步改進。

19.mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view Contrastive Learning

標題:mCL-NER：通過多視角對比學習進行跨語言命名實體識別

author:Ying Mo, Jian Yang, Jiahao Liu, Qifan Wang, Ruoyu Chen, Jingang Wang, Zhoujun Li

publish:9 pages, Accepted by AAAI 2024

date Time:2023-08-17

paper pdf:http://arxiv.org/pdf/2308.09073v2

摘要：
跨語言命名實體識別（CrossNER）面臨的挑戰是，由于多語言語料庫（尤其是非英語數據）的匱乏，導致識別效果參差不齊。雖然之前的研究主要集中在數據驅動的轉移方法上，但尚未充分探索的一個重要方面是如何在不同語言間統一語義和標記級表征。在本文中，我們提出了跨語言命名實體識別多視圖對比學習（mCL-NER）。具體來說，我們將 CrossNER 任務重構為識別標記對之間關系的問題。這種方法利用了實體中標記對標記連接的固有上下文細微差別，使我們能夠調整不同語言的表征。我們引入了多視角對比學習框架，以涵蓋源句、代碼轉換句和目標句之間的語義對比，以及標記對標記關系之間的對比。通過在語義和關系空間內強制達成一致，我們最大限度地縮小了源句與代碼轉換句和目標句對應句之間的差距。這種一致性擴展到了不同標記之間的關系，從而增強了跨語言實體的投射能力。我們通過結合標注源數據和非標注目標數據進行自我訓練，進一步增強了 CrossNER。我們在橫跨 40 種語言的 XTREME 基準上進行的實驗證明，mCL-NER 優于之前的數據驅動和基于模型的方法。它在廣泛的范圍內實現了近 +2.0 $F_1$ 分數的大幅提升，并確立了自己作為新的最先進方法的地位。

20.MT4CrossOIE: Multi-stage Tuning for Cross-lingual Open Information Extraction

標題:MT4CrossOIE：跨語言開放信息提取的多級調整

author:Tongliang Li, Zixiang Wang, Linzheng Chai, Jian Yang, Jiaqi Bai, Yuwei Yin, Jiaheng Liu, Hongcheng Guo, Liqun Yang, Hebboul Zine el-abidine, Zhoujun Li

publish:10 pages

date Time:2023-08-12

paper pdf:http://arxiv.org/pdf/2308.06552v2

摘要：
跨語言開放式信息提取旨在從多種語言的原始文本中提取結構化信息。以前的工作使用共享的跨語言預訓練模型來處理不同語言，但沒有充分利用特定語言表示的潛力。在本文中，我們提出了一種名為 MT4CrossIE 的有效多階段調整框架，旨在通過向共享模型注入特定語言知識來增強跨語言開放信息提取。具體來說，跨語言預訓練模型首先在固定編碼器的共享語義空間（如嵌入矩陣）中進行調整，然后在第二階段優化其他組件。經過足夠的訓練后，我們會凍結預訓練模型，并使用混合詞法（mixed-of-LoRAs）調整多個額外的低等級語言特定模塊，以實現基于模型的跨語言轉移。此外，我們還利用兩階段提示來鼓勵大語言模型（LLM）注釋多語言原始數據，以實現基于數據的跨語言遷移。通過結合基于模型和基于數據的轉移技術，該模型在我們提出的數據集 OpenIE4++ 上進行了多語言目標訓練。各種基準的實驗結果強調了聚合多個即插即用語言特定模塊的重要性，并證明了 MT4CrossIE 在跨語言 OIE\footnote{\url{https://github.com/CSJianYang/Multilingual-Multimodal-NLP}} 中的有效性。

21.Slot Induction via Pre-trained Language Model Probing and Multi-level Contrastive Learning

標題:通過預訓練語言模型探測和多層次對比學習進行插槽誘導

author:Hoang H. Nguyen, Chenwei Zhang, Ye Liu, Philip S. Yu

publish:Accepted at SIGDIAL 2023

date Time:2023-08-09

paper pdf:http://arxiv.org/pdf/2308.04712v1

摘要：
任務導向對話（TOD）系統中自然語言理解的最新先進方法（如意圖檢測和插槽填充）需要大量的注釋數據才能實現具有競爭力的性能。在現實中，標記級注釋（槽標簽）的獲取既耗時又困難。在這項工作中，我們研究了插槽誘導（SI）任務，其目標是在不明確了解標記級插槽注釋的情況下誘導出插槽邊界。我們建議利用無監督預訓練語言模型（PLM）探測和對比學習機制來利用（1）從 PLM 中提取的無監督語義知識，以及（2）從 TOD 中獲得的額外句子級意圖標簽信號。在兩個 NLU 基準數據集上，我們的方法被證明在 SI 任務中是有效的，并且能夠縮小與標記級監督模型之間的差距。當推廣到新興意圖時，我們的 SI 目標還提供了增強的插槽標簽表示，從而提高了插槽填充任務的性能。

22.UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition

標題:UniversalNER：從大型語言模型中定向提煉，用于開放式命名實體識別

author:Wenxuan Zhou, Sheng Zhang, Yu Gu, Muhao Chen, Hoifung Poon

publish:Accepted at ICLR 2024. Project page: https://universal-ner.github.io/

date Time:2023-08-07

paper pdf:http://arxiv.org/pdf/2308.03279v2

摘要：
大型語言模型（LLMs）已顯示出顯著的通用性，例如可以理解任意實體和關系。事實證明，指令調整能有效地將 LLM 簡化為更具成本效益的模型，如 Alpaca 和 Vicuna。然而，這些學生模型在下游應用中仍然遠遠落后于原始 LLM。在本文中，我們將探索有針對性的提煉，并以任務為中心進行指令調整，以訓練出能在開放信息提取等廣泛應用類別中表現出色的學生模型。以命名實體識別（NER）為案例，我們展示了如何將 ChatGPT 提煉為更小的 UniversalNER 模型，用于開放式 NER。為了進行評估，我們建立了迄今為止最大的 NER 基準，包括 43 個數據集，橫跨生物醫學、編程、社交媒體、法律、金融等 9 個不同領域。在不使用任何直接監督的情況下，UniversalNER 在數以萬計的實體類型中實現了出色的 NER 準確性，平均超過 Alpaca 和 Vicuna 等通用指令調整模型 30 多個絕對 F1 點。只需極少量參數，UniversalNER 不僅就能獲得 ChatGPT 識別任意實體類型的能力，而且其 NER 準確率平均比 ChatGPT 高出 7-9 個絕對 F1 點。值得注意的是，UniversalNER 甚至在很大程度上優于最先進的多任務指令調整系統，如使用監督 NER 示例的 InstructUIE。我們還進行了全面的消融研究，以評估蒸餾方法中各個組成部分的影響。我們發布了蒸餾配方、數據和 UniversalNER 模型，以促進未來有針對性的蒸餾研究。

23.Explaining Relation Classification Models with Semantic Extents

標題:用語義廣度解釋關系分類模型

author:Lars Kl?ser, Andre Büsgen, Philipp Kohl, Bodo Kraft, Albert Zündorf

publish:Accepted at DeLTA 2023: Deep Learning Theory and Applications
conference

date Time:2023-08-04

paper pdf:http://arxiv.org/pdf/2308.02193v1

摘要：
近年來，大型預訓練語言模型（如 BERT 和 GPT）的開發極大地改進了各種任務的信息提取系統，包括關系分類。最先進的系統在科學基準上具有很高的準確性。目前，缺乏可解釋性是許多實際應用中的一個復雜因素。為了防止出現有偏見、反直覺或有害的決策，可解釋的系統是必不可少的。我們引入了語義外延這一概念，用于分析關系分類任務的決策模式。語義外延是文本中對分類決策影響最大的部分。通過我們的定義，可以采用類似的程序來確定人類和模型的語義范圍。我們提供了一個注釋工具和一個軟件框架，可以方便地、可重復地確定人類和模型的語義范圍。對兩者進行比較后發現，模型傾向于從數據中學習快捷模式。目前的可解釋性方法（如輸入還原）很難檢測到這些模式。我們的方法有助于在模型開發過程中發現并消除虛假的決策模式。語義外延可提高自然語言處理系統的可靠性和安全性。語義外延是實現醫療保健或金融等關鍵領域應用的重要一步。此外，我們的工作還為開發解釋深度學習模型的方法開辟了新的研究方向。

24.Learning Implicit Entity-object Relations by Bidirectional Generative Alignment for Multimodal NER

標題:通過雙向生成對齊學習隱含的實體-對象關系，實現多模態 NER

author:Feng Chen, Jiajia Liu, Kaixiang Ji, Wang Ren, Jian Wang, Jingdong Wang

date Time:2023-08-03

paper pdf:http://arxiv.org/pdf/2308.02570v1

摘要：
多模態命名實體識別（MNER）面臨的挑戰主要有兩個方面：（1）彌合文本與圖像之間的語義鴻溝；（2）將實體與圖像中的相關對象進行匹配。由于缺乏相應的注釋，現有方法無法捕捉隱含的實體-對象關系。本文提出了一種名為 BGA-MNER 的雙向生成式配準方法來解決這些問題。我們的 BGA-MNER 包括針對兩種模式下的實體-特征內容生成文本和文本。它共同優化了雙向重構目標，從而在這種直接而強大的約束條件下調整了隱含的實體-對象關系。此外，圖像-文本對通常包含不匹配的成分，這些成分對于生成是有噪聲的。我們提出了一種階段性精煉上下文采樣器，用于提取匹配的跨模態內容進行生成。在兩個基準上進行的廣泛實驗證明，我們的方法在推理過程中無需圖像輸入即可實現最先進的性能。