AAAI 2025論文分享┆一種接近全監督的無訓練文檔信息抽取方法:SAIL(文中附代碼鏈接)

本推文詳細介紹了一篇上海交通大學樂心怡老師課題組被人工智能頂級會議AAAI 2025錄用的的最新論文《SAIL: Sample-Centric In-Context Learning for Document Information Extraction》。論文的第一作者為張金鈺。該論文提出了一種無需訓練的、以樣本為中心的、基于上下文學習的文檔信息抽取方法?(SAmple-Centric?In-Context?Learning for Document Information Extraction,簡稱SAIL)。該方法為每個測試樣本定制個性化提示詞,同時引入布局相似性和實體級文本相似性來增加搜索多樣化。SAIL的性能優于之前的無訓練方法,并且性能接近全監督學習的方法。更為重要的是,SAIL具有良好的泛化性。

本推文由張金鈺撰寫,審核為樂心怡老師。

原文鏈接https://arxiv.org/abs/2412.17092

代碼鏈接https://github.com/sky-goldfish/SAIL

1. 會議介紹

第39屆AAAI (Annual AAAI Conference on Artificial Intelligence)將于2025年2月25日至3月4日在美國費城隆重舉行。AAAI會議起始于 1980 年,是人工智能領域久負盛名且極具影響力的國際頂級學術會議之一,由美國人工智能協會主辦。該會議全面覆蓋機器學習、自然語言處理、計算機視覺、機器人技術、多智能體系統、知識表示與推理等多項人工智能核心研究領域。AAAI是人工智能領域的頂級會議之一,也是中國計算機學會(CCF)A類會議。

原文鏈接:https://arxiv.org/abs/2412.17092

代碼鏈接:https://github.com/sky-goldfish/SAIL

2.?研究背景及主要貢獻

(1)什么是文檔信息抽取?

文檔信息抽取旨在從文檔中(如收據、表格、發票等)中提取結構化信息。如圖1,對一個小票文檔,通常需要識別出小票號、各類商品單價、各類商品數量、各類商品價格、總價等信息。

圖1 文檔信息取任務

解決文檔信息抽取的傳統方法往往基于全訓練學習(如 LayoutLMv3 等)。這些方法在訓練數據上表現良好,但在處理未見過的數據時泛化能力有限。因此,研發無需訓練的文檔信息抽取方法,且使其具備良好的泛化能力,這非常關鍵。一種可行的思路是利用強大的預訓練模型(如大語言模型 LLMs),僅需少量示例即可泛化到不同類型的文檔。

(2)挑戰與困難

無訓練的文檔信息抽取方法主要面臨兩個挑戰:

(1)文檔內容十分復雜,需要很好地理解文本與布局之間的關系。但是,僅通過少量的示例建立文本與布局之間的關系并提取隱含布局信息非常困難。

(2)預訓練模型需要合適的提示詞才能發揮最佳性能。之前工作的提示詞是針對特定預訓練模型特殊設計的,導致在不同模型間轉換時性能會顯著下降。

(3)本文的解決辦法

本文提出了一種以樣本為中心的基于上下文學習的文檔信息抽取方法SAIL。其貢獻可以概括為:

(1)提出了一種以樣本為中心的提示詞方法,針對每一個測試樣本,都會搜索最合適的示例作為上下文學習的提示詞。

(2)在搜索最合適的示例時,引入布局相似性(下圖中的layout similarity)和實體級文本相似性(下圖中的entity-level text similarity),從不同角度對視覺豐富的文檔進行全面深入分析,有助于提升大語言模型對文檔的理解能力。

(3)構造了規范統一的提示詞模板,可以在不同的大語言模型之間實現較好的遷移。


圖2 SAIL中使用的三種示例及和GPT-4o結果的對比

3.?方法

圖3 SAIL的整體架構

SAIL的整體架構如圖3所示。主要包括五個步驟:

(1)通過光學字符識別處理測試文檔和訓練文檔,提取文本和邊框(box)信息。

(2)將文本轉換為不同類型的嵌入表示,用于選擇文檔級文本相似性示例、實體級文本相似示例和布局相似示例。

(3)選擇示例。

(4)將示例代入提示詞模板。

(5)大語言模型根據提示詞進行推理,生成預測標簽。

其中,選擇示例的三種方法如下:

(1)文檔級文本相似示例:通過文本語義搜索,使用Sentence - BERT編碼文檔文本,計算余弦相似度來選擇與測試樣本最相似的訓練文檔示例。

(2)實體級文本相似示例:過濾掉僅含數字的文本后,用Sentence - BERT編碼實體文本,計算余弦相似度,為每個測試實體選擇最相似的實體示例。

(3)布局相似示例:將邊框信息繪制在空白圖像上,裁剪并調整布局圖像大小,通過計算均方誤差(MSE)損失來選擇布局相似的文檔,如圖4所示。

圖4 布局相似性評估方法

4.?實驗

1)實施細節

論文使用開源ChatGLM3(ChatGLM3-6b-32k),閉源GPT-3.5(GPT-3.5-turbo)和GPT-4(GPT-4o)三個大語言模型在FUNSD、CORD、SROIE數據集上評估。采用實體級F1分數、精確率和召回率作為評估指標。

2)實驗結果

實驗的結果如表1所示。與Baseline的對比,SAIL體現出了更好的性能,具體體現在:

1)首先,SAIL在所有數據集上使用不同大語言模型的表現都穩定優于其他training-free的方法。

2)其次,得益于本文構造的規范統一的提示詞模板,SAIL對各種大語言模型具有更好的魯棒性和適應性。

3)最后,作為training-free的方法,SAIL甚至超越了很多全監督學習的方法。

表1?SAIL與Baseline的對比

在與多模態大語言模型對比方面,本文將SAIL與LLaVA-1.5和GPT-4o進行了對比,實驗結果見表2。可以發現,開源的LLaVA的文檔信息抽取能力比較有限。其次,閉源的GPT-4o明顯優于LLaVA,但與SAIL相比仍然存在很大的不足。

表2 SAIL與多模態LLM的對比

(3)消融實驗

表3對比了對所有測試樣例都采用固定的examples(Fixed)、對不同的測試樣例采用不同的examples(Adaptive)。結果表明,以樣本為中心的examples顯著超越了固定的examples。

表3 以樣本為中心的Adaptive examples顯著超越了Fixed examples

表4證明了我們在選擇示例時,所采用的三種相似度(結構相似度、文檔級別文本相似度、實體級別文本相似度)的有效性。

表4 不同相似度的examples的有效性

5.?總結與展望

論文提出了一種以樣本為中心的基于上下文學習的文檔信息抽取方法SAIL,用于training-free文檔信息抽取任務。SAIL?利用布局相似性和實體級文本相似性與統一的提示詞模板相結合,為每個測試樣本構建定制化的提示詞,使用不同LLM在三個數據集上均展現了優于基線的表現。

6. 更多信息

樂心怡老師本科就讀于清華大學,博士畢業于香港中文大學,目前為上海交通大學自動化系副教授,主要研究基于大模型的工業感知方法及系統,個人主頁為:https://automation.sjtu.edu.cn/LXY

樂老師課題組計算資源充足,研究方向前沿。目前課題組緊急招收大模型和智能體方向科研實習生。前期工作已中稿NeurIPS 2024希望進一步深化投稿期刊T-PAMIIJCV。具體工作包括協助實現LLM Agent針對復雜任務的評測,包括LLM Agent應用需求調研、數據合成方法設計和主流LLM、VLM、Agent框架評測等。

對于具備如下條件的本科生,也非常歡迎加入:

1.計算機、AI、自動化、軟件工程、信息工程等理工科背景本科生;
2.學有余力,能夠投入較多時間(請在郵件中注明一周可以投入的時間);
3.熟練掌握python, pytorch等編程語言和編程框架,熟悉基本的軟件工程編程規范,能閱讀英文論文。
聯系方式及方法
請發送郵件至lene90525@gmail.com或lexinyi@sjtu.edu.cn,主題:科研實習_學校+年級+姓名,附上個人簡歷(學業情況、項目經歷、科研經歷等)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/64595.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/64595.shtml
英文地址,請注明出處:http://en.pswp.cn/web/64595.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

小程序信息收集(小迪網絡安全筆記~

免責聲明:本文章僅用于交流學習,因文章內容而產生的任何違法&未授權行為,與文章作者無關!!! 附:完整筆記目錄~ ps:本人小白,筆記均在個人理解基礎上整理,…

pat 乙級1096 大美數

若正整數 N 可以整除它的 4 個不同正因數之和,則稱這樣的正整數為“大美數”。本題就要求你判斷任一給定的正整數是否是“大美數”。 輸入格式: 輸入在第一行中給出正整數 K(≤10),隨后一行給出 K 個待檢測的、不超過…

C#封送類

封送類(Marshaling classes)在.NET框架中扮演著至關重要的角色,尤其是在托管代碼與非托管代碼之間進行數據交換時。封送過程涉及到將托管環境中的對象轉換為非托管環境中可以理解的形式,并且反之亦然。這一過程確保了兩種不同類型…

計算機體系結構期末考試

1、描述計算機系統性能評估的關鍵指標,并以SPEC CPU benchmark為例,討論如何使用幾何平均數與加權平均數對性能進行量化。此外,描述Amdahl定律并分析該定律的應用場景及其對性能優化的局限性 2、請對比RISC和CISC指令集架構的設計思想及優缺點…

藥片缺陷檢測數據集,8625張圖片,使用YOLO,PASICAL VOC XML,COCO JSON格式標注,可識別藥品是否有缺陷,是否完整

藥片缺陷檢測數據集,8625張圖片,使用YOLO,PASICAL VOC XML,COCO JSON格式標注,可識別藥品是否有缺陷,是否完整 有缺陷的標注信息: 無缺陷的標注信息 數據集下載: yolov11:https://d…

一文講清楚CSS3新特性

文章目錄 一文講清楚CSS3新特性1. 新增選擇器特性2. 新增的樣式3. 新增布局方式 一文講清楚CSS3新特性 1. 新增選擇器特性 層次選擇器(div~p)選擇前面有div的p元素偽類選擇器 :first-of-type 表示?組同級元素中其類型的第?個元素:last-of-type 表示?組同級元素中其類型的最…

【Ubuntu使用技巧】Ubuntu22.04無人值守Crontab工具實戰詳解

一個愿意佇立在巨人肩膀上的農民...... Crontab是Linux和類Unix操作系統下的一個任務調度工具,用于周期性地執行指定的任務或命令。Crontab允許用戶創建和管理計劃任務,以便在特定的時間間隔或時間點自動運行命令或腳本。這些任務可以按照分鐘、小時、日…

第十六屆藍橋杯模擬賽(第一期)(C語言)

判斷質因數 如果一個數p是個質數,同時又是整數a的約數,則p稱為a的一個質因數。 請問2024有多少個質因數。 了解 約數,又稱因數。整數a整除整數b,b為a的因數(約數)質數,又稱素數。只有1和它本身兩…

electron在arm64架構交叉編譯遇到libnotify/notify.h文件找不到錯誤記錄

問題描述 在按照官方文檔進行arm64下electron編譯時出現下面的錯誤,編譯環境為ubuntun22.04.5。 問題分析 由于當前目標架構是arm64,所以從上圖可知sysroot為build/linux/debian_bullseye_arm64-sysroot,進入到該目錄下查看libnotify的頭文…

KAFKA入門:原理架構解析

文章目錄 一、認識kafka二、架構介紹2.1 工作流程2.2 Kafka可靠性保證2.3 Kafka存儲 一、認識kafka Kafka到底是個啥?用來干嘛的? 官方定義如下: Kafka is used for building real-time data pipelines and streaming apps. It is horizont…

論文分享 | PromptFuzz:用于模糊測試驅動程序生成的提示模糊測試

大語言模型擁有的強大能力可以用來輔助多種工作,但如何有效的輔助仍然需要人的精巧設計。分享一篇發表于2024年CCS會議的論文PromptFuzz,它利用模型提示生成模糊測試驅動代碼,并將代碼片段嵌入到LLVM框架中執行模糊測試。 論文摘要 制作高質…

利用Python爬蟲獲取1688商品詳情的探索之旅

在當今數字化時代,數據已成為一種寶貴的資源。對于電商行業來說,獲取商品信息尤為重要。阿里巴巴旗下的1688平臺,作為中國領先的B2B電子商務平臺,提供了海量的商品信息。本文將帶你了解如何使用Python爬蟲技術,合法合規…

[算法] [leetcode-1137] 第 N 個泰波那契數

1137 第 N 個泰波那契數簡單 泰波那契序列 Tn 定義如下: T0 0, T1 1, T2 1, 且在 n > 0 的條件下 Tn3 Tn Tn1 Tn2 給你整數 n,請返回第 n 個泰波那契數 Tn 的值。 示例 1: 輸入:n 4 輸出:4 解釋&#x…

macOS上怎么制作條形碼

推薦使用Barcode Flow APP,目前支持iOS、macOS、iPadOS 大家可以在app store里面搜索 支持幾乎所有條形碼的格式 gs128、code128、DataMaxitr等等。 導出和打印都可以。 還支持工具規則自動生成。

位運算與操作符應用

一.二進制與進制轉化 1.概念解析 我們常常能聽見2進制,8進制,16進制這些講法。他們都是數值的不同表達形式。根據不同的進制大小有著不同的權重比例。我們生活中常用的是10進制數,也就是逢10進1,由此推理至其他進制。例如2進制就…

適配器模式概述

大體介紹 適配器模式(Adapter Pattern)是一種結構型設計模式,其核心目的是通過提供一個適配器類來使得原本接口不兼容的類可以一起工作。它通過將一個類的接口轉換成客戶端所期望的接口,使得原本因接口不兼容而無法一起工作的類可…

計算機專業考研 408 學科學習方法

計算機專業考研 408 學科涵蓋數據結構、計算機組成原理、操作系統和計算機網絡四門核心課程,內容多且難度大。但只要掌握科學的學習方法,便能化繁為簡,穩步提升。以下為大家詳細介紹 408 學科的學習方法。 一、基礎夯實階段:全面…

C++ 設計模式:命令模式(Command Pattern)

鏈接:C 設計模式 鏈接:C 設計模式 - 訪問器模式 命令模式(Command Pattern)是一種行為型設計模式,它將請求封裝成一個對象,從而使你可以用不同的請求對客戶進行參數化,對請求排隊或記錄請求日志…

html+css+js網頁設計 美食 美食4個頁面帶js

htmlcssjs網頁設計 美食 美食4個頁面帶js 網頁作品代碼簡單,可使用任意HTML輯軟件(如:Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html編輯軟件進行運行及修改編輯等操作)。 獲取源碼 1&#…

swagger,showdoc,apifox,Mock 服務,dubbo,ZooKeeper和dubbo的關系

Swagger、ShowDoc 和 Apifox 之間的區別與優勢 Swagger、ShowDoc 和 Apifox 都是用于 API 文檔管理和測試的工具,但它們各有特色和適用場景。以下是詳細的比較,并附上每個工具的具體用法示例。 1. Swagger 特點與優勢: 廣泛采用: Swagger…