本推文詳細介紹了一篇上海交通大學樂心怡老師課題組被人工智能頂級會議AAAI 2025錄用的的最新論文《SAIL: Sample-Centric In-Context Learning for Document Information Extraction》。論文的第一作者為張金鈺。該論文提出了一種無需訓練的、以樣本為中心的、基于上下文學習的文檔信息抽取方法?(SAmple-Centric?In-Context?Learning for Document Information Extraction,簡稱SAIL)。該方法為每個測試樣本定制個性化提示詞,同時引入布局相似性和實體級文本相似性來增加搜索多樣化。SAIL的性能優于之前的無訓練方法,并且性能接近全監督學習的方法。更為重要的是,SAIL具有良好的泛化性。
本推文由張金鈺撰寫,審核為樂心怡老師。
原文鏈接:https://arxiv.org/abs/2412.17092
代碼鏈接:https://github.com/sky-goldfish/SAIL
1. 會議介紹
第39屆AAAI (Annual AAAI Conference on Artificial Intelligence)將于2025年2月25日至3月4日在美國費城隆重舉行。AAAI會議起始于 1980 年,是人工智能領域久負盛名且極具影響力的國際頂級學術會議之一,由美國人工智能協會主辦。該會議全面覆蓋機器學習、自然語言處理、計算機視覺、機器人技術、多智能體系統、知識表示與推理等多項人工智能核心研究領域。AAAI是人工智能領域的頂級會議之一,也是中國計算機學會(CCF)A類會議。
原文鏈接:https://arxiv.org/abs/2412.17092
代碼鏈接:https://github.com/sky-goldfish/SAIL
2.?研究背景及主要貢獻
(1)什么是文檔信息抽取?
文檔信息抽取旨在從文檔中(如收據、表格、發票等)中提取結構化信息。如圖1,對一個小票文檔,通常需要識別出小票號、各類商品單價、各類商品數量、各類商品價格、總價等信息。
圖1 文檔信息抽取任務
解決文檔信息抽取的傳統方法往往基于全訓練學習(如 LayoutLMv3 等)。這些方法在訓練數據上表現良好,但在處理未見過的數據時泛化能力有限。因此,研發無需訓練的文檔信息抽取方法,且使其具備良好的泛化能力,這非常關鍵。一種可行的思路是利用強大的預訓練模型(如大語言模型 LLMs),僅需少量示例即可泛化到不同類型的文檔。
(2)挑戰與困難
無訓練的文檔信息抽取方法主要面臨兩個挑戰:
(1)文檔內容十分復雜,需要很好地理解文本與布局之間的關系。但是,僅通過少量的示例建立文本與布局之間的關系并提取隱含布局信息非常困難。
(2)預訓練模型需要合適的提示詞才能發揮最佳性能。之前工作的提示詞是針對特定預訓練模型特殊設計的,導致在不同模型間轉換時性能會顯著下降。
(3)本文的解決辦法
本文提出了一種以樣本為中心的基于上下文學習的文檔信息抽取方法SAIL。其貢獻可以概括為:
(1)提出了一種以樣本為中心的提示詞方法,針對每一個測試樣本,都會搜索最合適的示例作為上下文學習的提示詞。
(2)在搜索最合適的示例時,引入布局相似性(下圖中的layout similarity)和實體級文本相似性(下圖中的entity-level text similarity),從不同角度對視覺豐富的文檔進行全面深入分析,有助于提升大語言模型對文檔的理解能力。
(3)構造了規范統一的提示詞模板,可以在不同的大語言模型之間實現較好的遷移。
圖2 SAIL中使用的三種示例及和GPT-4o結果的對比
3.?方法
圖3 SAIL的整體架構
SAIL的整體架構如圖3所示。主要包括五個步驟:
(1)通過光學字符識別處理測試文檔和訓練文檔,提取文本和邊框(box)信息。
(2)將文本轉換為不同類型的嵌入表示,用于選擇文檔級文本相似性示例、實體級文本相似示例和布局相似示例。
(3)選擇示例。
(4)將示例代入提示詞模板。
(5)大語言模型根據提示詞進行推理,生成預測標簽。
其中,選擇示例的三種方法如下:
(1)文檔級文本相似示例:通過文本語義搜索,使用Sentence - BERT編碼文檔文本,計算余弦相似度來選擇與測試樣本最相似的訓練文檔示例。
(2)實體級文本相似示例:過濾掉僅含數字的文本后,用Sentence - BERT編碼實體文本,計算余弦相似度,為每個測試實體選擇最相似的實體示例。
(3)布局相似示例:將邊框信息繪制在空白圖像上,裁剪并調整布局圖像大小,通過計算均方誤差(MSE)損失來選擇布局相似的文檔,如圖4所示。
圖4 布局相似性評估方法
4.?實驗
(1)實施細節
論文使用開源ChatGLM3(ChatGLM3-6b-32k),閉源GPT-3.5(GPT-3.5-turbo)和GPT-4(GPT-4o)三個大語言模型在FUNSD、CORD、SROIE數據集上評估。采用實體級F1分數、精確率和召回率作為評估指標。
(2)實驗結果
實驗的結果如表1所示。與Baseline的對比,SAIL體現出了更好的性能,具體體現在:
1)首先,SAIL在所有數據集上使用不同大語言模型的表現都穩定優于其他training-free的方法。
2)其次,得益于本文構造的規范統一的提示詞模板,SAIL對各種大語言模型具有更好的魯棒性和適應性。
3)最后,作為training-free的方法,SAIL甚至超越了很多全監督學習的方法。
表1?SAIL與Baseline的對比
在與多模態大語言模型對比方面,本文將SAIL與LLaVA-1.5和GPT-4o進行了對比,實驗結果見表2。可以發現,開源的LLaVA的文檔信息抽取能力比較有限。其次,閉源的GPT-4o明顯優于LLaVA,但與SAIL相比仍然存在很大的不足。
表2 SAIL與多模態LLM的對比
(3)消融實驗
表3對比了對所有測試樣例都采用固定的examples(Fixed)、對不同的測試樣例采用不同的examples(Adaptive)。結果表明,以樣本為中心的examples顯著超越了固定的examples。
表3 以樣本為中心的Adaptive examples顯著超越了Fixed examples
表4證明了我們在選擇示例時,所采用的三種相似度(結構相似度、文檔級別文本相似度、實體級別文本相似度)的有效性。
表4 不同相似度的examples的有效性
5.?總結與展望
論文提出了一種以樣本為中心的基于上下文學習的文檔信息抽取方法SAIL,用于training-free文檔信息抽取任務。SAIL?利用布局相似性和實體級文本相似性與統一的提示詞模板相結合,為每個測試樣本構建定制化的提示詞,使用不同LLM在三個數據集上均展現了優于基線的表現。
6. 更多信息
樂心怡老師本科就讀于清華大學,博士畢業于香港中文大學,目前為上海交通大學自動化系副教授,主要研究基于大模型的工業感知方法及系統,個人主頁為:https://automation.sjtu.edu.cn/LXY。
樂老師課題組計算資源充足,研究方向前沿。目前課題組緊急招收大模型和智能體方向科研實習生。前期工作已中稿NeurIPS 2024,希望進一步深化投稿期刊T-PAMI或IJCV。具體工作包括協助實現LLM Agent針對復雜任務的評測,包括LLM Agent應用需求調研、數據合成方法設計和主流LLM、VLM、Agent框架評測等。
對于具備如下條件的本科生,也非常歡迎加入:
1.計算機、AI、自動化、軟件工程、信息工程等理工科背景本科生;
2.學有余力,能夠投入較多時間(請在郵件中注明一周可以投入的時間);
3.熟練掌握python, pytorch等編程語言和編程框架,熟悉基本的軟件工程編程規范,能閱讀英文論文。
聯系方式及方法:
請發送郵件至lene90525@gmail.com或lexinyi@sjtu.edu.cn,主題:科研實習_學校+年級+姓名,附上個人簡歷(學業情況、項目經歷、科研經歷等)