源碼地址: https://github.com/NanoNets/docext
概述
docext 是一個由視覺語言模型(vlm)提供支持的全面的本地文檔智能工具包。vlm 使用的是基于 Qwen2.5VL-3B 的模型,應該是在此模型基礎上進行的微調。
它提供了三個核心功能:
1.pdf/image 轉 markdown:將文檔轉換為具有智能內容識別的結構化標記,包括 LaTeX 方程、簽名、水印、表和語義標記。
2.文檔信息提取:從發票、護照和其他文檔類型等文檔中無 ocr 地提取結構化信息(字段、表等),并進行置信度評分。
3.智能文檔處理排行榜(https://idp-leaderboard.org/):一個全面的基準測試平臺,跟蹤和評估視覺語言模型在OCR、關鍵信息提取(Key Information Extraction, KIE)、文檔分類、表提取和其他智能文檔處理任務中的性能。
核心特點
文檔轉換
(1) latex 公式識別,行內和塊的公式使用 latex 表示
輸入:
官方案例部分輸出結果如下:
(2) 智能圖片描述,對于所有圖片,使用去替代原來圖片中的內容;
輸入:
官方案例部分輸出結果如下:
(3)簽名/水印/頁碼的檢測,檢測和標記文檔中的簽名、水印和頁碼,并分別放入到、、<page_number></page_number>中;
輸入:
官方案例部分輸出結果如下:
輸入:
官方案例部分輸出結果如下 :
(4) 復選框和單選按鈕:將表單復選框和單選按鈕轉換為標準化的 Unicode 符號(?, ?, ?)
輸入:
官方案例部分結果如下:
(5) 表格檢測:將復雜的表格轉換成 html 的表格表示
輸入:
官方案例部分結果如下:
智能文檔處理排行榜
該基準評估七個關鍵文檔智能挑戰的性能;
(1) 關鍵信息提取(KIE):從非結構化文檔文本中提取結構化字段。
(2) 視覺問答(VQA):通過問答來評估對文檔內容的理解。
(3) 光學字符識別(OCR):測量識別印刷和手寫文本的準確性。
(4) 文檔分類:評估模型對各種文檔類型進行分類的準確性。
(5) 長文檔處理:測試模型對冗長的、上下文豐富的文檔的推理。
(6) 表提取:從復雜的表格格式中提取基準結構化數據。
(7) 可信度評分校準:評估模型預測的可靠性和置信度。
補充
工具提到可以輸出可信度評分,從源碼來看主要是將用戶的輸入以及大模型的輸出結果+打分的 prompt 讓大模型對用戶的輸入和大模型的輸出結果打分。