【開源初探】基于 Qwen2.5VL的文檔解析工具:docext

源碼地址: https://github.com/NanoNets/docext

概述

docext 是一個由視覺語言模型(vlm)提供支持的全面的本地文檔智能工具包。vlm 使用的是基于 Qwen2.5VL-3B 的模型,應該是在此模型基礎上進行的微調。

它提供了三個核心功能:

1.pdf/image 轉 markdown:將文檔轉換為具有智能內容識別的結構化標記,包括 LaTeX 方程、簽名、水印、表和語義標記。

2.文檔信息提取:從發票、護照和其他文檔類型等文檔中無 ocr 地提取結構化信息(字段、表等),并進行置信度評分。

3.智能文檔處理排行榜(https://idp-leaderboard.org/):一個全面的基準測試平臺,跟蹤和評估視覺語言模型在OCR、關鍵信息提取(Key Information Extraction, KIE)、文檔分類、表提取和其他智能文檔處理任務中的性能。

核心特點

文檔轉換

(1) latex 公式識別,行內和塊的公式使用 latex 表示
輸入:

官方案例部分輸出結果如下:

(2) 智能圖片描述,對于所有圖片,使用去替代原來圖片中的內容;
輸入:

官方案例部分輸出結果如下:

(3)簽名/水印/頁碼的檢測,檢測和標記文檔中的簽名、水印和頁碼,并分別放入到、、<page_number></page_number>中;
輸入:

官方案例部分輸出結果如下:

輸入:

官方案例部分輸出結果如下 :

(4) 復選框和單選按鈕:將表單復選框和單選按鈕轉換為標準化的 Unicode 符號(?, ?, ?)
輸入:

官方案例部分結果如下:

(5) 表格檢測:將復雜的表格轉換成 html 的表格表示
輸入:

官方案例部分結果如下:

智能文檔處理排行榜

該基準評估七個關鍵文檔智能挑戰的性能;

(1) 關鍵信息提取(KIE):從非結構化文檔文本中提取結構化字段。

(2) 視覺問答(VQA):通過問答來評估對文檔內容的理解。

(3) 光學字符識別(OCR):測量識別印刷和手寫文本的準確性。

(4) 文檔分類:評估模型對各種文檔類型進行分類的準確性。

(5) 長文檔處理:測試模型對冗長的、上下文豐富的文檔的推理。

(6) 表提取:從復雜的表格格式中提取基準結構化數據。

(7) 可信度評分校準:評估模型預測的可靠性和置信度。

補充

工具提到可以輸出可信度評分,從源碼來看主要是將用戶的輸入以及大模型的輸出結果+打分的 prompt 讓大模型對用戶的輸入和大模型的輸出結果打分。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85672.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85672.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85672.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python 正確重載運算符(增量賦值運算符)

增量賦值運算符 Vector 類已經支持增量賦值運算符 和 * 了&#xff0c;如示例 13-15 所示。 示例 13-15 增量賦值不會修改不可變目標&#xff0c;而是新建實例&#xff0c;然后 重新綁定 >>> v1 Vector([1, 2, 3]) >>> v1_alias v1 # ? >>> …

XCUITest + Objective-C 詳細示例

??親愛的技術愛好者們,熱烈歡迎來到 Kant2048 的博客!我是 Thomas Kant,很開心能在CSDN上與你們相遇~?? 本博客的精華專欄: 【自動化測試】 【測試經驗】 【人工智能】 【Python】

redis分布式鎖 Redisson在電商平臺開發中的實際應用

目錄 概述 Redis分布式鎖的實現方式 1. 基于SETNX命令&#xff08;String類型&#xff09; 2. 使用SET命令的NX和EX參數&#xff08;推薦方式&#xff09; 3. 基于Lua腳本實現復雜邏輯 4. RedLock算法&#xff08;多節點Redis實現&#xff09; Redisson的分布式鎖 Redis…

joomla 使用nginx服務器只能打開首頁,其他頁面404的解決方案

最近一個客戶將Joomla4網站從原先的Apache服務器改為Nginx服務器&#xff0c;整個過程一切順利&#xff0c;但還原網站后發現只能打開首頁&#xff0c;其他頁面都是404。這個問題需要修改nginx的配置文件來解決。 偽靜態 在Apache中使用.htaccess來完成偽靜態路由的轉發&…

湖北理元理律師事務所企業債務紓困路徑:司法重整中的再生之道

中小企業債務危機常呈現“擔保鏈擴散”特征&#xff0c;單一債務可能引發企業崩盤。湖北理元理律師事務所通過預重整制度與企業債務重組技術&#xff0c;探索出“司法保護商業談判”的紓困模式。 一、企業債務風險處置四步法 緊急止血 申請司法保護&#xff1a;通過訴前調解…

利用DeepWiki高效閱讀項目源碼

想獲取更多高質量的Java技術文章&#xff1f;歡迎訪問Java技術小館官網&#xff0c;持續更新優質內容&#xff0c;助力技術成長 技術小館官網 DeepWiki 是一個強大的工具&#xff0c;專為程序員提供開源項目源碼的結構化文檔和 AI 驅動的問答功能&#xff0c;幫助快速理解復雜…

django rest_framework 前端網頁實現Token認證

rest_framework提供了幾種認證方式&#xff1a;Session、Token等。Session是最簡單的&#xff0c;幾乎不用寫任何代碼就可以是實現&#xff0c;Token方式其實也不復雜&#xff0c;網上的教程一大把&#xff0c;但是最后都是用Postman這類工具來實現API調用的&#xff0c;通過這…

面試題-函數類型的重載是啥意思

在 TypeScript 中&#xff0c;函數重載&#xff08;Function Overload&#xff09; 是指為同一個函數提供多個不同的調用簽名&#xff08;參數類型和返回值類型的組合&#xff09;&#xff0c;但函數體只有一個實現。這樣可以讓函數在不同的輸入下表現出不同的行為&#xff0c;…

磐基PaaS平臺MongoDB組件SSPL許可證風險與合規性分析(上)

#作者&#xff1a;任少近 文章目錄 1.背景與問題1.1.背景1.2.問題 3.SSPL條款解讀分析3.1.條款0&#xff1a;定義條款3.2.條款一&#xff1a;源代碼條款3.3.條款二&#xff1a;基本授權條款3.4.條款三&#xff1a;反規避保護條款3.5.條款四&#xff1a;逐字傳播條款3.6.條款五…

「Linux文件及目錄管理」輸入輸出重定向與管道

知識點解析 輸入/輸出重定向 標準輸入(stdin):默認從鍵盤讀取,文件描述符為0。標準輸出(stdout):默認輸出到終端,文件描述符為1。標準錯誤(stderr):默認輸出到終端,文件描述符為2。重定向符號: >:覆蓋輸出到文件(如command > file)。>>:追加輸出…

【Node】最佳Node.js后端開發模板推薦

Node.js 后端開發模板推薦 以下是幾個優秀的Node.js后端模板&#xff0c;它們都適合二次開發&#xff0c;各自有不同的特點和適用場景&#xff1a; 1. Express基礎模板 Express Generator (官方工具) 官方提供的快速搭建工具基礎MVC結構簡單易上手 npm install express-ge…

HALCON相機標定

相機標定簡介&#xff1a; 首先&#xff0c;相機會產生畸變&#xff0c;即實際圖像和拍攝圖像不一致&#xff0c;可以是凸性也可以是凹性形變&#xff0c;相機標定的過程就是將畸變圖像還原為原始圖像&#xff0c;并將圖像中的像素坐標轉換為世界坐標。 形如&#xff1a;相機內…

Solidity 入門教程(二):值類型全解 —— 布爾、整數、地址與字節數組

在上一章中&#xff0c;我們寫下了第一個 Solidity 合約并在 Remix 中成功運行。本章我們將深入了解 Solidity 中的幾種常用值類型&#xff08;Value Types&#xff09;&#xff0c;并通過示例代碼在 Remix 進行驗證。 一、Solidity 中的三種數據類型 在 Solidity 中&#xf…

16.大數據監控

0.說明 監控主要構成。 軟件版本。 1.exporter監控配置 1.1 node_exporter 啟動命令 nohup ./node_exporter &服務 創建文件 /etc/systemd/system/node_exporter.service&#xff1a; [Unit] DescriptionPrometheus Node Exporter Wantsnetwork-online.target Aft…

Tomcat項目本地部署(Servlet為例)

在Windows上部署 在idea中打開項目 首先我們需要準備一個Servlet項目&#xff0c;我之前的Servlet項目是用eclipse寫的&#xff0c;這種情況下如果用idea直接打開的話會出現左側目錄無法顯示的情況&#xff0c;這個時候我們就需要用別的方法打開 打開項目管理 如下圖&#…

安裝MySQL 5.7導入數據,修改密碼,創建賬號并授權

1. 準備工作 sudo yum update -y sudo yum install -y wget libaio numactl 2. 下載 MySQL 5.7 二進制包 wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz 3. 創建 MySQL 用戶和組 sudo groupadd mysql sudo useradd -r -g m…

基礎RAG實現,最佳入門選擇(八)

RAG重排序 RAG重排序技術以提高RAG系統中的檢索質量。重新排序充當初始檢索后的第二個過濾步驟&#xff0c;以確保最相關的內容用于響應生成。 重排序的關鍵概念 1.初始檢索&#xff1a;使用基本相似度搜索的第一遍&#xff08;準確度較低但速度更快&#xff09; 2.文檔評分…

Spring Boot 常用注解整理

Spring & Spring Boot 常用注解整理 現代的 Spring 與 Spring Boot 應用大量使用注解來簡化配置、管理組件和實現各種框架功能。本文系統整理了常用的 Spring/Spring Boot 注解&#xff0c;按照功能分類進行介紹。每個注解都會涵蓋其含義、提供來源、應用場景以及代碼示例…

深入理解 Cross-Entropy 損失函數:從原理到實踐

在深度學習中&#xff0c;損失函數是衡量模型性能的關鍵指標之一。對于多分類問題&#xff0c;Cross-Entropy 損失函數 是最常用的選擇之一。它不僅能夠有效衡量模型輸出與真實標簽之間的差異&#xff0c;還能通過梯度下降法指導模型的優化。本文將深入探討 Cross-Entropy 損失…

Vim-vimrc保存文件自動移除行末尾空格

Vim-vimrc保存文件自動移除行末尾空格 這段代碼通過設置 autocmd 和自定義函數&#xff0c;確保每次保存文件時都自動刪除文件中的行尾空格&#xff0c;同時不會影響光標和視圖的位置。它適用于所有文件類型&#xff0c;并且刪除操作不會引入錯誤&#xff0c;即使沒有行尾空格的…