【開源初探】基于 Qwen2.5VL的文檔解析工具：docext

【開源初探】基于 Qwen2.5VL的文檔解析工具：docext

pingmian/2025/6/22 20:41:55/文章來源:https://blog.csdn.net/meiqi0538/article/details/148809909

源碼地址： https://github.com/NanoNets/docext

概述

docext 是一個由視覺語言模型（vlm）提供支持的全面的本地文檔智能工具包。vlm 使用的是基于 Qwen2.5VL-3B 的模型，應該是在此模型基礎上進行的微調。

它提供了三個核心功能：

1.pdf/image 轉 markdown：將文檔轉換為具有智能內容識別的結構化標記，包括 LaTeX 方程、簽名、水印、表和語義標記。

2.文檔信息提取：從發票、護照和其他文檔類型等文檔中無 ocr 地提取結構化信息（字段、表等），并進行置信度評分。

3.智能文檔處理排行榜（https://idp-leaderboard.org/）：一個全面的基準測試平臺，跟蹤和評估視覺語言模型在OCR、關鍵信息提取（Key Information Extraction， KIE）、文檔分類、表提取和其他智能文檔處理任務中的性能。

核心特點

文檔轉換

(1) latex 公式識別，行內和塊的公式使用 latex 表示
輸入：

官方案例部分輸出結果如下：

(2) 智能圖片描述，對于所有圖片，使用去替代原來圖片中的內容；
輸入：

官方案例部分輸出結果如下：

(3)簽名/水印/頁碼的檢測，檢測和標記文檔中的簽名、水印和頁碼，并分別放入到、、<page_number></page_number>中；
輸入：

官方案例部分輸出結果如下：

輸入：

官方案例部分輸出結果如下：

(4) 復選框和單選按鈕：將表單復選框和單選按鈕轉換為標準化的 Unicode 符號(?, ?, ?)
輸入：

官方案例部分結果如下：

(5) 表格檢測：將復雜的表格轉換成 html 的表格表示
輸入：

官方案例部分結果如下：

智能文檔處理排行榜

該基準評估七個關鍵文檔智能挑戰的性能;

(1) 關鍵信息提取（KIE）：從非結構化文檔文本中提取結構化字段。

(2) 視覺問答（VQA）：通過問答來評估對文檔內容的理解。

(3) 光學字符識別（OCR）：測量識別印刷和手寫文本的準確性。

(4) 文檔分類：評估模型對各種文檔類型進行分類的準確性。

(5) 長文檔處理：測試模型對冗長的、上下文豐富的文檔的推理。

(6) 表提取：從復雜的表格格式中提取基準結構化數據。

(7) 可信度評分校準：評估模型預測的可靠性和置信度。

補充

工具提到可以輸出可信度評分，從源碼來看主要是將用戶的輸入以及大模型的輸出結果+打分的 prompt 讓大模型對用戶的輸入和大模型的輸出結果打分。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/85672.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/85672.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/85672.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Python 正確重載運算符(增量賦值運算符)

Python 正確重載運算符(增量賦值運算符)

增量賦值運算符 Vector 類已經支持增量賦值運算符和 * 了，如示例 13-15 所示。示例 13-15　增量賦值不會修改不可變目標，而是新建實例，然后重新綁定 >>> v1 Vector([1, 2, 3]) >>> v1_alias v1 # ? >>> …

閱讀更多...

XCUITest + Objective-C 詳細示例

XCUITest + Objective-C 詳細示例

??親愛的技術愛好者們，熱烈歡迎來到 Kant2048 的博客！我是 Thomas Kant，很開心能在CSDN上與你們相遇～?? 本博客的精華專欄：【自動化測試】【測試經驗】【人工智能】【Python】

閱讀更多...

redis分布式鎖 Redisson在電商平臺開發中的實際應用

redis分布式鎖 Redisson在電商平臺開發中的實際應用

目錄概述 Redis分布式鎖的實現方式 1. 基于SETNX命令（String類型） 2. 使用SET命令的NX和EX參數（推薦方式） 3. 基于Lua腳本實現復雜邏輯 4. RedLock算法（多節點Redis實現） Redisson的分布式鎖 Redis…

閱讀更多...

joomla 使用nginx服務器只能打開首頁，其他頁面404的解決方案

joomla 使用nginx服務器只能打開首頁，其他頁面404的解決方案

最近一個客戶將Joomla4網站從原先的Apache服務器改為Nginx服務器，整個過程一切順利，但還原網站后發現只能打開首頁，其他頁面都是404。這個問題需要修改nginx的配置文件來解決。偽靜態在Apache中使用.htaccess來完成偽靜態路由的轉發&…

閱讀更多...

湖北理元理律師事務所企業債務紓困路徑：司法重整中的再生之道

湖北理元理律師事務所企業債務紓困路徑：司法重整中的再生之道

中小企業債務危機常呈現“擔保鏈擴散”特征，單一債務可能引發企業崩盤。湖北理元理律師事務所通過預重整制度與企業債務重組技術，探索出“司法保護商業談判”的紓困模式。一、企業債務風險處置四步法緊急止血申請司法保護：通過訴前調解…

閱讀更多...

利用DeepWiki高效閱讀項目源碼

利用DeepWiki高效閱讀項目源碼

想獲取更多高質量的Java技術文章？歡迎訪問Java技術小館官網，持續更新優質內容，助力技術成長技術小館官網 DeepWiki 是一個強大的工具，專為程序員提供開源項目源碼的結構化文檔和 AI 驅動的問答功能，幫助快速理解復雜…

閱讀更多...

django rest_framework 前端網頁實現Token認證

django rest_framework 前端網頁實現Token認證

rest_framework提供了幾種認證方式：Session、Token等。Session是最簡單的，幾乎不用寫任何代碼就可以是實現，Token方式其實也不復雜，網上的教程一大把，但是最后都是用Postman這類工具來實現API調用的，通過這…

閱讀更多...

面試題-函數類型的重載是啥意思

面試題-函數類型的重載是啥意思

在 TypeScript 中，函數重載（Function Overload） 是指為同一個函數提供多個不同的調用簽名（參數類型和返回值類型的組合），但函數體只有一個實現。這樣可以讓函數在不同的輸入下表現出不同的行為，…

閱讀更多...

磐基PaaS平臺MongoDB組件SSPL許可證風險與合規性分析（上）

磐基PaaS平臺MongoDB組件SSPL許可證風險與合規性分析（上）

#作者：任少近文章目錄 1.背景與問題1.1.背景1.2.問題 3.SSPL條款解讀分析3.1.條款0：定義條款3.2.條款一：源代碼條款3.3.條款二：基本授權條款3.4.條款三：反規避保護條款3.5.條款四：逐字傳播條款3.6.條款五…

閱讀更多...

「Linux文件及目錄管理」輸入輸出重定向與管道

「Linux文件及目錄管理」輸入輸出重定向與管道

知識點解析輸入/輸出重定向標準輸入（stdin）：默認從鍵盤讀取，文件描述符為0。標準輸出（stdout）：默認輸出到終端，文件描述符為1。標準錯誤（stderr）：默認輸出到終端，文件描述符為2。重定向符號： >：覆蓋輸出到文件（如command > file）。>>：追加輸出…

閱讀更多...

【Node】最佳Node.js后端開發模板推薦

【Node】最佳Node.js后端開發模板推薦

Node.js 后端開發模板推薦以下是幾個優秀的Node.js后端模板，它們都適合二次開發，各自有不同的特點和適用場景： 1. Express基礎模板 Express Generator (官方工具) 官方提供的快速搭建工具基礎MVC結構簡單易上手 npm install express-ge…

閱讀更多...

HALCON相機標定

HALCON相機標定

相機標定簡介： 首先，相機會產生畸變，即實際圖像和拍攝圖像不一致，可以是凸性也可以是凹性形變，相機標定的過程就是將畸變圖像還原為原始圖像，并將圖像中的像素坐標轉換為世界坐標。形如：相機內…

閱讀更多...

Solidity 入門教程（二）：值類型全解 —— 布爾、整數、地址與字節數組

Solidity 入門教程（二）：值類型全解 —— 布爾、整數、地址與字節數組

在上一章中，我們寫下了第一個 Solidity 合約并在 Remix 中成功運行。本章我們將深入了解 Solidity 中的幾種常用值類型（Value Types），并通過示例代碼在 Remix 進行驗證。一、Solidity 中的三種數據類型在 Solidity 中&#xf…

閱讀更多...

16.大數據監控

16.大數據監控

0.說明監控主要構成。軟件版本。 1.exporter監控配置 1.1 node_exporter 啟動命令 nohup ./node_exporter &服務創建文件 /etc/systemd/system/node_exporter.service： [Unit] DescriptionPrometheus Node Exporter Wantsnetwork-online.target Aft…

閱讀更多...

Tomcat項目本地部署（Servlet為例）

Tomcat項目本地部署（Servlet為例）

在Windows上部署在idea中打開項目首先我們需要準備一個Servlet項目，我之前的Servlet項目是用eclipse寫的，這種情況下如果用idea直接打開的話會出現左側目錄無法顯示的情況，這個時候我們就需要用別的方法打開打開項目管理如下圖&#…

閱讀更多...

安裝MySQL 5.7導入數據，修改密碼，創建賬號并授權

安裝MySQL 5.7導入數據，修改密碼，創建賬號并授權

1. 準備工作 sudo yum update -y sudo yum install -y wget libaio numactl 2. 下載 MySQL 5.7 二進制包 wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz 3. 創建 MySQL 用戶和組 sudo groupadd mysql sudo useradd -r -g m…

閱讀更多...

基礎RAG實現，最佳入門選擇（八）

基礎RAG實現，最佳入門選擇（八）

RAG重排序 RAG重排序技術以提高RAG系統中的檢索質量。重新排序充當初始檢索后的第二個過濾步驟，以確保最相關的內容用于響應生成。重排序的關鍵概念 1.初始檢索：使用基本相似度搜索的第一遍（準確度較低但速度更快） 2.文檔評分…

閱讀更多...

Spring Boot 常用注解整理

Spring Boot 常用注解整理

Spring & Spring Boot 常用注解整理現代的 Spring 與 Spring Boot 應用大量使用注解來簡化配置、管理組件和實現各種框架功能。本文系統整理了常用的 Spring/Spring Boot 注解，按照功能分類進行介紹。每個注解都會涵蓋其含義、提供來源、應用場景以及代碼示例…

閱讀更多...

深入理解 Cross-Entropy 損失函數：從原理到實踐

深入理解 Cross-Entropy 損失函數：從原理到實踐

在深度學習中，損失函數是衡量模型性能的關鍵指標之一。對于多分類問題，Cross-Entropy 損失函數是最常用的選擇之一。它不僅能夠有效衡量模型輸出與真實標簽之間的差異，還能通過梯度下降法指導模型的優化。本文將深入探討 Cross-Entropy 損失…

閱讀更多...

Vim-vimrc保存文件自動移除行末尾空格

Vim-vimrc保存文件自動移除行末尾空格

Vim-vimrc保存文件自動移除行末尾空格這段代碼通過設置 autocmd 和自定義函數，確保每次保存文件時都自動刪除文件中的行尾空格，同時不會影響光標和視圖的位置。它適用于所有文件類型，并且刪除操作不會引入錯誤，即使沒有行尾空格的…

閱讀更多...

最新文章