最新PDF轉markdown軟件MonkeyOCR整合包,文檔圖片解析工具

MonkeyOCR是上個月剛發布的一款文檔解析工具,可以將PDF文檔或圖片識別轉換為markdown格式文件。官方測試顯示性能極佳。我基于當前最新版制作了免安裝一鍵啟動整合包,支持批量操作,并降低了顯卡要求。

MonkeyOCR官方介紹

MonkeyOCR 采用結構-識別-關系 (SRR) 三重范式,簡化了模塊化方法的多工具流程,同時避免了使用大型多模式模型進行全頁文檔處理的低效率。

  1. 與基于流水線的方法MinerU相比,我們的方法在九種類型的中英文文檔上平均提高了5.1%,其中公式提高了15.0%,表格提高了8.6%。
  2. 與端到端模型相比,我們的 3B 參數模型在英文文檔上取得了最佳平均性能,優于 Gemini 2.5 Pro 和 Qwen2.5 VL-72B 等模型。
  3. 對于多頁文檔解析,我們的方法達到了每秒 0.84 頁的處理速度,超過了 MinerU(0.65)和 Qwen2.5 VL-7B(0.12)。

MonkeyOCR整合包使用說明

將網盤內的軟件壓縮包下載到本地電腦上并解壓。雙擊【啟動軟件.exe】

選擇待處理文件,或是將文件或文件夾鼠標左鍵按住拖動到軟件窗口內釋放。

輸入文件路徑就處理文件,輸入文件夾路徑就處理文件夾內所有pdf文檔

【組大小】按特定分組大小對輸入路徑(一個目錄)中的圖像進行分組解析

【nums】這是我自己添加的一個參數,因為原應用用起來有些問題,這個主要是增加對低端顯卡的支持,如果顯卡為20X6G等低端顯卡,運行報錯的話嘗試設置為1.如果顯卡為40X高端大顯存顯卡可嘗試增大該值,會影響處理速度。如果軟件沒有報錯的話建議保持默認即可。

【單任務】單任務識別,如識別文本、公式、表格,(僅輸出 Markdown 格式)

【輸出單頁面】解析 PDF 并按頁面拆分結果

默認只輸入待處理文件和保存位置即可,沒有必要的話其它設置可不用管。

軟件支持批量操作,輸入文件夾路徑或是將文件夾拖入軟件窗口即可。

視頻教程及效果演示:

注意事項

未測試最低配置要求,建議英偉達顯卡顯存不低于6G,如果報錯:No enough gpu memory for runtime。則需要更多顯存

軟件只支持windows 10或11

軟件運行路徑中不要有非英文字符及空格,待處理文件同樣注意

PDF轉MD軟件MonkeyOCR整合包下載鏈接

夸克網盤分享

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/90020.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/90020.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/90020.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

創客匠人深度剖析:家庭教育賽道創始人 IP 打造與知識變現的破局之道

在知識付費領域,家庭教育賽道的競爭日益激烈,如何從 0-1 打造創始人 IP 并實現高效拓客,成為創業者的核心難題。創客匠人服務的慈航德教育創始人陳向杰老師,通過視頻號運營、產品矩陣設計與社群生態構建,實現單月拓客 …

UDP服務器主要是指什么意思?

UDP的全稱為用戶數據報協議,是一種在計算機網絡中常用的傳輸協議,屬于是傳輸層協議,UDP屬于是一種無連接的協議,在發送數據信息之前,發送方和接收方不需要建立任何握手連接,主要是用于發送小量數據的實時應…

arm 精準總線錯誤與非精準總線錯誤

一、總線錯誤 1.1 arm總線設計 要了解什么是總線錯誤,就要先了解arm的總線設計。 AMBA(Advanced Micro-Controller Bus Architecture)是由ARM Limited公司推出的On-Chip Bus片上總線規范,是目前芯片總線的主流標準(該標準在不斷演進&#…

Unity UGUI的Canvas以及內部元素之間遮擋關系調整

調UI遮擋關系有三種思路: 調Sorting Layer,層級越后渲染到越前面調Order in Layer,數字越大渲染到越前面修改UI材質調RenderQueue,數字越大越后渲染 對前兩種比較陌生的同學可以看一下我以前寫的這篇,不看也沒事&…

SpringCloud系列(46)--SpringCloud Bus實現動態刷新全局廣播

前言:上一節中我們簡單的介紹了什么是SpringCloud Bus,SpringCloud Bus的用處,而本節內容則是使用SpringCloud Bus來實現動態刷新全局廣播。 實現動態刷新全局廣播的設計思想的架構圖 注:在實現SpringCloud Bus動態刷新全局廣播前…

Java+Vue開發的電子招投標管理系統,實現全流程線上操作,高效規范,助力招投標活動透明公正開展

前言: 在數字化浪潮席卷全球的當下,傳統招投標模式面臨著效率低下、信息不透明、管理成本高等諸多挑戰。電子招投標管理系統應運而生,它借助先進的互聯網技術和信息化手段,實現了招投標全流程的電子化、自動化和智能化管理。該系…

MyBatisPlus-02-核心功能

文章目錄【README】【1】MyBatis-plus常見注解【2】MyBatis-Plus常見配置【2.1】MyBatis-Plus配置示例【3】MyBatisPlus核心內容【3.1】條件構造器【3.1.1】業務場景1-帶多字段條件的查詢-使用QueryWrapper【3.1.2】業務場景2-帶條件的更新-使用QueryWrapper【3.1.3】業務場景3…

ZYNQ MPSOC GTH aurora8b10b IP的修改與仿真

1 ip設置好后的頂層模塊接口: 根據自己的開發板修改接口如下: odule gtwizard_ultrascale_0_example_top (// Differential reference clock inputsinput wire mgtrefclk0_x0y1_p,input wire mgtrefclk0_x0y1_n,// Serial data ports for transceiver channel 0input w…

機器學習之線性回歸

主要參考: 機器學習| 算法筆記-線性回歸(Linear Regression) - 知乎 (zhihu.com) 2-2 線性回歸_嗶哩嗶哩_bilibili Python機器學習實戰:線性回歸模型預測波士頓房價_嗶哩嗶哩_bilibili 回歸分析 在數學和統計學中,回歸…

Boost.Asio學習(2):同步讀寫

Asio 的 buffer 是什么? boost::asio::buffer(...) 是一個函數模板,用于創建一個通用的 buffer 對象,可傳遞給 I/O 函數(如 read, write, read_some, write_some 等)。 它返回的是 mutable_buffer 或 const_buffer 的…

Java中如何枚舉正則表達式捕獲組的名字

在使用正則表達式在匹配文本時&#xff0c;除了可以通過表達式捕獲命中的文本串外&#xff0c;還可以對捕獲的文本串進行命名。尤其是在解析日志的場景中&#xff0c;經常會被用到。表達式如下&#xff1a; \<(?<pri>\d)\>(?<time>.*) (?<host>\S)…

CentOS 系統高效部署 Dify 全攻略

系列文章目錄 CentOS系統高效部署fastGPT全攻略 文章目錄 系列文章目錄一、前言二、準備工作與系統要求三、安裝 Docker 與 Docker Compose四、部署 Dify 核心服務五、數據庫與存儲配置六、網絡與安全優化七、監控與運維八、升級與擴展九、附錄與資源關鍵命令速查表官方文檔…

xyctf2025第三屆京麒CTF

一.MISC 1.XGCTF 直接ai搜索一遍找到了出題人的博客LamentXU 2024-2025年終總結 - LamentXU - 博客園 知道了原題是ciscn中的 在LamentXU的博客亂逛Patriot CTF 2024 MISC 部分 wp - LamentXU - 博客園 找到了博客網站,讓后搜索ciscn扎到了博客 CISCN華東南WEB-Polluted |…

Python爬蟲 模擬登錄 requests版

前言 網站必須是登錄狀態才能查看網站信息,是最常見的反爬手段,下面我分享一下request模擬登錄狀態進行請求 目錄 模擬登錄的原理 直接復制網站Cookie模擬登錄狀態 通過登錄接口信息破解出Cookie模擬登錄狀態 模擬登錄的原理 網站是使用Cookie和session記錄網站的登錄狀態…

一些改進策略

1.要計算一個神經網絡模型的總參數量、可訓練參數量以及計算量&#xff08;FLOPs&#xff09;&#xff0c;可以使用以下步驟&#xff1a; ### 計算總參數量和可訓練參數量&#xff1a; 1. **逐層計算參數量**&#xff1a; - 對于每一層&#xff0c;確定該層的參數量。這通…

React Native響應式布局實戰:告別媒體查詢,擁抱跨屏適配新時代

前言:當設計師說"這個頁面要適配所有手機和平板…" “什么?React Native不支持CSS媒體查詢?那怎么實現響應式布局?”——這是很多剛接觸React Native的開發者會遇到的靈魂拷問。 但別慌,沒有@media,我們照樣能玩轉多端適配!想象一下:你的App在iPhone SE的小…

[Java惡補day39] 整理模板·考點六【反轉鏈表】

考點六【反轉鏈表】 【考點總結】 1. 206. 【題目】 【核心思路】 【復雜度】 時間復雜度&#xff1a; O ( ) O() O()。 空間復雜度&#xff1a; O ( ) O() O()。 【代碼】 92. 【題目】 【核心思路】 【復雜度】 時間復雜度&#xff1a; O ( ) O() O()。 空間復雜度&a…

7,TCP服務器

1,創建一個工程 文件目錄:

Modbus_TCP_V5 新功能

odbus TCP 服務器指令 MB_SERVER V5.0 新功能概述 如下圖1所示服務器指令 MB_SERVER 從 V5.0 以后增加了三個新功能&#xff0c;分別為&#xff1a; 訪問數據塊中的數據區域&#xff0c;而不是直接訪問 MODBUS 地址過程映像區的讀訪問限制統計變量 NDR_immediate 和 DR_immed…

2-RuoYi-UI管理平臺的啟動

RuoYi-UI是RuoYi后端框架的管理中心(基于 Vue.js 的前端項目)的詳細配置與啟動指南,結合官方文檔和常見實踐整理,涵蓋環境準備、配置修改、啟動流程及問題排查。 ?? 一、環境準備 Node.js 版本要求:≥12.0(推薦 ≥14.0 或 18.18+ 適配 Vue3) 安裝后驗證: node -v …