MonkeyOCR是上個月剛發布的一款文檔解析工具,可以將PDF文檔或圖片識別轉換為markdown格式文件。官方測試顯示性能極佳。我基于當前最新版制作了免安裝一鍵啟動整合包,支持批量操作,并降低了顯卡要求。
MonkeyOCR官方介紹
MonkeyOCR 采用結構-識別-關系 (SRR) 三重范式,簡化了模塊化方法的多工具流程,同時避免了使用大型多模式模型進行全頁文檔處理的低效率。
- 與基于流水線的方法MinerU相比,我們的方法在九種類型的中英文文檔上平均提高了5.1%,其中公式提高了15.0%,表格提高了8.6%。
- 與端到端模型相比,我們的 3B 參數模型在英文文檔上取得了最佳平均性能,優于 Gemini 2.5 Pro 和 Qwen2.5 VL-72B 等模型。
- 對于多頁文檔解析,我們的方法達到了每秒 0.84 頁的處理速度,超過了 MinerU(0.65)和 Qwen2.5 VL-7B(0.12)。
MonkeyOCR整合包使用說明
將網盤內的軟件壓縮包下載到本地電腦上并解壓。雙擊【啟動軟件.exe】
選擇待處理文件,或是將文件或文件夾鼠標左鍵按住拖動到軟件窗口內釋放。
輸入文件路徑就處理文件,輸入文件夾路徑就處理文件夾內所有pdf文檔
【組大小】按特定分組大小對輸入路徑(一個目錄)中的圖像進行分組解析
【nums】這是我自己添加的一個參數,因為原應用用起來有些問題,這個主要是增加對低端顯卡的支持,如果顯卡為20X6G等低端顯卡,運行報錯的話嘗試設置為1.如果顯卡為40X高端大顯存顯卡可嘗試增大該值,會影響處理速度。如果軟件沒有報錯的話建議保持默認即可。
【單任務】單任務識別,如識別文本、公式、表格,(僅輸出 Markdown 格式)
【輸出單頁面】解析 PDF 并按頁面拆分結果
默認只輸入待處理文件和保存位置即可,沒有必要的話其它設置可不用管。
軟件支持批量操作,輸入文件夾路徑或是將文件夾拖入軟件窗口即可。
視頻教程及效果演示:
注意事項
未測試最低配置要求,建議英偉達顯卡顯存不低于6G,如果報錯:No enough gpu memory for runtime。則需要更多顯存
軟件只支持windows 10或11
軟件運行路徑中不要有非英文字符及空格,待處理文件同樣注意
PDF轉MD軟件MonkeyOCR整合包下載鏈接
夸克網盤分享