一款將PDF轉化為機器可讀格式的工具介紹

ps:以下內容來自MinerU項目

MinerU

項目簡介

MinerU是一款將PDF轉化為機器可讀格式的工具(如markdown、json),可以很方便地抽取為任意格式。 MinerU誕生于書生-浦語的預訓練過程中,我們將會集中精力解決科技文獻中的符號轉化問題,希望在大模型時代為科技發展做出貢獻。 相比國內外知名商用產品MinerU還很年輕,如果遇到問題或者結果不及預期請到issue提交問題,同時附上相關PDF

https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c

主要功能

  • 刪除頁眉、頁腳、腳注、頁碼等元素,確保語義連貫
  • 輸出符合人類閱讀順序的文本,適用于單欄、多欄及復雜排版
  • 保留原文檔的結構,包括標題、段落、列表等
  • 提取圖像、圖片描述、表格、表格標題及腳注
  • 自動識別并轉換文檔中的公式為LaTeX格式
  • 自動識別并轉換文檔中的表格為HTML格式
  • 自動檢測掃描版PDF和亂碼PDF,并啟用OCR功能
  • OCR支持84種語言的檢測與識別
  • 支持多種輸出格式,如多模態與NLP的Markdown、按閱讀順序排序的JSON、含有豐富信息的中間格式等
  • 支持多種可視化結果,包括layout可視化、span可視化等,便于高效確認輸出效果與質檢
  • 支持純CPU環境運行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
  • 兼容Windows、Linux和Mac平臺

快速開始

如果安裝或使用中遇到任何問題,請先查詢?FAQ
如果遇到解析效果不及預期,參考?Known Issues

在線體驗

官網在線應用

官網在線版功能與客戶端一致,界面美觀,功能豐富,需要登錄使用

基于Gradio的在線demo

基于gradio開發的webui,界面簡潔,僅包含核心解析功能,免登錄

本地部署

[!WARNING]?安裝前必看——軟硬件環境支持說明

為了確保項目的穩定性和可靠性,我們在開發過程中僅對特定的軟硬件環境進行優化和測試。這樣當用戶在推薦的系統配置上部署和運行項目時,能夠獲得最佳的性能表現和最少的兼容性問題。

通過集中資源和精力于主線環境,我們團隊能夠更高效地解決潛在的BUG,及時開發新功能。

在非主線環境中,由于硬件、軟件配置的多樣性,以及第三方依賴項的兼容性問題,我們無法100%保證項目的完全可用性。因此,對于希望在非推薦環境中使用本項目的用戶,我們建議先仔細閱讀文檔以及FAQ,大多數問題已經在FAQ中有對應的解決方案,除此之外我們鼓勵社區反饋問題,以便我們能夠逐步擴大支持范圍。

解析后端pipelinevlm-transformersvlm-sglang
操作系統Linux / Windows / macOSLinux / WindowsLinux / Windows (via WSL2)
CPU推理支持??
GPU要求Turing及以后架構,6G顯存以上或Apple SiliconTuring及以后架構,8G顯存以上
內存要求最低16G以上,推薦32G以上
磁盤空間要求20G以上,推薦使用SSD
python版本3.10-3.13

安裝 MinerU

使用pip或uv安裝MinerU
pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple
pip install uv -i https://mirrors.aliyun.com/pypi/simple
uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple 
通過源碼安裝MinerU
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple

[!TIP]?mineru[core]包含除sglang加速外的所有核心功能,兼容Windows / Linux / macOS系統,適合絕大多數用戶。 如果您有使用sglang加速VLM模型推理,或是在邊緣設備安裝輕量版client端等需求,可以參考文檔擴展模塊安裝指南。


使用docker部署Mineru

MinerU提供了便捷的docker部署方式,這有助于快速搭建環境并解決一些棘手的環境兼容問題。 您可以在文檔中獲取Docker部署說明。


使用 MinerU

最簡單的命令行調用方式:

mineru -p <input_path> -o <output_path>

您可以通過命令行、API、WebUI等多種方式使用MinerU進行PDF解析,具體使用方法請參考使用指南。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/96234.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/96234.shtml
英文地址,請注明出處:http://en.pswp.cn/web/96234.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

代碼隨想錄算法訓練營第三十九天|62.不同路徑 63.不同路徑ll

62.不同路徑&#xff1a; 文檔講解&#xff1a;代碼隨想錄|62.不同路徑 視頻講解&#xff1a;https://www.bilibili.com/video/BV1ve4y1x7Eu 狀態&#xff1a;已做出 一、題目要求&#xff1a; 一個二維數組里&#xff0c;將(0&#xff0c;0)位置下標作為起點&#xff0c;計算…

openEuler2403安裝部署Prometheus和Grafana

文章目錄openEuler2403安裝部署Prometheus和Grafana一、前言1.簡介2.環境二、正文1.環境準備1&#xff09;JDK 安裝部署&#xff08;可選&#xff09;2&#xff09;關閉防火墻2.安裝 Prometheus1&#xff09;下載和安裝2&#xff09;啟動3&#xff09;systemd服務管理3.安裝 Gr…

樂吾樂大屏可視化組態軟件【SQL數據源】

樂吾樂大屏可視化組態軟件&#xff08;大屏可視化設計器 - 樂吾樂Le5le&#xff09;支持直接對接SQL數據源功能&#xff0c;目前僅對企業源碼客戶開放。 配置SQL數據源 管理員進入可視化管理中心&#xff0c;點擊SQL數據源&#xff0c;配置添加SQL數據源。 創建SQL數據源連接 …

Django高效查詢:values_list實戰詳解

Django 實戰案例 講解 values_list 的用法。 values_list("field", flatTrue) → 獲取單字段的一維列表。values_list("f1", "f2") → 獲取多個字段&#xff0c;返回元組。搭配 filter / distinct / in / 外鍵查詢 非常高效。適合用于 導出數據 …

Java數據結構——樹

一、樹型結構1.1 概念我們之前提到的數組&#xff0c;單鏈表&#xff0c;棧和隊列都是一種線性結構&#xff0c;每個元素都有最多一個后繼節點。而樹型結構是一種非線性結構&#xff0c;它是由n&#xff08;n>0&#xff09;節點組成的一個具有層次關系的集合。它之所以叫做樹…

基于LLM的月全食時空建模與智能預測:從天文現象到深度學習融合

當古老的天文學遇上現代人工智能,會碰撞出怎樣的火花? 一、當月球遇見AI 月全食,這一令人驚嘆的天文現象,自古以來就吸引著無數天文學家和愛好者的目光。當地球恰好運行到太陽和月球之間,完全遮擋太陽光時,我們就能目睹月球逐漸被"吞噬"然后又重煥光彩的奇妙…

LeetCode熱題 42.接雨水

題目 思路&#xff1a; 通過畫圖觀察我們其實可以很容易發現&#xff0c;每個柱子接多少水由這個地方左邊最高的柱子和右邊最高的柱子確定&#xff0c;因為總要形成一個坑嘛&#xff0c;然后就能接著確定&#xff1a; 當前柱子接水量 min(左邊最高柱子的高度, 右邊最高柱子的…

PostgreSQL與Greenplum數據庫的編程語言連接

編程語言連接數據庫 目前數據庫一般支持HA的連接&#xff0c;即一個Coordinator內的一個節點異常后會鏈接到另外的一個節點&#xff0c;不會影響業務的正常運行。在JDBC配置時需要采用 高可用鏈接字符串(Connection URL/DSN) 的方式連接。適用于不同的編程語言中使用&#xff…

后端(JDBC)學習筆記(CLASS 1):基礎篇(一)

一、引言1、數據的存儲開發java程序的時候&#xff0c;數據都是存儲在內存中&#xff0c;屬于臨時存儲&#xff0c;當程序停止或重啟時&#xff0c;內存中的數據就丟失了。為了解決數據的長期存儲問題&#xff0c;有如下解決方案&#xff1a;1、數據通過I/O流技術&#xff0c;存…

卷對卷(Roll-to-Roll,R2R)技術的應用領域和技術進展

目錄&#xff1a;第一節&#xff1a;卷對卷技術及其應用領域和工藝要求一、卷對卷技術發展現概述二、卷對卷研發和規模化應用難點重點和發展趨勢三、卷對卷工藝主要應用領域及工藝要求第二節&#xff1a;卷對卷生產工藝參數及質量控制四、卷對卷生產工藝控制參數和條件五、卷對…

【Ansible】管理變量和事實知識點

1.Ansible變量名由什么組成&#xff1f;答&#xff1a;變量名必須以字母開頭&#xff0c;且只能含有字母、數字和下劃線。2.定義變量的方法及變量的優先級&#xff1f;答&#xff1a;按優先級從低到高排列: 在清單中定義的組變量 < 在清單或playbook所在目錄的group_vars子目…

基于SpringBoot的天氣預報系統的設計與實現

源碼鏈接&#xff1a;點擊下載源碼 相關文檔&#xff1a;點擊下載相關文檔 摘 要 隨著科技的飛速發展和人們生活水平的不斷提高&#xff0c;天氣預報已成為現代社會不可或缺的一部分。無論是日常生活出行、農業生產安排&#xff0c;還是航空、海運等交通領域&#xff0c;準確…

算法(keep learning)

基礎算法 背模板加刷題 排序快排 主要思想&#xff1a;分治 第一步&#xff1a;確認一個分界點&#xff0c;比如起點&#xff0c;中間點&#xff08;分界點&#xff09;&#xff0c;末點第二步&#xff1a;調整區間&#xff0c;使得第一個區間的數都小于等于分界點&#xff0c;…

Django項目架構

背景&#xff1a;很多人寫 Django 時容易“什么都往 views 里塞”&#xff0c;結果項目一大就亂套了。需要把 視圖層 / 業務層 / 數據層 等職責清晰分出來。圖解說明Client&#xff1a;瀏覽器 / App / 前端調用 API。urls.py&#xff1a;定義 API 路由&#xff0c;把請求分發到…

MySQL】從零開始了解數據庫開發 --- 表的操作

永遠記住&#xff0c;你的存在是有意義的&#xff0c; 你很重要&#xff0c; 你是被愛著的&#xff0c; 而且你為這個世界帶來了無可取代的東西。 -- 麥克西 《男孩、鼴鼠、狐貍和馬》-- 從零開始了解數據庫開發創建數據表查看表結構修改數據表結構重命名表復制表刪除表今天我們…

MySQL底層架構設計原理詳細介紹

文章目錄一、MySQL體系結構概覽二、連接層&#xff08;Connection Layer&#xff09;1. 連接器&#xff08;Connectors&#xff09;2. 連接池&#xff08;Conncction Pool&#xff09;三、服務層&#xff08;Server Layer&#xff09;1. SQL接口組件&#xff08;SQL Interface&…

QB/T 4674-2021 汽車內裝飾用聚氨酯束狀超細纖維合成革檢測

汽車內飾品聚氨酯束狀超細纖維合成革是指以海島型雙組份或多組分纖維加工成飛織造布&#xff0c;再經水性聚氨酯樹脂或溶劑型聚氨酯樹脂浸漬、濕法凝固、溶劑或堿液萃取及后整理等工藝制成的汽車內裝飾皮革。QB/T 4674-2021 汽車內裝飾用聚氨酯束狀超細纖維合成革檢測項目測試項…

QML和Qt Quick

QML和Qt Quick QML 和 Qt Quick 是 Qt 框架中緊密相關但概念不同的兩個部分&#xff0c;它們之間的關系可以用如下方式清晰說明&#xff1a; 核心區別概覽??特性????QML????Qt Quick????本質??聲明式編程??語言??基于 QML 的??框架/庫????作用??定…

JavaScript 結構型設計模式詳解

1. 代理模式1.1. 使用場景代理模式在不改變原始對象的前提下&#xff0c;通過代理對象控制對其訪問&#xff0c;通常用于權限控制、延遲加載、遠程調用等場景。在前端開發中&#xff0c;可以通過代理模式對網絡請求、緩存機制等進行控制。1.2. 代碼實現class ApiService {reque…

攝像頭模塊在運動相機中的特殊應用

運動相機作為記錄高速運動場景的專用設備&#xff0c;其攝像頭模塊的設計與普通消費電子產品存在顯著差異。根據行業資料和技術發展&#xff0c;攝像頭模塊在運動相機中的特殊應用主要體現在以下五個維度&#xff1a;一、極端環境適應性設計運動相機的攝像頭模塊針對戶外運動場…