ps:以下內容來自MinerU項目
MinerU
項目簡介
MinerU是一款將PDF轉化為機器可讀格式的工具(如markdown、json),可以很方便地抽取為任意格式。 MinerU誕生于書生-浦語的預訓練過程中,我們將會集中精力解決科技文獻中的符號轉化問題,希望在大模型時代為科技發展做出貢獻。 相比國內外知名商用產品MinerU還很年輕,如果遇到問題或者結果不及預期請到issue提交問題,同時附上相關PDF。
https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c
主要功能
- 刪除頁眉、頁腳、腳注、頁碼等元素,確保語義連貫
- 輸出符合人類閱讀順序的文本,適用于單欄、多欄及復雜排版
- 保留原文檔的結構,包括標題、段落、列表等
- 提取圖像、圖片描述、表格、表格標題及腳注
- 自動識別并轉換文檔中的公式為LaTeX格式
- 自動識別并轉換文檔中的表格為HTML格式
- 自動檢測掃描版PDF和亂碼PDF,并啟用OCR功能
- OCR支持84種語言的檢測與識別
- 支持多種輸出格式,如多模態與NLP的Markdown、按閱讀順序排序的JSON、含有豐富信息的中間格式等
- 支持多種可視化結果,包括layout可視化、span可視化等,便于高效確認輸出效果與質檢
- 支持純CPU環境運行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
- 兼容Windows、Linux和Mac平臺
快速開始
如果安裝或使用中遇到任何問題,請先查詢?FAQ
如果遇到解析效果不及預期,參考?Known Issues
在線體驗
官網在線應用
官網在線版功能與客戶端一致,界面美觀,功能豐富,需要登錄使用
基于Gradio的在線demo
基于gradio開發的webui,界面簡潔,僅包含核心解析功能,免登錄
本地部署
[!WARNING]?安裝前必看——軟硬件環境支持說明
為了確保項目的穩定性和可靠性,我們在開發過程中僅對特定的軟硬件環境進行優化和測試。這樣當用戶在推薦的系統配置上部署和運行項目時,能夠獲得最佳的性能表現和最少的兼容性問題。
通過集中資源和精力于主線環境,我們團隊能夠更高效地解決潛在的BUG,及時開發新功能。
在非主線環境中,由于硬件、軟件配置的多樣性,以及第三方依賴項的兼容性問題,我們無法100%保證項目的完全可用性。因此,對于希望在非推薦環境中使用本項目的用戶,我們建議先仔細閱讀文檔以及FAQ,大多數問題已經在FAQ中有對應的解決方案,除此之外我們鼓勵社區反饋問題,以便我們能夠逐步擴大支持范圍。
解析后端 | pipeline | vlm-transformers | vlm-sglang |
操作系統 | Linux / Windows / macOS | Linux / Windows | Linux / Windows (via WSL2) |
CPU推理支持 | ? | ? | |
GPU要求 | Turing及以后架構,6G顯存以上或Apple Silicon | Turing及以后架構,8G顯存以上 | |
內存要求 | 最低16G以上,推薦32G以上 | ||
磁盤空間要求 | 20G以上,推薦使用SSD | ||
python版本 | 3.10-3.13 |
安裝 MinerU
使用pip或uv安裝MinerU
pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple
pip install uv -i https://mirrors.aliyun.com/pypi/simple
uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple
通過源碼安裝MinerU
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple
[!TIP]?
mineru[core]
包含除sglang
加速外的所有核心功能,兼容Windows / Linux / macOS系統,適合絕大多數用戶。 如果您有使用sglang
加速VLM模型推理,或是在邊緣設備安裝輕量版client端等需求,可以參考文檔擴展模塊安裝指南。
使用docker部署Mineru
MinerU提供了便捷的docker部署方式,這有助于快速搭建環境并解決一些棘手的環境兼容問題。 您可以在文檔中獲取Docker部署說明。
使用 MinerU
最簡單的命令行調用方式:
mineru -p <input_path> -o <output_path>
您可以通過命令行、API、WebUI等多種方式使用MinerU進行PDF解析,具體使用方法請參考使用指南。