MinerU 目錄
- 一、更新內容概述
- 寫在前面的話:
- 總體來看,2.0版本升級為全新的 VLM 解析模式,更優于以前的基礎解析方式。
- 二、MinerU 安裝部署
- 下面使用源碼來進行環境安裝。
- 注意:
- 當前狀態說明
- 推薦解決方案
- 如果是下載插件慢可以 指定阿里源
- 三、MinerU 使用
- 1. 在線體驗
- 2. 命令行使用方式
- 2-1. 基本調用形式:
- 需要注意的是,如果下載完 modelscope 模型,再下次調用時,如果不添加--source modelscope,系統仍然會去下載huggingface模型。
- 2-2. 關于模型的下載:
- 2-2-1. 在線下載模型
- Switch to ModelScope Source
- 需要注意的是,如果下載完 modelscope 模型,再下次調用時,如果不添加--source modelscope,系統仍然會去下載huggingface模型。
- 2-2-2. 離線下載模型到本地
- 3. 通過python API 調用,或Visual Invocation調用方式
- 四、sglang加速VLM模型推理
- 五、VLM效率測試
- 1. 參數說明
- 2. vlm-transformers推理測試
- 便于觀察對比,怎么使顯存限制到1張顯卡上?
- 3. sglang推理測試
- 十、可能遇到的錯誤
- 解決方式是安裝cuda和安裝gcc/g++(版本11):
- 1. 安裝cuda:
- 2. 安裝gcc/g++:
MinerU 倉庫地址:https://github.com/opendatalab/mineru
一、更新內容概述
MinerU v2.0.0版本,更新內容簡單概括如下:
- 調用格式優化
之前調用 MinerU 安裝的包名為magic-pdf(MinerU倉庫舊名),現在統一為 mineru,解決了命名一致性的問題。 - 部署方式優化
之前調用時,需要先手動下載模型,并生成 json 配置文件,現在模型無需手動下載,而會在首次調用時自動下載,并且具體配置信息可通過參數指定,無需再通過json配置文件。 - 文件結構優化
除代碼結構優化之外,下載的模型目錄和輸出的結果目錄會更加清晰。 - 方向垂直化
移除了內置的 LibreOffice 文檔轉換模塊,解析文件將僅支持 pdf/jpg/png - 全新的 VLM 解析方式
推出了僅0.9B參數量的 VLM 模型,單模型涵蓋所有文檔解析任務,精度優于傳統 72B 級別的 VLM 模型。
在本文中,以前的解析方式統稱為基礎解析方式,VLM解析方式則稱為VLM解析方式。
寫在前面的話:
區別是在使用時,通過 -b 或 --backend參數,可指定使用基礎解析方式或vlm解析方式:
總的分
- pipeline:基礎解析方式
- vlm-transformers:vlm解析方式
2種 解析方式。
其中 vlm解析方式 在調用時又可細分為:
- vlm-sglang-engine:vlm加速解析方式
- vlm-sglang-client:vlm加速解析方式(連接sglang 服務調用)
所以在實際調用時,就可以有4種 -b 指定
mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers
通過外部指定CUDA_VISIBLE_DEVICES來強行約束進程只看到限定的顯卡。
下面指定進程將所有顯存放到第1張顯卡(編號0)上。
CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers
通過設定vlm-sglang-engine參數來控制使用sglang推理。
CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-sglang-engine
實測發現,對于-b vlm-sglang-engine,顯存占用會明顯增加。當然,速度提升也非常明顯,達到了5s/頁。
總體來看,2.0版本升級為全新的 VLM 解析模式,更優于以前的基礎解析方式。
估計是它內部采用了某些加速機制,可以通過更高的顯存占用換取更快的時間,默認情況下,會盡可能最大利用剩余顯存資源。
————————————————
二、MinerU 安裝部署
- 前置條件:MinerU v2.0.0 兼容的python版本為 3.10-3.14。
- 倉庫readme.md文件中,Local Deployment 部分示例了兩種安裝方法:1.1 Install via pip or uv 和 1.2. Install from source。
至于1.3 是兩種版本:核心版(無需 sglang 加速) 和 完整版(包含 sglang 加速,會多一些依賴)
下面使用源碼來進行環境安裝。
- 下載源碼
(base) root@hostname: cd /usr/local/soft/ai/minerU
(base) root@hostname:/usr/local/soft/ai/minerU# git clone https://gitee.com/ai_seek/MinerU.gitCloning into 'MinerU'...
remote: Enumerating objects: 17202, done.
remote: Counting objects: 100% (3298/3298), done.
remote: Compressing objects: 100% (1373/1373), done.
remote: Total 17202 (delta 1893), reused 3158 (delta 1817), pack-reused 13904 (from 1)
Receiving objects: 100% (17202/17202), 129.58 MiB | 10.00 MiB/s, done.
Resolving deltas: 100% (10278/10278), done.
(base) root@hostname:/usr/local/soft/ai/minerU#
(base