ai之 ubuntu本地安裝mineru2.1.0

MinerU 目錄

一、更新內容概述
- - - 寫在前面的話：
    - 總體來看，2.0版本升級為全新的 VLM 解析模式，更優于以前的基礎解析方式。
二、MinerU 安裝部署
- 下面使用源碼來進行環境安裝。
- - - 注意：
    - 當前狀態說明
    - 推薦解決方案
- 如果是下載插件慢可以指定阿里源
三、MinerU 使用
- 1. 在線體驗
- 2. 命令行使用方式
- - - 2-1. 基本調用形式：
    - 需要注意的是，如果下載完 modelscope 模型，再下次調用時，如果不添加--source modelscope，系統仍然會去下載huggingface模型。
    - 2-2. 關于模型的下載：
    - 2-2-1. 在線下載模型
    - Switch to ModelScope Source
    - 需要注意的是，如果下載完 modelscope 模型，再下次調用時，如果不添加--source modelscope，系統仍然會去下載huggingface模型。
    - 2-2-2. 離線下載模型到本地
- 3. 通過python API 調用，或Visual Invocation調用方式
四、sglang加速VLM模型推理
五、VLM效率測試
- 1. 參數說明
- 2. vlm-transformers推理測試
- - - 便于觀察對比，怎么使顯存限制到1張顯卡上？
- 3. sglang推理測試
十、可能遇到的錯誤
- 解決方式是安裝cuda和安裝gcc/g++(版本11)：
- - - 1. 安裝cuda：
    - 2. 安裝gcc/g++：

MinerU 倉庫地址：https://github.com/opendatalab/mineru

一、更新內容概述

MinerU v2.0.0版本，更新內容簡單概括如下：

調用格式優化
之前調用 MinerU 安裝的包名為magic-pdf(MinerU倉庫舊名)，現在統一為 mineru，解決了命名一致性的問題。
部署方式優化
之前調用時，需要先手動下載模型，并生成 json 配置文件，現在模型無需手動下載，而會在首次調用時自動下載，并且具體配置信息可通過參數指定，無需再通過json配置文件。
文件結構優化
除代碼結構優化之外，下載的模型目錄和輸出的結果目錄會更加清晰。
方向垂直化
移除了內置的 LibreOffice 文檔轉換模塊，解析文件將僅支持 pdf/jpg/png
全新的 VLM 解析方式
推出了僅0.9B參數量的 VLM 模型，單模型涵蓋所有文檔解析任務，精度優于傳統 72B 級別的 VLM 模型。

在本文中，以前的解析方式統稱為基礎解析方式，VLM解析方式則稱為VLM解析方式。

寫在前面的話：

區別是在使用時，通過 -b 或 --backend參數，可指定使用基礎解析方式或vlm解析方式：
總的分

pipeline：基礎解析方式
vlm-transformers：vlm解析方式
2種解析方式。

其中 vlm解析方式在調用時又可細分為：

vlm-sglang-engine：vlm加速解析方式
vlm-sglang-client：vlm加速解析方式(連接sglang 服務調用)

所以在實際調用時，就可以有4種 -b 指定

mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers

通過外部指定CUDA_VISIBLE_DEVICES來強行約束進程只看到限定的顯卡。

下面指定進程將所有顯存放到第1張顯卡(編號0)上。

CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers

通過設定vlm-sglang-engine參數來控制使用sglang推理。

CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-sglang-engine

實測發現，對于-b vlm-sglang-engine，顯存占用會明顯增加。當然，速度提升也非常明顯，達到了5s/頁。

總體來看，2.0版本升級為全新的 VLM 解析模式，更優于以前的基礎解析方式。

估計是它內部采用了某些加速機制，可以通過更高的顯存占用換取更快的時間，默認情況下，會盡可能最大利用剩余顯存資源。

————————————————

二、MinerU 安裝部署

前置條件：MinerU v2.0.0 兼容的python版本為 3.10-3.14。
倉庫readme.md文件中，Local Deployment 部分示例了兩種安裝方法：1.1 Install via pip or uv 和 1.2. Install from source。
至于1.3 是兩種版本：核心版(無需 sglang 加速) 和完整版（包含 sglang 加速，會多一些依賴）

下面使用源碼來進行環境安裝。

下載源碼

(base) root@hostname: cd /usr/local/soft/ai/minerU 
(base) root@hostname:/usr/local/soft/ai/minerU# git clone https://gitee.com/ai_seek/MinerU.gitCloning into 'MinerU'...
remote: Enumerating objects: 17202, done.
remote: Counting objects: 100% (3298/3298), done.
remote: Compressing objects: 100% (1373/1373), done.
remote: Total 17202 (delta 1893), reused 3158 (delta 1817), pack-reused 13904 (from 1)
Receiving objects: 100% (17202/17202), 129.58 MiB | 10.00 MiB/s, done.
Resolving deltas: 100% (10278/10278), done.
(base) root@hostname:/usr/local/soft/ai/minerU# 
(base

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/88846.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/88846.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/88846.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！