ai之 ubuntu本地安裝mineru2.1.0

MinerU 目錄

  • 一、更新內容概述
        • 寫在前面的話:
        • 總體來看,2.0版本升級為全新的 VLM 解析模式,更優于以前的基礎解析方式。
  • 二、MinerU 安裝部署
    • 下面使用源碼來進行環境安裝。
        • 注意:
        • 當前狀態說明
        • 推薦解決方案
    • 如果是下載插件慢可以 指定阿里源
  • 三、MinerU 使用
    • 1. 在線體驗
    • 2. 命令行使用方式
        • 2-1. 基本調用形式:
        • 需要注意的是,如果下載完 modelscope 模型,再下次調用時,如果不添加--source modelscope,系統仍然會去下載huggingface模型。
        • 2-2. 關于模型的下載:
        • 2-2-1. 在線下載模型
        • Switch to ModelScope Source
        • 需要注意的是,如果下載完 modelscope 模型,再下次調用時,如果不添加--source modelscope,系統仍然會去下載huggingface模型。
        • 2-2-2. 離線下載模型到本地
    • 3. 通過python API 調用,或Visual Invocation調用方式
  • 四、sglang加速VLM模型推理
  • 五、VLM效率測試
    • 1. 參數說明
    • 2. vlm-transformers推理測試
        • 便于觀察對比,怎么使顯存限制到1張顯卡上?
    • 3. sglang推理測試
  • 十、可能遇到的錯誤
    • 解決方式是安裝cuda和安裝gcc/g++(版本11):
        • 1. 安裝cuda:
        • 2. 安裝gcc/g++:

MinerU 倉庫地址:https://github.com/opendatalab/mineru

一、更新內容概述

MinerU v2.0.0版本,更新內容簡單概括如下:

  • 調用格式優化
    之前調用 MinerU 安裝的包名為magic-pdf(MinerU倉庫舊名),現在統一為 mineru,解決了命名一致性的問題。
  • 部署方式優化
    之前調用時,需要先手動下載模型,并生成 json 配置文件,現在模型無需手動下載,而會在首次調用時自動下載,并且具體配置信息可通過參數指定,無需再通過json配置文件。
  • 文件結構優化
    除代碼結構優化之外,下載的模型目錄和輸出的結果目錄會更加清晰。
  • 方向垂直化
    移除了內置的 LibreOffice 文檔轉換模塊,解析文件將僅支持 pdf/jpg/png
  • 全新的 VLM 解析方式
    推出了僅0.9B參數量的 VLM 模型,單模型涵蓋所有文檔解析任務,精度優于傳統 72B 級別的 VLM 模型。

在本文中,以前的解析方式統稱為基礎解析方式,VLM解析方式則稱為VLM解析方式。

寫在前面的話:

區別是在使用時,通過 -b 或 --backend參數,可指定使用基礎解析方式或vlm解析方式:
總的分

  • pipeline:基礎解析方式
  • vlm-transformers:vlm解析方式
    2種 解析方式。

其中 vlm解析方式 在調用時又可細分為:

  • vlm-sglang-engine:vlm加速解析方式
  • vlm-sglang-client:vlm加速解析方式(連接sglang 服務調用)

所以在實際調用時,就可以有4種 -b 指定

mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers 

通過外部指定CUDA_VISIBLE_DEVICES來強行約束進程只看到限定的顯卡。

下面指定進程將所有顯存放到第1張顯卡(編號0)上。

CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers

通過設定vlm-sglang-engine參數來控制使用sglang推理。

CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-sglang-engine

實測發現,對于-b vlm-sglang-engine,顯存占用會明顯增加。當然,速度提升也非常明顯,達到了5s/頁。

總體來看,2.0版本升級為全新的 VLM 解析模式,更優于以前的基礎解析方式。

估計是它內部采用了某些加速機制,可以通過更高的顯存占用換取更快的時間,默認情況下,會盡可能最大利用剩余顯存資源。

————————————————

二、MinerU 安裝部署

  • 前置條件:MinerU v2.0.0 兼容的python版本為 3.10-3.14。
  • 倉庫readme.md文件中,Local Deployment 部分示例了兩種安裝方法:1.1 Install via pip or uv 和 1.2. Install from source。
    至于1.3 是兩種版本:核心版(無需 sglang 加速) 和 完整版(包含 sglang 加速,會多一些依賴)

下面使用源碼來進行環境安裝。

  1. 下載源碼
(base) root@hostname: cd /usr/local/soft/ai/minerU 
(base) root@hostname:/usr/local/soft/ai/minerU# git clone https://gitee.com/ai_seek/MinerU.gitCloning into 'MinerU'...
remote: Enumerating objects: 17202, done.
remote: Counting objects: 100% (3298/3298), done.
remote: Compressing objects: 100% (1373/1373), done.
remote: Total 17202 (delta 1893), reused 3158 (delta 1817), pack-reused 13904 (from 1)
Receiving objects: 100% (17202/17202), 129.58 MiB | 10.00 MiB/s, done.
Resolving deltas: 100% (10278/10278), done.
(base) root@hostname:/usr/local/soft/ai/minerU# 
(base

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88846.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88846.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88846.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

華為昇騰NPU與NVIDIA CUDA生態兼容層開發實錄:手寫算子自動轉換工具鏈(AST級代碼遷移方案)

點擊 “AladdinEdu,同學們用得起的【H卡】算力平臺”,H卡級別算力,按量計費,靈活彈性,頂級配置,學生專屬優惠。 當國產AI芯片崛起遭遇生態壁壘,如何實現CUDA算子到昇騰平臺的無損遷移成為關鍵挑…

GraphRAG Docker化部署,接入本地Ollama完整技術指南:從零基礎到生產部署的系統性知識體系

相關推薦:Umi-OCR 的 Docker安裝(win制作鏡像,Linux(Ubuntu Server 22.04)離線部署) 一、技術背景與發展脈絡 1.1 RAG技術演進歷程分析 檢索增強生成(RAG)技術的發展經歷了三個重要…

Android 系統默認Launcher3 菜單模式雙層改成單層-3

Android 系統默認自帶Launcher3 菜單都為雙層模式 各手機大廠的Launcher的菜單模式都為單層 如何將launcher3的菜單模式改為單層模式 mOverviewPanel = (ViewGroup) findViewById(R.id.overview_panel); mWidgetsButton = findViewById(R.id.widget_butto…

基于k8s環境下pulsar高可用測試和擴縮容(上)

#作者:任少近 文章目錄Pulsar高可用測試1. 測試目的2.當前集群環境說明3. 模擬故障場景4.功能驗證5.結論Pulsar高可用測試 1. 測試目的 本次測試旨在驗證 Apache Pulsar 在某個 Broker 節點宕機(down)的情況下,是否仍能正常提供…

JAVA JVM垃圾收集

JVM 垃圾收集是 Java 自動內存管理的核心,本文通過圍繞 “哪些是垃圾、何時回收、怎么回收、用啥回收器、內存咋分配” 等展開一、判斷哪些是垃圾引用計數法:給對象分配引用計數器,有引用時計數加 1,引用失效減 1 ,計數…

UniHttp生命周期鉤子與公共參數實戰:打造智能天氣接口客戶端

> 通過靈活的生命周期鉤子,我們讓HTTP請求從機械操作進化為智能對話 在現代應用開發中,高效處理HTTP請求是核心能力。本文將深入探索UniHttp框架中強大的**HttpApiProcessor生命周期鉤子**,并演示如何利用其**公共參數填充機制**優雅地處理第三方接口。我們將以百度天…

C++高級編程,類模版成員函數類外實現

#include <iostream> #include <string>//類模版成員函數類外實現 template<class T1,class T2> class Person {//Person構造函數 public:Person(T1 name,T2 age);// {// this->m_Namename;// this->m_Ageage;// }//Person的成員函數void show…

[Linux入門 ] RAID存儲技術概述

一.數據存儲架構 1??存儲系統 2??主機系統 3??互連部件 4??存儲設備與磁盤陣列 二.數據存儲技術 1??數據冗余技術 2??RAID 0 3??RAID 1 4??RAID 2 5??RAID 3 6??RAID 4 三.基于硬件的RAID磁盤陣列 1??陣列卡(RAID控制器) 2??陣列卡種類 …

AI繪畫生成章邯全身像提示詞

融合了歷史元素和視覺表現力&#xff0c;力求生成符合秦末名將章邯身份的全身像。 核心提示詞結構&#xff1a; [主體描述]&#xff0c;[服裝/盔甲細節]&#xff0c;[姿態/神情]&#xff0c;[武器]&#xff0c;[背景/氛圍]&#xff0c;[風格/質量]&#xff0c;[參數] 選項一&…

iOS高級開發工程師面試——關于優化

iOS高級開發工程師面試——關于優化 一、TableView 有什么好的性能優化方案?二、界面卡頓和檢測你都是怎么處理?三、談談你對離屏渲染的理解?四、如何降低APP包的大小?五、日常如何檢查內存泄露?六、APP啟動時間應從哪些方面優化?一、TableView 有什么好的性能優化方案?…

線性基學習筆記

我們稱一個線性空間 V V V 的一個極大線性無關集為這個線性空間的線性基,簡稱基。 異或線性基 在異或空間下,我們定義如下內容。 異或和 設 S S

ESP-Timer入門(基于ESP-IDF-5.4)

主要參考資料&#xff1a; ESP 定時器&#xff08;高分辨率定時器&#xff09;: https://docs.espressif.com/projects/esp-idf/zh_CN/stable/esp32s3/api-reference/system/esp_timer.html 目錄ESP-Timer與FreeRTOS TimerAPI 使用1.創建定時器2.啟動定時器3.管理定時器4.時間管…

014_批處理與大規模任務

批處理與大規模任務 目錄 批處理概述核心優勢技術規格API使用管理和監控應用場景最佳實踐 批處理概述 什么是批處理 批處理&#xff08;Batch Processing&#xff09;是一種異步處理大量Claude API請求的方法&#xff0c;允許您一次性提交多個消息請求&#xff0c;系統將在…

Python淘寶拍立淘按圖搜索API接口,json數據示例參考

淘寶拍立淘按圖搜索API接口示例淘寶的拍立淘(圖片搜索)功能通常是通過淘寶開放平臺提供的API實現的。以下是一個模擬的JSON數據示例和接口調用參考&#xff1a;模擬API請求示例import requestsimport base64# 示例圖片路徑image_path "example.jpg"# 讀取圖片并編碼…

靜默的田野革命—人工智能重構農業生態的技術風暴與文明悖論

一、饑餓困局的數字突圍當全球糧食損失率高達30%&#xff08;約13億噸&#xff09;與8億人營養不良并存&#xff0c;當農藥濫用導致傳粉昆蟲種群崩潰與地下水資源枯竭&#xff0c;傳統農業的生態死結日益收緊。這場危機的核心是生物復雜性對工業化農業的報復&#xff1a;小麥基…

【大模型推理論文閱讀】 Thinking Tokens are Information Peaks in LLM Reasoning

Demystifying Reasoning Dynamics with Mutual Information&#xff1a;Thinking Tokens are Information Peaks in LLM Reasoning 摘要 大語言推理模型&#xff08;LRM&#xff09;在復雜問題解決方面展現出了令人矚目的能力&#xff0c;但其內部推理機制仍未得到充分理解。…

【TCP/IP】14. 遠程登錄協議

14. 遠程登錄協議14. 遠程登錄協議14.1 基本概念14.2 Telnet 命令14.3 Telnet 選項及協商14.4 Telnet 子選項協商14.5 Telnet 操作模式本章要點14. 遠程登錄協議 14.1 基本概念 Telnet 協議是 TCP/IP 協議族的重要成員&#xff0c;核心功能是實現本地計算機對遠程主機的終端仿…

Flink1.20.1集成Paimon遇到的問題

flinkcdc mysql 到paimon 1&#xff1a;Caused by: java.lang.ClassNotFoundException: org.apache.kafka.connect.data.Schema 可以參考這個文章 明確指出了flink-connector-mysql-cdc-3.4.0.jar存在這個包&#xff0c;但是flink-sql-connector-mysql-cdc-3.4.0.jar中沒有這個…

C++高頻知識點(十)

文章目錄46. 智能指針是什么&#xff1f;怎么使用?1. std::unique_ptr2. std::shared_ptr3. std::weak_ptr47. 什么是野指針&#xff1f;1. 使用已釋放的指針2. 未初始化的指針3. 指針超出作用域如何避免野指針1. 立即將指針置空2. 初始化指針3. 使用智能指針4. 避免返回局部變…

c#中Random類、DateTime類、String類

C# 中 Random 類分析Random 類用于生成偽隨機數&#xff0c;位于 System 命名空間。它的核心機制是基于一個種子值 (seed)&#xff0c;通過算法生成看似隨機的數列。相同種子會生成相同的隨機數序列&#xff0c;這在需要可重現的隨機場景中很有用。核心特點種子與隨機性默認構造…