LLMs之PDF:MinerU(將PDF文件轉換成Markdown和JSON格式)的簡介、安裝和使用方法、案例應用之詳細攻略

LLMs之PDF:MinerU(將PDF文件轉換成Markdown和JSON格式)的簡介、安裝和使用方法、案例應用之詳細攻略

目錄

MinerU的簡介

0、日志

1、MinerU 的主要特點

2、已知問題

MinerU 安裝和使用方法

1、MinerU的三種體驗方式

T1、在線演示

T2、快速CPU演示

T3、GPU 使用

2、命令行使用

3、Python API 使用

MinerU的案例應用

科學文獻處理

數據預處理

知識圖譜構建

文檔摘要

其他文本挖掘任務


MinerU的簡介

2024年7月5日,MinerU是一個高質量的開源工具,用于將PDF文件轉換成Markdown和JSON格式。它提供了一站式解決方案,能夠高精度地提取PDF文檔中的各種信息。

MinerU 項目誕生于InternLM的預訓練過程中,旨在解決科學文獻中的符號轉換問題,并為大模型時代的技術發展做出貢獻。 它致力于提供高質量的PDF內容提取,目標是將PDF轉換為機器可讀的格式,例如Markdown和JSON,方便后續處理和應用。 與商業產品相比,MinerU 仍在發展中,如果遇到問題或結果不理想,建議在GitHub issue中提交問題并附上相關的PDF文件。

MinerU是一個功能強大且易于使用的PDF轉換工具,它能夠高效地將PDF轉換為Markdown和JSON格式,并支持多種高級功能,例如公式識別、表格識別和OCR。 雖然還存在一些已知問題,但其不斷更新迭代,并積極吸納社區反饋,未來有望成為一個更加完善和強大的PDF處理工具。

GitHub地址:GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式開源高質量數據提取工具,將PDF轉換成Markdown和JSON格式。

0、日志

2024年11月22日發布0.10.0版本。引入了混合OCR文本提取功能,顯著提高了在復雜文本分布場景(如密集公式、不規則跨度區域和圖像表示的文本)中的解析性能。結合了文本模式中準確內容提取和更快速度的優勢,以及在OCR模式中更精確的跨度/行區域識別。?
2024年11月15日發布0.9.3版本。集成了RapidTable進行表格識別,將單表格解析速度提高了10倍以上,同時準確性更高,GPU內存使用率更低。?
2024年11月6日發布0.9.2版本。集成了StructTable-InternVL2-1B模型以實現表格識別功能。?
2024年10月31日發布0.9.0版本。這是一個主要的新版本,進行了廣泛的代碼重構,解決了許多問題,提高了性能,降低了硬件要求,并增強了可用性: 重構了排序模塊代碼,使用layoutreader進行閱讀順序排序,確保在各種布局中保持高準確性。 重構了段落拼接模塊,實現了跨列、跨頁、跨圖形和跨表格場景的良好效果。 重構了列表和目錄識別功能,顯著提高了列表塊和目錄塊的準確性,以及相應文本段落的解析。 重構了圖形、表格和描述文本的匹配邏輯,大大提高了將標題和腳注與圖形和表格匹配的準確性,并將描述文本的丟失率降低到接近零。 為OCR添加了多語言支持,支持檢測和識別84種語言。支持的語言列表請參見OCR語言支持列表。 添加了內存回收邏輯和其他內存優化措施,顯著降低了內存使用。啟用所有加速功能(不包括表格加速(布局/公式/OCR))的內存需求從16GB降低到8GB,啟用所有加速功能的內存需求從24GB降低到10GB。 優化了配置文件功能開關,添加了獨立的公式檢測開關,在不需要公式檢測時可以顯著提高速度和解析結果。 集成了PDF-Extract-Kit 1.0: 添加了自研的doclayout_yolo模型,與原始解決方案相比,處理速度提高了10倍以上,同時保持了類似的解析效果,并且可以通過配置文件與layoutlmv3自由切換。 將公式解析升級到unimernet 0.2.1,提高了公式解析的準確性,同時顯著降低了內存使用。 由于PDF-Extract-Kit 1.0的倉庫變更,您需要重新下載模型。請參閱如何下載模型以獲取詳細步驟。?
2024年9月27日發布0.8.1版本,修復了一些錯誤,并提供了在線演示和前端界面的本地化部署版本。?
2024年9月9日:發布0.8.0版本,支持使用Dockerfile快速部署,并在Huggingface和Modelscope上推出演示。
2024年8月30日:發布0.7.1版本,添加了paddle tablemaster表格識別選項?
2024年8月9日:發布0.7.0b1版本,簡化了安裝過程,添加了表格識別功能?
2024年8月1日:發布0.6.2b1版本,優化了依賴沖突問題和安裝文檔
2024年7月5日:首次開源發布

1、MinerU 的主要特點

去除頁眉、頁腳、腳注、頁碼等干擾信息;以人類可讀的順序輸出文本,適應單列、多列和復雜布局;保留原始文檔結構,包括標題、段落、列表等;提取圖像、圖像描述、表格、表格標題和腳注;自動識別并轉換公式為LaTeX格式;自動識別并轉換表格為HTML格式;自動檢測掃描版PDF和亂碼PDF并啟用OCR功能;OCR支持84種語言的檢測和識別;支持多種輸出格式,例如多模態和NLP Markdown、按閱讀順序排序的JSON以及豐富的中間格式;支持多種可視化結果,包括布局可視化和跨度可視化,方便確認輸出質量;支持CPU和GPU環境;兼容Windows、Linux和Mac平臺。

>> 高質量PDF提取工具:MinerU 是一款高質量的工具,能夠將PDF文件轉換成機器可讀的格式,例如Markdown和JSON。這使得數據提取和進一步處理變得非常容易。

>> 多格式輸出:支持多種輸出格式,包括多模態和NLP Markdown、按閱讀順序排序的JSON以及豐富的中間格式。

>> 結構化保留:能夠保留原始文檔的結構,包括標題、段落、列表等,保證語義連貫性。

>> 全面信息提取:不僅提取文本,還能夠提取圖像、圖像描述、表格、表格標題和腳注等信息。

>> 公式和表格轉換:自動識別并轉換文檔中的公式為LaTeX格式,表格為HTML格式。

>> OCR支持:自動檢測掃描版PDF和亂碼PDF,并啟用OCR功能,支持84種語言的檢測和識別。

>> 布局處理能力強:能夠處理單列、多列和復雜布局的文檔,并按人類可讀的順序輸出文本。 針對復雜的文本分布場景(如密集公式、不規則跨度區域和圖像表示的文本)的解析性能也有顯著提升。

>> 多種優化:進行了大量的代碼重構,解決了諸多問題,提升了性能,降低了硬件要求,并增強了易用性。 包括內存優化,支持多種模型選擇,并針對公式檢測、表格識別等功能提供了獨立開關,方便用戶根據需求調整。

>> 多種運行環境支持:支持CPU和GPU環境,兼容Windows、Linux和Mac平臺。

>> 開源且持續更新:項目開源,并持續更新和維護,不斷改進性能和功能。

2、已知問題

>> 復雜的布局可能會導致閱讀順序錯誤。

>> 不支持垂直文本。

>> 對一些不常見的列表格式識別可能存在問題。

>> 只支持一級標題。

>> 代碼塊目前不支持。

>> 漫畫書、藝術畫冊、小學課本和練習題等類型的PDF解析效果可能較差。

>> 復雜的表格識別可能出現行/列識別錯誤。

>> 對于一些小眾語言的PDF,OCR識別可能存在誤差。

>> 部分公式在Markdown中可能無法正確渲染。

MinerU 安裝和使用方法

1、MinerU的三種體驗方式

在線演示(無需安裝)、快速CPU演示(Windows、Linux、Mac)和GPU加速(需要CUDA環境)。

T1、在線演示

提供了穩定版和測試版兩個版本,無需任何安裝,可以直接在網頁上進行測試。

T2、快速CPU演示

安裝 magic-pdf:使用conda創建名為MinerU的Python 3.10虛擬環境,激活環境后,使用pip安裝 magic-pdf[full] 包,并指定額外的索引URL(--extra-index-url https://wheels.myhloli.com)。

下載模型權重文件:參考項目文檔中的“如何下載模型文件”部分進行下載。

修改配置文件:腳本會自動生成 magic-pdf.json 文件,用戶可以修改該文件中的配置來啟用或禁用某些功能,例如表格識別。 配置文件中包含對 layoutlmv3 和 doclayout_yolo 模型、公式識別和表格識別的配置選項,用戶可以根據需要進行調整。

T3、GPU 使用

如果設備支持CUDA并滿足GPU要求,可以使用GPU加速。 項目提供了Ubuntu 22.04 LTS + GPU和Windows 10/11 + GPU的詳細指南。 也提供了使用Docker進行快速部署的方法,但需要至少8GB VRAM的GPU,所有加速功能默認啟用。

2、命令行使用

MinerU可以通過命令行進行使用,具體使用方法請參考項目文檔中的“命令行”部分。

3、Python API 使用

MinerU 也提供了Python API,方便用戶在自己的程序中集成使用,具體使用方法請參考項目文檔中的“API”部分。

MinerU的案例應用

MinerU 主要應用于需要從PDF文檔中提取結構化數據的場景,例如:

科學文獻處理

MinerU最初是為了解決科學文獻中的符號轉換問題而開發的,可以用于提取文獻中的公式、表格、文本等信息,方便后續的分析和處理。

數據預處理

MinerU可以作為數據預處理工具,將PDF文檔轉換為結構化的數據,用于訓練大型語言模型或其他機器學習模型。

知識圖譜構建

MinerU可以用于提取PDF文檔中的實體關系信息,用于構建知識圖譜。

文檔摘要

MinerU可以提取PDF文檔中的關鍵信息,用于生成文檔摘要。

其他文本挖掘任務

MinerU可以用于各種文本挖掘任務,例如文本分類、情感分析等。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/63839.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/63839.shtml
英文地址,請注明出處:http://en.pswp.cn/web/63839.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【AIGC】ChatGPT 結構化 Prompt 的高級應用

博客主頁&#xff1a; [小????????] 本文專欄: AIGC | ChatGPT 文章目錄 &#x1f4af;前言&#x1f4af;標識符的使用&#xff08;Use of Identifiers&#xff09;1. #2. <>3. - 或 4. [] &#x1f4af;屬性詞的重要性和應用應用場景 &#x1f4af;具體模塊…

Python繪制圖表

Python提供了多種可視化庫&#xff0c;常用的有matplotlib、seaborn和plotly等。這些庫可以用于繪制各種類型的圖表&#xff0c;如折線圖、散點圖、柱狀圖、餅圖等。 下面是一個使用matplotlib繪制折線圖的示例&#xff1a; python import matplotlib.pyplot as plt # 準備數…

Python 練習

一、列表練習 1、求偶數元素的和[1,2,1,2,3,3,6,5,8] 1 2 3 4 5 6 list01 [1, 2, 1, 2, 3, 3, 6, 5, 8] sum 0 for i in list01: if int(i) % 2 0: sum sum i print(f"列表中所有偶數和是: {sum}") 2、計算 1 - 2 3 - 4 ... 99 中除88以外…

OpenEuler 22.03 安裝 flink-1.17.2 集群

零&#xff1a;規劃 本次計劃安裝三臺OpenEuler 22.03 版本操作系統的服務器&#xff0c;用于搭建 flink 集群。這里使用flink1.17.2 的原因&#xff0c;是便于后續與springboot的整合 服務器名IP地址作用其他應用flink01192.168.159.133主jdk11、flink-1.17.2flink02192.168.…

Docker 安裝 禪道-21.2版本-外部數據庫模式

Docker 安裝系列 1、拉取最新版本&#xff08;zentao 21.2&#xff09; [rootTseng ~]# docker pull hub.zentao.net/app/zentao Using default tag: latest latest: Pulling from app/zentao 55ab1b300d4b: Pull complete 6b5749e5ef1d: Pull complete bdccb03403c1: Pul…

寬帶ANC、窄帶ANC、正弦噪聲抑制組成混合噪聲控制系統結構

混合控制結構由寬帶ANC子系統&#xff08;BANC&#xff09;、窄帶ANC子系統&#xff08;NANC&#xff09;和正弦噪聲抑制子系統&#xff08;SNC&#xff09;三部分組成。這種混合系統的設計目標是有效地控制同時包含寬帶噪聲和窄帶噪聲&#xff08;例如周期性的正弦噪聲&#x…

車載網關性能 --- GW ECU報文(message)處理機制的技術解析

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 所謂雞湯,要么蠱惑你認命,要么慫恿你拼命,但都是回避問題的根源,以現象替代邏輯,以情緒代替思考,把消極接受現實的懦弱,偽裝成樂觀面對不幸的…

【潛意識Java】深度解析黑馬項目《蒼穹外賣》與藍橋杯算法的結合問題

目錄 為什么要結合項目與算法&#xff1f; 1. 藍橋杯與《蒼穹外賣》項目的結合 實例&#xff1a;基于藍橋杯算法思想的訂單配送路徑規劃 問題描述&#xff1a; 代碼實現&#xff1a;使用動態規劃解決旅行商問題 代碼解析&#xff1a; 為什么這個題目與藍橋杯相關&#x…

自己搭建專屬AI:Llama大模型私有化部署

前言 AI新時代&#xff0c;提高了生產力且能幫助用戶快速解答問題&#xff0c;現在用的比較多的是Openai、Claude&#xff0c;為了保證個人隱私數據&#xff0c;所以嘗試本地&#xff08;Mac M3&#xff09;搭建Llama模型進行溝通。 Gpt4all 安裝比較簡單&#xff0c;根據 G…

大語言模型中的Agent優勢及相關技術;Agent和RAG區別

大語言模型中的Agent優勢及相關技術: 強大的任務規劃與執行能力 技術:通過將復雜任務拆解為多個子任務,并依據任務間的邏輯關系和優先級進行規劃,確定執行順序,調用相應工具或模型來完成各子任務,最終實現復雜任務的整體解決。如微軟的Jarvis,可利用LLM的推理規劃能力拆…

深入理解構造函數:C++ 編程中的基石

一、概念 構造函數(Constructor) 是一種特殊的成員函數&#xff0c;用于在創建對象時初始化對象的狀態&#xff08;即成員變量&#xff09;。它的主要作用是保證對象在創建時具有有效的初始值。 二、特點 與類同名&#xff1a; 構造函數的名稱與類名相同&#xff0c;沒有返回…

GIS數據處理/程序/指導,街景百度熱力圖POI路網建筑物AOI等

簡介其他數據處理/程序/指導&#xff01;&#xff01;&#xff01;&#xff08;1&#xff09;街景數據獲取&#xff08;2&#xff09;街景語義分割后像素提取&#xff0c;指標計算代碼&#xff08;綠視率&#xff0c;天空開闊度、視覺熵/景觀多樣性等&#xff09;&#xff08;3…

微前端qiankun的使用——實踐

qiankun 創建主應用項目——vue2 main.js注冊子應用 $ yarn add qiankun # 或者 npm i qiankun -Simport { registerMicroApps, start } from qiankun; import Vue from "vue"; import App from "./App.vue"; import router from "./router"; …

后端項目java中字符串、集合、日期時間常用方法

我這里只介紹了項目中最常用的哈,比如像集合有很多,但我們最常用的就是ArrayList。 然后我這里會以javascript中的字符串、數組的方法為基準來實現,有些方法js和java會有些區別也會介紹 字符串 每次修改 String 對象都會創建一個新的對象,而 StringBuffer 可以在同一個對象…

Ubuntu 22.04永久保存路由

在 Ubuntu 22.04 上&#xff0c;可以按照以下方式配置讓流量訪問 172.19.201.207 走指定的路由。 1. 臨時添加路由 臨時路由規則只在當前系統會話中有效&#xff0c;重啟后會丟失。 添加路由規則 運行以下命令&#xff1a; sudo ip route add 172.19.201.207 via 192.168.2…

實用 Linux 之命令(Practical Linux Commands)

實用 Linux之 命令&#xff0c;可以解決日常99%的問題~ 1、基本命令 uname -m 顯示機器的處理器架構uname -r 顯示正在使用的內核版本dmidecode -q 顯示硬件系統部件(SMBIOS / DMI) hdparm -i /dev/hda 羅列一個磁盤的架構特性hdparm -tT /dev/sda 在磁盤上執行測試性讀取操作…

SAP SD客戶主數據及其配置

一、客戶主數據概述 在SD模塊概覽中對于SD模塊及其有關的三大主數據進行了概要介紹&#xff0c;本篇文章將重點對于客戶主數據進行有關介紹。 1、業務伙伴主數據 在提到客戶主數據之前&#xff0c;我們先了解業務伙伴主數據的概念。 業務伙伴主數據是一個更廣泛的概念&#x…

GitCode 光引計劃征文展示|MilvusPlus:開啟向量數據庫新篇章

在人工智能和大數據時代&#xff0c;向量數據庫作為處理非結構化數據的核心技術&#xff0c;正變得越來越重要。MilvusPlus&#xff0c;作為「光引計劃」的一部分&#xff0c;應運而生&#xff0c;旨在提供一個高性能、易擴展、全功能的向量數據庫解決方案。項目背景根植于對現…

網絡架構與IP技術:4K/IP演播室制作的關鍵支撐

隨著科技的不斷發展&#xff0c;廣播電視行業也在不斷迭代更新&#xff0c;其中4K/IP演播室技術的應用成了一個引人注目的焦點。4K超高清技術和IP網絡技術的結合&#xff0c;不僅提升了節目制作的畫質和效果&#xff0c;還為節目制作帶來了更高的效率和靈活性。那么4K超高清技術…

30多種獨特藝術抽象液態酸性金屬鍍鉻封面背景視覺紋理MOV視頻素材

使用 Prismatic Flows 轉換您的項目&#xff01;這個包擁有 30 多種獨特的液體背景和動畫&#xff0c;為任何創意活動提供令人驚嘆的視覺效果。 棱鏡流 – 動畫背景和迭加包括30多種不同的液體背景和動畫。這些高質量的資源非常適合通過充滿活力和動態的視覺效果來增強您的項目…