模型訓練數據-MinerU一款Pdf轉Markdown軟件
https://codeyuan.blog.csdn.net/article/details/144315141
在當前大模型(LLM)和自然語言處理(NLP)應用快速發展的背景下,如何高效地將 PDF 等非結構化文檔轉換為結構化數據,成為了構建高質量語料庫和訓練數據的關鍵步驟。本文將深入對比兩款在該領域表現突出的開源工具:Marker 和 MinerU,幫助開發者和研究人員根據自身需求選擇合適的工具。
項目概覽
Marker
- 項目地址:https://github.com/VikParuchuri/marker
- 開發者:Vik Paruchuri
- 核心功能:
- 支持將 PDF、EPUB、MOBI 等文檔快速轉換為 Markdown 或 JSON 格式。
- 多語言支持,優化處理書籍和科研論文。
- 自動去除頁眉、頁腳等冗余信息,保留文檔結構。
- 支持表格、代碼塊識別與格式化,提取圖像并保存。
- 大部分公式可轉換為 LaTeX 格式。
- 支持 GPU、CPU 和 MPS,支持并行處理。
- 內置 OCR 功能(默認使用 Surya 引擎,可切換為 OCRmyPDF)。
MinerU
- 項目地址:https://github.com/opendatalab/MinerU
- 開發者:OpenDataLab(上海人工智能實驗室)
- 核心功能:
- 一站式高質量數據提取工具,支持 PDF、網頁、電子書等多種格式。
- 集成先進的文檔解析模型,支持復雜布局解析(多欄、圖像、表格、公式等)。
- 內置 OCR,支持 84 種語言的識別。
- 支持多種輸出格式:Markdown、JSON、LaTeX、HTML 等。
- 提供可視化結果,便于驗證和調試。
功能對比
功能項 | Marker | MinerU |
---|---|---|
輸入格式 | PDF、EPUB、MOBI 等 | PDF、網頁、EPUB、MOBI、DOCX 等 |
輸出格式 | Markdown、JSON、HTML | Markdown、JSON、LaTeX、HTML 等 |
結構化提取 | 支持段落、標題、列表等基本結構 | 支持段落、標題、列表、表格、圖像、公式等復雜結構 |
OCR 支持 | 支持,默認使用 Surya,可選 OCRmyPDF | 支持,內置 OCR,支持 84 種語言 |
多欄布局 | 基本支持 | 強支持,適用于復雜多欄布局 |
公式識別 | 支持,轉換為 LaTeX | 支持,自動識別并轉換為 LaTeX |
表格識別 | 支持,格式化為 Markdown 或 HTML | 強支持,自動轉換為 LaTeX 或 HTML |
圖像提取 | 支持圖像提取與保存 | 支持圖像提取,附帶圖像描述功能 |
可視化工具 | 無 | 支持可視化布局和內容,便于驗證輸出 |
多語言支持 | 支持多語言,優化處理英語文檔 | 支持 84 種語言,包括中、英、法、德、日等 |
處理速度 | 快,約 0.63 秒/頁 | 較快,取決于文檔復雜度與硬件配置 |
并行處理 | 支持 GPU 并行處理 | 支持 GPU 加速與多線程 |
資源占用 | GPU 內存約 4.1GB | GPU 內存需求高,建議 16GB 以上 |
適用場景 | 結構簡單的文檔,如技術手冊、報告等 | 結構復雜的文檔,如論文、科技文獻、掃描文檔等 |
開源協議 | GPL-3.0 | AGPL-3.0 |
性能對比
Marker
- 速度:每頁處理時間約 0.63 秒,顯著快于 Nougat 的 2.6 秒。
- 準確性:在非 arXiv 文檔中,平均得分為 0.61,高于 Nougat 的 0.40。
- 資源使用:在 A6000 GPU 上的峰值內存使用約為 4.1GB。
MinerU
- 性能依賴:取決于文檔復雜度和硬件配置,推薦使用高性能 GPU(16GB 以上)以達到最佳效果。
技術架構對比
Marker
- 語言:Python
- 依賴:
- 使用 PyMuPDF 進行 PDF 解析。
- 自定義文本提取和結構分析算法。
- 特點:
- 輕量級,易于部署。
- 適合快速集成到現有系統中。
MinerU
- 語言:Python
- 依賴:
- 集成 LayoutLMv3、YOLOv8、UniMERNet、PaddleOCR 等模型。
- 特點:
- 功能強大,支持復雜文檔處理。
- 提供多種輸出格式與可視化工具。
適用場景建議
- Marker:適合處理結構相對簡單、需快速批量轉換的文檔,如技術手冊、項目報告等。
- MinerU:適用于需要高精度、復雜結構提取的文檔處理任務,如科研論文、學術書籍、掃描文獻等。
總結
Marker 和 MinerU 各具優勢,選擇時應結合具體需求:
- 若需快速部署、追求效率,建議選擇 Marker。
- 若需處理結構復雜的文檔、支持多語言和高精度提取,建議選擇 MinerU。