深入探索 PDF 數據提取:PyMuPDF 與 pdfplumber 的對比與實戰

在數據處理和分析領域,PDF 文件常常包含豐富的文本、表格和圖形信息。然而,從 PDF 中提取這些數據并非易事,尤其是當需要保留格式和顏色信息時。幸運的是,Python 社區提供了多個強大的庫來幫助我們完成這項任務,其中最常用的兩個庫是 PyMuPDFpdfplumber。本文將詳細介紹這兩個庫的特點、使用方法,并通過實際案例對比它們的優缺點。

一、PyMuPDF 和 pdfplumber 簡介

1. PyMuPDF (fitz)

PyMuPDF 是一個基于 MuPDF 的高性能 Python 庫,用于處理 PDF 文件。它支持多種功能,包括文本提取、圖像提取、表格提取、頁面渲染等。PyMuPDF 的底層是用 C++ 編寫的,因此在處理大型文件時表現出色。

2. pdfplumber

pdfplumber 是一個基于 pdfminer.six 的 Python 庫,專注于從 PDF 文件中提取文本、表格和圖像。它提供了簡單直觀的 API,適合需要精確文本位置和表格提取的場景。

二、安裝方法

PyMuPDF

pip install pymupdf

PyMuPDF 支持 Python 3.8 及以上版本。

pdfplumber

pip install pdfplumber

pdfplumber 適合 Python 3.8、3.9、3.10 和 3.11。

三、功能對比

1. 文本提取

  • PyMuPDF:支持多種文本提取格式,包括純文本、HTML、JSON 和 XML。
  • pdfplumber:提取文本時保留原始布局,支持自定義提取參數,如 x_tolerancey_tolerance

2. 表格提取

  • PyMuPDF:可以提取表格結構,但需要手動解析 JSON 或字典格式。
  • pdfplumber:提供了更直觀的表格提取方法,支持直接將表格數據轉換為 Pandas DataFrame。

3. 圖像提取

  • PyMuPDF:支持提取頁面中的所有圖像,并可以將頁面渲染為圖像。
  • pdfplumber:支持提取圖像,但功能相對有限。

4. 性能

  • PyMuPDF:處理速度更快,適合處理大型 PDF 文件。
  • pdfplumber:在提取文本和表格時速度較慢,但提取精度更高。

四、實戰案例

1. 提取文本

PyMuPDF
import fitz  # PyMuPDFdef extract_text_from_pdf(file_path, output_path):doc = fitz.open(file_path)full_text = ""for page in doc:full_text += page.get_text()doc.close()with open(output_path, "w", encoding="utf-8") as file:file.write(full_text)return f"文本已保存到 {output_path}"result = extract_text_from_pdf("example.pdf", "output.txt")
print(result)
pdfplumber
import pdfplumberwith pdfplumber.open("example.pdf") as pdf:first_page = pdf.pages[0]text = first_page.extract_text()print(text)

2. 提取表格

PyMuPDF
import fitz  # PyMuPDFdoc = fitz.open("example.pdf")
page = doc[0]
table_data = page.get_text("dict")
print(table_data)
pdfplumber
import pdfplumber
import pandas as pdwith pdfplumber.open("example.pdf") as pdf:page = pdf.pages[0]table = page.extract_table()df = pd.DataFrame(table[1:], columns=table[0])print(df)

3. 提取圖像

PyMuPDF
import fitz  # PyMuPDFdoc = fitz.open("example.pdf")
page = doc[0]
for img_index, img in enumerate(page.get_images(full=True)):xref = img[0]base_image = doc.extract_image(xref)img_bytes = base_image["image"]with open(f"page_{page.number+1}_img_{img_index+1}.png", "wb") as f:f.write(img_bytes)
pdfplumber
import pdfplumberwith pdfplumber.open("example.pdf") as pdf:page = pdf.pages[0]for img in page.images:x0, y0, x1, y1 = img["x0"], img["y0"], img["x1"], img["y1"]im = page.to_image().originalcropped_im = im.crop((x0, y0, x1, y1))cropped_im.save(f"page_{page.page_number}_img_{img['object_type']}.png")

五、總結與推薦

1. PyMuPDF

  • 優點:高性能、功能全面,支持多種格式提取。
  • 缺點:API 較復雜,文檔相對較少。
  • 適用場景:適合處理大型 PDF 文件,需要提取多種格式數據。

2. pdfplumber

  • 優點:API 簡單直觀,提取精度高,適合文本和表格提取。
  • 缺點:性能稍弱,圖像提取功能有限。
  • 適用場景:適合需要精確提取文本和表格的場景。

推薦

  • 如果你需要高效處理大型 PDF 文件,并且需要提取多種格式數據,推薦使用 PyMuPDF
  • 如果你需要精確提取文本和表格,并且對提取精度要求較高,推薦使用 pdfplumber

通過本文的介紹,希望你對這兩個庫有了更深入的了解,并能夠根據自己的需求選擇合適的工具。無論是 PyMuPDF 還是 pdfplumber,它們都能為你的 PDF 數據提取任務提供強大的支持。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92893.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92893.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92893.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Springboot注冊過濾器的三種方式(Order 排序)

一、使用 Component Order(簡單但不夠靈活) 適用于全局過濾器,無需手動注冊,Spring Boot 會自動掃描并注冊。 Component Order(1) // 數字越小,優先級越高 public class AuthFilter implements Filter {Autowired /…

電腦硬件詳解

前幾天我的風扇轉的很快,而且cpu占用率很高,然后我在想怎么回事,然后就淺淺研究了一下電腦的硬件。 筆記本主板: 臺式機主板: 圖1: 圖2: 電腦硬件詳解 電腦的硬件是組成計算機系統的物理設…

力扣47:全排列Ⅱ

力扣47:全排列Ⅱ題目思路代碼題目 給定一個可包含重復數字的序列 nums ,按任意順序 返回所有不重復的全排列。 思路 又是任意順序和所有不重復的排列,顯而易見我們要使用回溯的辦法。 首先是回溯的結束條件即新數組的長度等于nums的長度。這道題的難點…

學習筆記091——如何實現web登錄時,密碼復雜度校驗?(后端)

1、創建工具類 /*** 密碼復雜度校驗* param password 密碼*/ public static void validatePassword(String password) {// 至少8位if (password.length() < 8) {throw new IllegalArgumentException("密碼長度至少為8位");}// 包含大小寫字母if (!password.matche…

雪花算法snowflake分布式id生成原理詳解,以及對解決時鐘回撥問題幾種方案討論

一、前言在日趨復雜的分布式系統中&#xff0c;數據量越來越大&#xff0c;數據庫分庫分表是一貫的垂直水平做法&#xff0c;但是需要一個全局唯一ID標識一條數據或者MQ消息&#xff0c;數據庫id自增就顯然不能滿足要求了。因為場景不同&#xff0c;分布式ID需要滿足以下幾個條…

【PCB設計經驗】去耦電容如何布局?

0805 和 0603 以及更小 封裝的電容用作于對中高頻的去耦,其擺放位置是有要求的: 一、建議盡可能的靠近主控芯片的 電源管腳放置。 二、使用較寬和短的引線連接到電源和地過孔可以采用如下 圖 4–1 中的圖 ( 2 )、( 3)、 ( 4 )任意一種方式,避免使用長線或者較細的…

自動化運維實驗

目錄 一、實驗拓撲 二、實驗目的 三、實驗步驟 實驗思路&#xff1a; 代碼部分&#xff1a; 四、實驗結果&#xff1a; 一、實驗拓撲 二、實驗目的 利用python腳本&#xff0c;在本地&#xff0c;或者虛擬機里實現&#xff0c;設備CRC數量統計&#xff0c;并輸出成表格 三、實驗…

Wed前端第二次作業

一、作業1&#xff1a;完成自己學校的官網&#xff0c;動忘內容直接貼&#xff0c;至少三個不同的頁面1、界面1&#xff08;1&#xff09;相關代碼<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name&quo…

第5節 大模型分布式推理通信優化與硬件協同

前言 在分布式推理中,多設備(如GPU、CPU)之間的數據傳輸(通信)是連接計算的“橋梁”。如果通信效率低下,即使單設備計算能力再強,整體性能也會大打折扣。想象一下:如果工廠之間的物流卡車跑得比生產速度還慢,再多的工廠也無法提高整體產量。 本節將從最基礎的單設備內…

XGBoost 的適用場景以及與 CNN、LSTM 的區別

XGBoost 的核心優勢與適用場景XGBoost 是一種梯度提升決策樹算法&#xff0c;屬于集成學習方法。它在處理結構化/表格化數據方面表現極其出色&#xff0c;是 Kaggle 競賽和工業界廣泛應用的“冠軍”模型。其核心優勢和應用場景包括&#xff1a;1. 結構化/表格化數據數據形式&a…

快速設計簡單嵌入式操作系統(3):動手實操,基于STC8編寫單任務執行程序,感悟MCU指令的執行過程

引言 前面我們陸續學習了操作系統常見的基礎概念&#xff0c;接著簡單了解了一下8051單片機的內存結構和執行順序切換的相關概念。接下來&#xff0c;我們就開始進行實操&#xff0c;基于8051單片機STC8來編寫一個簡單的操作系統&#xff0c;這里我們先實現一個單任務的執行程…

Spring AI Alibaba - 聊天機器人快速上手

本節對應 Github&#xff1a;https://github.com/JCodeNest/JCodeNest-AI-Alibaba/tree/master/spring-ai-alibaba-helloworld 本文將以阿里巴巴的通義大模型為例&#xff0c;通過 Spring AI Alibaba 組件&#xff0c;手把手帶你完成從零到一的構建過程&#xff1a;首先&#…

串口通信學習

不需要校驗位就選8位&#xff0c;需要校驗位就選9位&#xff01;USRTUSART框圖STM32的外設引腳這是USART的基本結構。數據幀&#xff0c;八位是這個公式還是很重要的&#xff01;如果在編輯器里面使用printf打印漢字的話&#xff0c;會出現亂碼的話&#xff0c;前提是你的編碼格…

面試經典150題[001]:合并兩個有序數組(LeetCode 88)

合并兩個有序數組&#xff08;LeetCode 88&#xff09; https://leetcode.cn/problems/merge-sorted-array/?envTypestudy-plan-v2&envIdtop-interview-150 1. 題目背景 你有兩個已經排好序的數組&#xff1a; nums1&#xff1a;前面是有效數字&#xff0c;后面是空位&…

快速安裝達夢8測試庫

計劃&#xff1a;數據庫名實例名PORT_NUMMAL_INST_DW_PORTMAL_HOSTMAL_PORTMAL_DW_PORTDMDWDBINST_1533615101192.168.207.612510135101*****[2025-08-11 15:14:34]***** Last login: Fri Jul 25 17:36:04 2025 from 192.168.88.48 [rootdm01 ~]# ip a 1: lo: <LOOPBACK,UP,…

Hive中優化問題

一、小文件合并優化Hive中的小文件分為Map端的小文件和Reduce端的小文件。(1)、Map端的小文件優化是通過CombineHiveInputFormat操作。相關的參數是&#xff1a;set hive.input.formatorg.apache.hadoop.hive.ql.io.CombineHiveInputFormat;(2)、Reduce端的小文件合并Map端的小…

tlias智能學習輔助系統--Maven高級-繼承

目錄 一、打包方式與應用場景 二、父子工程繼承關系 1. 父工程配置 2. 子工程配置 三、自定義屬性與引用屬性 1. 定義屬性 2. 在 dependencyManagement 中引用 3. 子工程中引用 四、dependencyManagement 與 dependencies 的區別 五、項目結構示例 六、小結 在實際開…

把 AI 押進“小黑屋”——基于 LLM 的隱私對話沙盒設計與落地

標簽&#xff1a;隱私計算、可信執行環境、LLM、沙盒、內存加密、TEE、SGX、Gramine ---- 1. 背景&#xff1a;甲方爸爸一句話&#xff0c;“數據不能出機房” 我們給某三甲醫院做智能問診助手&#xff0c;模型 70 B、知識庫 300 GB。 甲方只給了兩條鐵律&#xff1a; 1. 患者…

Java 大視界 -- Java 大數據在智能教育學習效果評估指標體系構建與精準評估中的應用(394)

Java 大視界 -- Java 大數據在智能教育學習效果評估指標體系構建與精準評估中的應用&#xff08;394&#xff09;引言&#xff1a;正文&#xff1a;一、傳統學習評估的 “數字陷阱”&#xff1a;看不全、說不清、跟不上1.1 評估維度的 “單行道”1.1.1 分數掩蓋的 “學習真相”…

Dubbo 3.x源碼(33)—Dubbo Consumer接收服務調用響應

基于Dubbo 3.1&#xff0c;詳細介紹了Dubbo Consumer接收服務調用響應 此前我們學習了Dubbo Provider處理服務調用請求的流程&#xff0c;現在我們來學習Dubbo Consumer接收服務調用響應流程。 實際上接收請求和接收響應同屬于接收消息&#xff0c;它們的流程的很多步驟是一樣…