在日常的數據采集、文檔歸檔與信息挖掘過程中,PDF格式因其版式固定、內容穩定而被廣泛使用。Python 開發者若希望實現 PDF 內容的自動化提取,選擇一個易用且功能完善的庫至關重要。本文將介紹如何用Python實現 PDF文本讀取、圖片提取 以及 文檔屬性讀取 三大核心操作,適用于信息抽取、電子檔案處理等場景。
文章目錄
- Python讀取PDF文本
- Python讀取PDF圖片
- Python讀取PDF文檔屬性
- 總結
本文使用免費的 Free Spire.PDF for Python,pip安裝:pip install spire.pdf.free
Python讀取PDF文本
在PDF中提取可識別的文字內容,是信息處理的基礎需求。Spire.PDF 提供了 PdfTextExtractor
類,可逐頁提取文本,并通過參數控制提取方式。
操作說明:
- 創建
PdfDocument
實例并加載PDF; - 遍歷每一頁,構建
PdfTextExtractor
; - 設置提取選項,如是否簡化布局;
- 累加獲取到的文本內容。
代碼示例:
from spire.pdf import PdfDocument, PdfTextExtractor, PdfTextExtractOptions# 創建 PdfDocument 實例并加載文檔
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")all_text = ""
# 遍歷所有頁面
for pageIndex in range(pdf.Pages.Count):page = pdf.Pages.get_Item(pageIndex)# 創建文本提取器text_extractor = PdfTextExtractor(page)# 設置提取選項options = PdfTextExtractOptions()options.IsExtractAllText = Trueoptions.IsSimpleExtraction = True# 提取文本并累加all_text += text_extractor.ExtractText(options)# 輸出全部文本內容
print(all_text)
PDF文檔:
讀取的PDF文本:
Python讀取PDF圖片
PDF中的圖片可能包含插圖、圖標、水印等重要信息。Spire.PDF 提供了 PdfImageHelper
工具類,可提取頁面中嵌入的圖像并保存為文件。
操作說明:
- 加載PDF文檔并獲取頁面;
- 使用
PdfImageHelper.GetImagesInfo()
獲取圖片信息; - 遍歷并保存提取的圖片對象。
代碼示例:
from spire.pdf import PdfDocument, PdfImageHelper# 加載PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")# 獲取第一頁
page = pdf.Pages.get_Item(0)# 創建圖片助手
image_helper = PdfImageHelper()
# 獲取頁面中的圖片信息
images_info = image_helper.GetImagesInfo(page)# 保存圖片為本地文件
for i in range(len(images_info)):images_info[i].Image.Save("output/Images/image" + str(i) + ".png")
讀取的PDF圖片:
Python讀取PDF文檔屬性
除了內容本身,PDF還可能包含元數據(如標題、作者、關鍵詞等),便于進行文檔分類與檢索。Spire.PDF 支持直接讀取這些信息。
操作說明:
- 加載PDF文件;
- 通過
DocumentInformation
屬性訪問文檔元數據; - 打印或記錄相關屬性值。
代碼示例:
from spire.pdf import PdfDocument# 加載PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")# 獲取文檔屬性信息
properties = pdf.DocumentInformation
print("標題: " + properties.Title)
print("作者: " + properties.Author)
print("主題: " + properties.Subject)
print("關鍵詞: " + properties.Keywords)
讀取的PDF文檔屬性:
總結
使用 Free Spire.PDF for Python,可以輕松完成以下三類典型的 PDF 信息提取操作:
- 讀取PDF文本:逐頁提取文字內容,適用于全文分析、搜索系統等;
- 讀取PDF圖片:提取嵌入圖像用于歸檔、識別或后續處理;
- 讀取PDF文檔屬性:訪問標題、作者、關鍵詞等元信息,輔助分類索引。
以上功能均可在本地環境中快速部署,適合構建輕量級 PDF 處理工具或集成至業務系統中。
更多教程請參考:Spire.PDF for Python 教程中心