Python讀取PDF：文本、圖片與文檔屬性

在日常的數據采集、文檔歸檔與信息挖掘過程中，PDF格式因其版式固定、內容穩定而被廣泛使用。Python 開發者若希望實現 PDF 內容的自動化提取，選擇一個易用且功能完善的庫至關重要。本文將介紹如何用Python實現 PDF文本讀取、圖片提取 以及 文檔屬性讀取 三大核心操作，適用于信息抽取、電子檔案處理等場景。

文章目錄

- Python讀取PDF文本
- Python讀取PDF圖片
- Python讀取PDF文檔屬性
- 總結

本文使用免費的 Free Spire.PDF for Python，pip安裝：pip install spire.pdf.free

Python讀取PDF文本

在PDF中提取可識別的文字內容，是信息處理的基礎需求。Spire.PDF 提供了 PdfTextExtractor 類，可逐頁提取文本，并通過參數控制提取方式。

操作說明：

創建 PdfDocument 實例并加載PDF；
遍歷每一頁，構建 PdfTextExtractor；
設置提取選項，如是否簡化布局；
累加獲取到的文本內容。

代碼示例：

from spire.pdf import PdfDocument, PdfTextExtractor, PdfTextExtractOptions# 創建 PdfDocument 實例并加載文檔
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")all_text = ""
# 遍歷所有頁面
for pageIndex in range(pdf.Pages.Count):page = pdf.Pages.get_Item(pageIndex)# 創建文本提取器text_extractor = PdfTextExtractor(page)# 設置提取選項options = PdfTextExtractOptions()options.IsExtractAllText = Trueoptions.IsSimpleExtraction = True# 提取文本并累加all_text += text_extractor.ExtractText(options)# 輸出全部文本內容
print(all_text)

PDF文檔：
Python讀取PDF示例PDF文檔

讀取的PDF文本：
Python讀取PDF文本

Python讀取PDF圖片

PDF中的圖片可能包含插圖、圖標、水印等重要信息。Spire.PDF 提供了 PdfImageHelper 工具類，可提取頁面中嵌入的圖像并保存為文件。

操作說明：

加載PDF文檔并獲取頁面；
使用 PdfImageHelper.GetImagesInfo() 獲取圖片信息；
遍歷并保存提取的圖片對象。

代碼示例：

from spire.pdf import PdfDocument, PdfImageHelper# 加載PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")# 獲取第一頁
page = pdf.Pages.get_Item(0)# 創建圖片助手
image_helper = PdfImageHelper()
# 獲取頁面中的圖片信息
images_info = image_helper.GetImagesInfo(page)# 保存圖片為本地文件
for i in range(len(images_info)):images_info[i].Image.Save("output/Images/image" + str(i) + ".png")

讀取的PDF圖片：
Python讀取PDF圖片

Python讀取PDF文檔屬性

除了內容本身，PDF還可能包含元數據（如標題、作者、關鍵詞等），便于進行文檔分類與檢索。Spire.PDF 支持直接讀取這些信息。

操作說明：

加載PDF文件；
通過 DocumentInformation 屬性訪問文檔元數據；
打印或記錄相關屬性值。

代碼示例：

from spire.pdf import PdfDocument# 加載PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")# 獲取文檔屬性信息
properties = pdf.DocumentInformation
print("標題： " + properties.Title)
print("作者： " + properties.Author)
print("主題： " + properties.Subject)
print("關鍵詞： " + properties.Keywords)

讀取的PDF文檔屬性：
Python讀取PDF文檔屬性

總結

使用 Free Spire.PDF for Python，可以輕松完成以下三類典型的 PDF 信息提取操作：

讀取PDF文本：逐頁提取文字內容，適用于全文分析、搜索系統等；
讀取PDF圖片：提取嵌入圖像用于歸檔、識別或后續處理；
讀取PDF文檔屬性：訪問標題、作者、關鍵詞等元信息，輔助分類索引。

以上功能均可在本地環境中快速部署，適合構建輕量級 PDF 處理工具或集成至業務系統中。

更多教程請參考：Spire.PDF for Python 教程中心

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/83950.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/83950.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/83950.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！