Python 輕松實現替換或修改 PDF 文字

在日常開發或文檔處理過程中，經常會遇到需要對 PDF 文檔中的文字進行修改的場景。例如更新合同條款、修正報表數據，或者批量替換文件中的特定內容。由于 PDF 格式以固定排版為特點，直接修改文字不像 Word 那樣直觀，因此需要借助專門的庫來實現。

在 Python 中，有多種處理 PDF 的庫，但大多數庫在修改已有文字方面支持有限。Spire.PDF for Python 提供了較為完整的文字處理功能，能夠對 PDF 頁面上的文字內容進行精確替換和修改，而且無需依賴 Adobe Acrobat。本文將分享如何使用該庫在 Python 中實現替換或修改 PDF 文字。

庫安裝方法

在使用 Spire.PDF for Python 之前，需要先安裝該庫。可以通過 pip 進行安裝：

pip?install?spire.pdf

安裝完成后，即可在 Python 項目中導入相關模塊開始處理 PDF 文檔。

基本使用流程

使用 Spire.PDF for Python 替換文字的基本步驟如下：

加載 PDF 文檔
創建 PdfDocument 對象，并加載目標 PDF 文件。
獲取頁面
使用 pdf.Pages.get_Item(index) 獲取需要操作的頁面。
創建文本替換器
使用 PdfTextReplacer(page) 創建替換器對象，準備進行文字替換。
執行替換操作
調用 ReplaceText 替換第一次出現的文字，或使用 ReplaceAllText 替換全部文字，并可設置文字顏色。
保存修改后的 PDF
完成替換后，將文檔保存為新的 PDF 文件，保持原有排版。

單頁替換示例（替換第一次出現的文字）

from?spire.pdf?import?*
from?spire.pdf.common?import?*#?創建?PDF?文檔對象并加載文件
pdf?=?PdfDocument()
pdf.LoadFromFile("示例文檔.pdf")#?獲取文檔的第一頁
page?=?pdf.Pages.get_Item(0)#?創建?PdfTextReplacer?對象
replacer?=?PdfTextReplacer(page)#?替換第一次出現的?"主要功能"
replacer.ReplaceText("主要功能",?"功能介紹")#?保存修改后的?PDF
pdf.SaveToFile("替換第一個文本.pdf")
pdf.Close()

在這個示例中，ReplaceText 僅替換頁面中第一次出現的目標文字。

替換所有出現的文字

如果需要替換文檔中所有匹配文字，可以使用 ReplaceAllText 方法：

#?替換頁面中所有的?"主要功能"
replacer.ReplaceAllText("主要功能",?"功能介紹")#?或者替換所有文字并設置新文字顏色
replacer.ReplaceAllText("主要功能",?"功能介紹",?Color.get_Red())

通過這種方式，不僅可以替換全部文字，還可以在替換時修改文字顏色，便于突出顯示修改內容。

批量替換 PDF 文件中的文字

在實際項目中，經常需要對多個 PDF 文件執行相同的替換操作。下面示例展示如何批量處理文件夾中的 PDF 文件，并替換所有出現的文字，同時設置文字顏色。

import?os
from?spire.pdf?import?*
from?spire.pdf.common?import?*
from?System.Drawing?import?Color#?設置?PDF?文件夾路徑
pdf_folder?=?"pdf_files"
output_folder?=?"pdf_modified"#?如果輸出文件夾不存在則創建
if?not?os.path.exists(output_folder):os.makedirs(output_folder)#?遍歷文件夾中的所有?PDF?文件
for?file_name?in?os.listdir(pdf_folder):if?file_name.endswith(".pdf"):pdf_path?=?os.path.join(pdf_folder,?file_name)pdf?=?PdfDocument()pdf.LoadFromFile(pdf_path)#?遍歷每一頁進行文字替換for?i?in?range(pdf.Pages.Count):page?=?pdf.Pages.get_Item(i)replacer?=?PdfTextReplacer(page)#?替換頁面中所有出現的文字，并設置新文字顏色為紅色replacer.ReplaceAllText("舊文字",?"新文字",?Color.get_Red())#?保存修改后的?PDFoutput_path?=?os.path.join(output_folder,?file_name)pdf.SaveToFile(output_path)pdf.Close()print(f"{file_name}?已處理完成")

說明

遍歷文件夾
使用 Python 的 os.listdir 遍歷指定文件夾中的 PDF 文件，實現批量處理。
逐頁替換文字
PDF 文檔由多個頁面組成，使用 pdf.Pages.get_Item(i) 獲取每一頁，再創建 PdfTextReplacer 對象進行替換。
替換所有出現的文字并設置顏色
ReplaceAllText 方法會替換頁面中所有匹配文字，并通過 Color.get_Red() 設置替換文字顏色。
保存輸出
修改后的 PDF 文件保存到指定輸出文件夾，保持原文件不被覆蓋。

總結

在處理 PDF 文檔時，文本替換是常見的操作需求。通過使用 Spire.PDF for Python，可以靈活地進行單頁文字替換、全部文字替換、設置文字顏色，以及批量處理多個 PDF 文件。這些方法能夠幫助開發者在日常文檔維護和數據更新中提高效率，同時保持原有排版和樣式的完整性。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/96519.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/96519.shtml
英文地址，請注明出處：http://en.pswp.cn/web/96519.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！