PDF是面向展示和打印使用的,并未考慮編輯使用,所以缺少了很多編輯屬性且非常難修改PDF里面的數據。當您需要分析或修改PDF文檔數據時,可以將PDF保存為Excel工作簿,實現輕松編輯數據的需求。PDF轉Excel,技術關鍵就是提取原文檔內的表格數據,保證轉換前后數據的一致性,方便復制粘貼且可輕松編輯。本文將介紹如何使用 ?Spire.PDF for Python 在 Python 中實現 PDF 轉 Excel。
安裝Spire.PDF for Python
本教程需要用到 Spire.PDF for Python。可通過以下 pip 命令將它們輕松安裝到 VS Code 中。
pip install Spire.PDF
1.
轉換PDF 到Excel
Spire.PDF for Python 提供的 PdfDocument.SaveToFile() 方法能將 PDF 文件保存為 Excel 格式。以下是如何使用 Spire.PDF for Python 將 PDF 文檔轉換為 Excel XLSX 格式并指定轉換選項的具體步驟:
創建一個 PdfDocument 對象
使用 PdfDocument.LoadFromFile() 方法加載 PDF 文檔。
創建一個 XlsxLineLayoutOptions 對象,并將相應的參數傳遞給 XlsxLineLayoutOptions 類的構造函數,以指定轉換選項。
使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法應用轉換選項。
使用 PdfDocument.SaveToFile() 方法將 PDF 文檔保存為 Excel XLSX 格式。
from spire.pdf.common import *
from spire.pdf import *
# 創建PdfDocument對象
pdf = PdfDocument()
# 加載PDF文檔
pdf.LoadFromFile("Sample.pdf")
# 創建 XlsxLineLayoutOptions 對象來指定轉換選項
# 參數: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)
# 設置轉換選項
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)
# 將PDF文檔保存為Excel XLSX格式
pdf.SaveToFile("PdftoExcel.xlsx", FileFormat.XLSX)
pdf.Close()
將 PDF保存為Excel后,轉換后可以輕松提取文檔里面的數據。效果圖如下:
總結:
除了將?PDF保存為Excel, Spire.PDF for python還支持將PDF 存為OFD, PDF文檔轉換為Word, 將PDF另存為圖片,如?PDF to PNG, JPG,BMP等。
?