【Python】Python 批量轉換PDF到Excel

PDF是面向展示和打印使用的,并未考慮編輯使用,所以缺少了很多編輯屬性且非常難修改PDF里面的數據。當您需要分析或修改PDF文檔數據時,可以將PDF保存為Excel工作簿,實現輕松編輯數據的需求。PDF轉Excel,技術關鍵就是提取原文檔內的表格數據,保證轉換前后數據的一致性,方便復制粘貼且可輕松編輯。本文將介紹如何使用 ?Spire.PDF for Python 在 Python 中實現 PDF 轉 Excel。


安裝Spire.PDF for Python
本教程需要用到 Spire.PDF for Python。可通過以下 pip 命令將它們輕松安裝到 VS Code 中。

pip install Spire.PDF
1.
轉換PDF 到Excel
Spire.PDF for Python 提供的 PdfDocument.SaveToFile() 方法能將 PDF 文件保存為 Excel 格式。以下是如何使用 Spire.PDF for Python 將 PDF 文檔轉換為 Excel XLSX 格式并指定轉換選項的具體步驟:

創建一個 PdfDocument 對象
使用 PdfDocument.LoadFromFile() 方法加載 PDF 文檔。
創建一個 XlsxLineLayoutOptions 對象,并將相應的參數傳遞給 XlsxLineLayoutOptions 類的構造函數,以指定轉換選項。
使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法應用轉換選項。
使用 PdfDocument.SaveToFile() 方法將 PDF 文檔保存為 Excel XLSX 格式。
from spire.pdf.common import *
from spire.pdf import *

# 創建PdfDocument對象
pdf = PdfDocument()

# 加載PDF文檔
pdf.LoadFromFile("Sample.pdf")

# 創建 XlsxLineLayoutOptions 對象來指定轉換選項
# 參數: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)

# 設置轉換選項
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)

# 將PDF文檔保存為Excel XLSX格式
pdf.SaveToFile("PdftoExcel.xlsx", FileFormat.XLSX)
pdf.Close()

將 PDF保存為Excel后,轉換后可以輕松提取文檔里面的數據。效果圖如下:

總結:
除了將?PDF保存為Excel, Spire.PDF for python還支持將PDF 存為OFD, PDF文檔轉換為Word, 將PDF另存為圖片,如?PDF to PNG, JPG,BMP等。
?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/259964.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/259964.shtml
英文地址,請注明出處:http://en.pswp.cn/news/259964.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

js showModalDialog參數的使用詳解(轉)

js showModalDialog參數的使用詳解_javascript技巧_腳本之家 http://www.jb51.net/article/45281.htm 本篇文章主要是對js中showModalDialog參數的使用進行了詳細的分析介紹,需要的朋友可以過來參考下,希望對大家有所幫助 基本介紹: showModa…

ad19生成gerber文件_在“AD19”中怎樣將PCB文件轉換為GERBER

四川自貢是歷史悠久的老工業城市,上世紀八、九十年代,自貢的鍋爐、泵業、閥門全國聞名,在近年發展中,電子產業也取得可喜的成績。Altium Designer在設計電子產品中是應用較多的工具,它的版本更新很快,從最早…

讓windows 2003啟動后直接進入桌面

windows 2003啟動后進入桌面需要解決的幾個問題 1、如何去除掉 ctrlaltdel的提示界面 2、如何設置自動登錄的用戶名密碼 3、在異常啟動時會出現關閉事件跟蹤程序 也會導致不能直接進入桌面 往往直接進入桌面是卡在了這個環節 一、去掉ctrlaltdel的提示界面 1、“開始-->運行…

【C】——C項目中的菜單功能(源碼)

1 #include<stdio.h>2 #include<stdlib.h>3 4 int menu() //選擇菜單5 {6 int result;7 printf("**********請選擇&#xff1a;***********\n");8 printf("**********1.插入&#xff1a;***********\n");9 printf(&quo…

a 中調用js的幾種方法

我們常用的在a標簽中有點擊事件&#xff1a;1. a href"javascript:js_method();"這是我們平臺上常用的方法&#xff0c;但是這種方法在傳遞this等參數的時候很容易出問題&#xff0c;而且javascript:協議作為a的href屬性的時候不僅會導致不必要的觸發window.onbefore…

MapReduce實現手機上網日志分析(分區)

一、問題背景 實際業務的需要&#xff0c;比如以移動為例&#xff0c;河南的用戶去了北京上網&#xff0c;那么他的上網信息默認保存在了北京的基站&#xff0c;那么我們想要查詢北京地區的上網日志信息默認也包含了其他地區用戶的在本區的上網信息&#xff0c;否則只能掃描日志…

肺功能曲線圖怎么看_如何看肺功能結果報告單

收藏進澤 2006-05-18 22:34:46常規通氣功能&#xff1a;所有的指標都要在預計值的80&#xff05;以上&#xff0c;一秒率要在70&#xff05;以上(因為低于70&#xff05;就是COPD).FVC低于80&#xff05;&#xff0c;診斷限制性通氣&#xff1b;一秒率低于70&#xff05;&#…

html 模板配置,模板文件配置

模板文件一定要小寫下劃線&#xff0c;如 list_pubu.html你可以給你每一個模板文件增加一個json配置文件,用于描述這個模板文件;配置文件和模板文件名是同名的,只是后綴為 json,如simpleboot3/portal/index.html模板文件的配置文件就是simpleboot3/portal/index.json;一個簡單的…

POJ 3009 Curling 2.0(簡單DFS)

題意&#xff1a; 每一次碰到障礙則在障礙的旁邊停下來&#xff0c;并且障礙被擊碎。此時可以重新值擲一次冰球。當擲球次數超過 10 次則輸出 -1。 思路&#xff1a; 1. 超過 10 次輸出 -1 這個剪枝很關鍵&#xff1b; 2. 主要是要注意些邊界條件&#xff0c;初始化的情況&…

封裝 oschina.net 表情選擇

1. [代碼]jquery.facial.js //從OSCHINA.NET 提取出來的 表情選擇 插件 by zhouxiang //如果有不滿足的地方 可以自己改改 沒事隨便寫寫的 style 和 html 都被我弄到JS里了 這樣方便簡潔jQuery.fn.extend({ facial: function (opts) { var _self this, _this $…

JNI學習積累之一 ---- 常用函數大全

本文原創&#xff0c;轉載請注明出處&#xff1a;http://blog.csdn.NET/qinjuning 最近一段時間&#xff0c;在工作方面比較閑&#xff0c;分配的Bug不是很多&#xff0c;于是好好利用這段時間就著源代碼看了些許模塊&#xff0c; 主要方式 還是賊看賊看代碼&#xff0c; 同時利…

計算機專業四次評估,教育部第四次“計算機專業”學科評估,四所高校獲A+評級...

隨著2017年權威的第四次學科評估結果出爐后&#xff0c;相信很多高校學科上實力的爭議應該可以平息了。這也是國內官方的學科排名&#xff0c;一共分為12等。入圍學科的最高等級為A&#xff0c;最低評級為C-&#xff0c;如果在同一評級內&#xff0c;按學校代碼先后依次排序。本…

正則領悟

入門 學習正則表達式的最好方法是從例子開始&#xff0c;理解例子之后再自己對例子進行修改&#xff0c;實驗。下面給出了不少簡單的例子&#xff0c;并對它們作了詳細的說明。 假設你在一篇英文小說里查找hi&#xff0c;你可以使用正則表達式hi。 這幾乎是最簡單的正則表達式了…

微軟風格的CSS橫向菜單

<head> <meta http-equiv"Content-Type" content"text/html; charsetgb2312" /> <title>水平導航菜單&#xff08;DIVCSS&#xff09;</title> <style type"text/css"> body{ background: #FFF; font-family: Ari…

php函數庫快速記憶法_PHP速成大法

簡單介紹一下PHP的語法1、嵌入方法&#xff1a;類似ASP的&#xff0c;當然您也可以自己指定。2、引用文件&#xff1a;引用文件的方法有兩種&#xff1a;require 及 include。require 的使用方法如 require("MyRequireFile.php"); 。這個函數通常放在 PHP 程序的最前…

html css精靈,談談CSS Sprites(css精靈)

CSS Sprites在國內很多人叫css精靈&#xff0c;其實這個技術不新鮮&#xff0c;這個技術老到什么程度呢&#xff0c;我不敢確定&#xff0c;但是我看到最早的關于CSS Sprites是在Dave Shea的《CSS Sprites: Image Slicing’s Kiss of Death》&#xff0c;時間是March 05, 2004 …

分布式搜索 Elasticsearch —— 節點實例化

為什么80%的碼農都做不了架構師&#xff1f;>>> 要連接到集群&#xff0c;首先要告訴集群&#xff1a;你是誰&#xff0c;你有什么特征。在 ES 中體現為實例化節點。 ES 通過 org.elasticsearch.node.NodeBuilder 的 build() 或者 node() 方法實例化節點&#xff0…

計算幾何/sgu 124 Broken line

題意 給出由n條線段圍成的多邊形&#xff08;每條邊均平行于坐標軸&#xff09;&#xff0c;以及一個點(x0,y0)&#xff0c;問這個點是在形內或是形外或是形上 分析 對于在線段上&#xff0c;比較容易判斷&#xff0c;直接比較一下坐標的位置即可&#xff1b; 若不在形上&#…

(轉)在ios android設備上使用 Protobuf (使用dll方式)

自&#xff1a;http://game.ceeger.com/forum/read.php?tid13479 如果你的工程可以以.Net 2.0 subset模式運行&#xff0c;請看這個帖子中的方法。 地址&#xff1a;http://game.ceeger.com/forum/read.php?tid14359&fid27 如果只能以.Net 2.0下運行&#xff0c;就可以繼…

ps 毛發 邊緣_Adobe Photoshop摳圖技巧/摳圖后頭發邊緣的顏色處理方法教程!

PS教學第1&#xff11;期摳圖技巧和摳圖后的頭發邊緣的顏色處理的解釋本篇摳圖技巧教程除了跟大家分享了摳頭發的方法外&#xff0c;還分享如何解決摳頭發后頭發周圍的異色&#xff0c;如白邊紫邊等問題。教程作者沒有提供素材&#xff0c;大家可以找其他圖片來練習。有些時候想…