python合并多個pdf_python合并多個pdf文件

假設您有個無聊的工作,將幾十個PDF文檔合并成一個PDF文件。 他們每個都有封面頁作為第一頁,但你不希望在最終結果中重復覆蓋表。 即使有有很多免費的程序來組合PDF,其中許多只是合并整個文件在一起。 讓我們編寫一個Python程序來自定義哪些頁面你想要的是組合PDF。從高層次來看,這是程序將要做的事情:

查找當前工作目錄中的所有PDF文件。

對文件名進行排序,以便按順序添加PDF。

將每個PDF的每個頁面(不包括第一頁)寫入輸出文件。

在實現方面,您的代碼需要執行以下操作:

調用 os.listdir() 來查找工作目錄中的所有文件,刪除所有非PDF文件。

調用Python的sort()列表方法來按字母順序排列文件名。

為輸出PDF創建PdfFileWriter對象。

遍歷每個PDF文件,為其創建PdfFileReader對象。

在每個PDF文件中循環遍歷每個頁面(第一頁除外)。

將頁面添加到輸出PDF。

將輸出PDF寫入名為allminutes.pdf的文件。

對于此項目,請打開一個新的文件編輯器窗口并將其另存為 “combinePdfs.py”

Step 1:找到所有的PDF文件

首先,您的程序需要獲取所有擴展名為.pdf的文件的列表

當前的工作目錄并對它們進行排序。 讓你的代碼看起來像

以下:

在這里插入代碼片

在shebang線和關于什么的描述性評論之后程序沒有,這段代碼導入了os和PyPDF2模塊。該

os.listdir(’.’) 調用將返回當前工作中的每個文件的列表目錄。 代碼循環遍歷此列表,并僅添加帶有.pdf擴展的那些文件pdfFiles。之后,此列表按字母順序排序,使用key = str.lower關鍵字參數對sort() 進行排序。創建PdfFileWriter對象以保存組合的PDF頁面。最后,一些評論概述了該計劃的其余部分。

#! /usr/bin/python3

# combinePdfs.py - Combines all the PDFs in the current working directory into

# a single PDF.

import PyPDF2, os

# Get all the PDF filenames.

pdfFiles = []

for filename in os.listdir('.'):

if filename.endswith('.pdf'):

pdfFiles.append(filename)

pdfFiles.sort(key = str.lower)

pdfWriter = PyPDF2.PdfFileWriter()

# TODO: Loop through all the PDF files.

# TODO: Loop through all the pages (except the first) and add them.

# TODO: Save the resulting PDF to a file.

第二步:打開每一個 PDF 文件

現在程序必須讀取pdfFiles中的每個PDF文件。 添加以下內容:

#! /usr/bin/python3

# combinePdfs.py - Combines all the PDFs in the current working directory into

# a single PDF.

import PyPDF2, os

# Get all the PDF filenames.

pdfFiles = []

for filename in os.listdir('.'):

if filename.endswith('.pdf'):

pdfFiles.append(filename)

pdfFiles.sort(key = str.lower)

pdfWriter = PyPDF2.PdfFileWriter()

# Loop through all the PDF files.

for filename in pdfFiles:

pdfFileObj = open(filename, 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

# TODO: Loop through all the pages (except the first) and add them.

# TODO: Save the resulting PDF to a file.

對于每個PDF,循環通過以讀二進制模式(以’rb’作為第二個參數)調用open() 。 open()調用返回一個File對象,它被傳遞給PyPDF2.PdfFileReader() 。

第三步: 添加每一頁

對于每個PDF,您都希望遍歷除第一個頁面之外的每個頁面。 加上這個代碼到你的程序:

#! /usr/bin/python3

# combinePdfs.py - Combines all the PDFs in the current working directory into

# a single PDF.

import PyPDF2, os

# Get all the PDF filenames.

pdfFiles = []

for filename in os.listdir('.'):

if filename.endswith('.pdf'):

pdfFiles.append(filename)

pdfFiles.sort(key = str.lower)

pdfWriter = PyPDF2.PdfFileWriter()

# Loop through all the PDF files.

for filename in pdfFiles:

pdfFileObj = open(filename, 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

# Loop through all the pages (except the first) and add them.

for pageNum in range(1, pdfReader.numPages):

pageObj = pdfReader.getPage(pageNum)

pdfWriter.addPage(pageObj)

# TODO: Save the resulting PDF to a file.

for循環中的代碼將每個Page對象分別復制到PdfFileWriter對象。 請記住,您想跳過第一頁。 以來

PyPDF2認為0是第一頁,你的循環應該從1 開始,然后轉到但不包括pdfReader.numPages中的整數。

第四步: 保存結果

在這些嵌套的for循環完成循環之后,pdfWriter變量將會循環包含PdfFileWriter對象,其中包含所有PDF的頁面。最后一步是將此內容寫入硬盤驅動器上的文件。 將此代碼添加到你程序中:

#!/usr/bin/python3

# combinePdfs.py - Combines all the PDFs in the current working directory into

# a single PDF.

import PyPDF2, os

# Get all the PDF filenames.

pdfFiles = []

for filename in os.listdir('/home/hux/books/python'):

if filename.endswith('.pdf'):

pdfFiles.append('/home/hux/books/python/'+filename)

pdfFiles.sort(key = str.lower)

pdfWriter = PyPDF2.PdfFileWriter()

# Loop through all the PDF files.

for filename in pdfFiles:

pdfFileObj = open(filename, 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj, strict=False)

for pageNum in range(1, pdfReader.numPages):

pageObj = pdfReader.getPage(pageNum)

pdfWriter.addPage(pageObj)

pdfOutput = open('allminutes.pdf', 'wb')

pdfWriter.write(pdfOutput)

pdfOutput.close()

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/534883.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/534883.shtml
英文地址,請注明出處:http://en.pswp.cn/news/534883.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python class類_python類class基礎

44、class類:一、類定義的一般形式:1、簡單的形式:實例化對象沒有自己獨有的數據屬性。>>> class fistclass():... data1 hello world ### >這是類的數據屬性或類成員屬性。... def printdata(self): ###>這是類的方法&#…

java文件序列化_Java序列化與反序列化,文件操作

參考兩篇博客:http://blog.csdn.net/moreevan/article/details/6697777http://blog.csdn.net/moreevan/article/details/6698529針對第二篇博客,看了下面的評論,發現子類輸出的書號其實是父類的,書名是自己先添加的成員變量&#…

python 徹底解讀多線程與多進程_python 多進程與多線程淺析

python多線程是偽多線程,同時間最多只有一個線程在執行,但這樣并不代碼python的多線程沒有作用,對于IO密集型的系統,python的多線程還是能極大的提升性能~關于python偽多線程可以去了解python GIL的概念。以下代碼涉及…

python什么軟件開發好_python怎樣才能學好?python軟件開發什么

眾所周知,Python是近年來熱門的編程語言之一,吸引了很多人參與到it行業的Python開發中來,但是如何學習Python編程呢?對于每一個初學Python的朋友來說,估計有點困惑。那么我們如何才能學好Python呢?學習Python需要什么技能?有些…

java 設計模式原則_Java設計模式的七大原則

設計原則名稱定 義使用頻率單一職責原則(Single Responsibility Principle, SRP)一個類只負責一個功能領域中的相應職責。★★★★☆開閉原則(Open-Closed Principle, OCP)軟件實體應對擴展開放,而對修改關閉。開閉原則的關鍵在于抽象化。★★★★★里氏代換原則(L…

python自定義模塊和三方模塊_python基礎知識8——模塊1——自定義模塊和第三方開源模塊...

模塊的認識模塊,用一砣代碼實現了某個功能的代碼集合。類似于函數式編程和面向過程編程,函數式編程則完成一個功能,其他代碼用來調用即可,提供了代碼的重用性和代碼間的耦合。而對于一個復雜的功能來,可能需要多個函數…

dhcp只能分配與路由器相同網段么_路由器的橋接詳解

網上關于路由器無線橋接的教程很多,讓你注意那注意這的,都沒有說明白。今天,我來試著縷清它們間的關系!1、主路由器這是我主路由器目前的狀態,其中IP地址是我在上級光貓路由的可用ip段192.168.1.2~254里選的一個&#…

逆序對java_逆序對

求逆序對問題用歸并排序的時間復雜度比暴力算法更低。假設有一個數組{8,1,2,5,7,4,3,6}首先歸并排序第一次對數組進行分割 8 1 2 5 7 4 3 6二次分割 8 1 25 74 3…

python123測驗9程序題答案_Django ORM 練習題及答案_python_腳本之家

1.modles中表結構#出版社class Publisher(models.Model):name models.CharField(max_length32)city models.CharField(max_length32)def __str__(self):return "".format(self.id, self.name)#書籍class Book(models.Model):title models.CharField(max_length32)…

java父類shape_為什么該父類無法調用其子類.__ShapeCircle_public_perimeter_getType_shapej__169IT.COM...

子類:public class ShapeCircle extends Shape{protected double r;public ShapeCircle(){setside(0.0);}public ShapeCircle(double r){setside(r);}public void setside(double r){this.rr;}public double perimeter(){return Math.PI*2*r;}public String getType(){return &…

python中雙冒號的作用_python中雙冒號

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技術人對外發布原創技術內容的最大平臺&…

java電子通訊錄畢業設計_(C)JAVA001電子通訊錄(帶系統托盤)

打開Server Socket,創建一個服務器型套接字和一個普通套接字,服務器型套接字在指定端口為客戶端請求的Socket 服務;? 使用ServerSocket類的accept()方法使服務器型套接字處于監聽狀態并把監聽結果返回給普通套接字;? 為該普通套接字創建輸入…

python進行數據分析需要安裝哪兩個庫_對Python進行數據分析_關于Package的安裝問題...

一、為什么要使用Python進行數據分析?python擁有一個巨大的活躍的科學計算社區,擁有不斷改良的庫,能夠輕松的集成C,C,Fortran代碼(Cython項目),可以同時用于研究和原型的構建以及生產系統的構建。二、Python的優勢與劣勢&#xff…

java orcl自動_Oracle自動生成編號

祝大家新年快樂,有任何問題可與我聯系:今天用JAVA向Oracle數據庫中插數據時,每次都要去計算ID,覺得好麻煩,于是想到了用數據庫自帶的ID來做,具體如下:1、首先得創建一序列序列(SEQUENCE)序列是一…

bat批處理執行python_.bat批處理添加Python任務

一、常用命令含義例一、多進程python 任務 -- start 命令echo offstart python C:\Users\ntitled\n\update_restt\test_bat.pypython C:\Users\ntitled\iin\update_restt\test_bat.pypython C:\Users\ntitled\jin\update_restt\test_bat2.pyexit1、它的作用是讓執行窗口中不顯…

import java.awt.BorderLayout;_Swing-布局管理器之BorderLayout(邊界布局)-入門

邊界布局管理器(BorderLayout)把容器的的布局分為五個位置:CENTER、EAST、WEST、NORTH、SOUTH。依次對應為:上北(NORTH)、下南(SOUTH)、左西(WEST)、右東(EAST),中(CENTER),如下圖所示。特征:l 可以把組件放在這五個位…

一分鐘學會python編程_用Python教你一分鐘檢驗出來!不用群發_編程語言_Python課程_Python教程_課課家...

Python大法已經被網友們玩兒的出神入化了, 最近有網友用Python寫了一個腳本, 這個腳本能夠自動檢測你的微信好友中誰把你刪除了? 而且不需要群發消息, 整個過程好友們是完全不知情的。使用范圍Mac和Linux經過測試, 確認可用, Windows等待大家的測試反饋, 可以在評論中反饋哦~~…

java 建造者實際中的用法_java中j建造者模式詳解和使用方法

建造者模式(Builder Pattern)使用多個簡單的對象一步一步構建成一個復雜的對象。這種類型的設計模式屬于創建型模式,它提供了一種創建對象的最佳方式。一個 Builder 類會一步一步構造最終的對象。該 Builder 類是獨立于其他對象的。介紹意圖:將一個復雜的…

python垃圾回收機制為什么標記能解決循環引用問題_python 關于循環引用以及標記清除的問題...

1 在循環引用的情況下,引用計數就不好事了,這時候就需要用到標記清除循環引用的危害: 會造成內存溢出,因為循環引用計數不可能為零解決方法:標記清除2 關于標記清除的效率問題(低)引用計數引用一次就加1,值減到0以后就應該被回收,那這里就產生了一個問題cpython的垃圾回收機制不…

jsp測試mysql_Jsp登陸與MySQL對接驗證

最近在做一個Web項目,賬戶登陸驗證是Web項目中必不可少的環節,所以需要階段性的記錄,幫助自己更好的掌握其中的知識。Jsp登陸涉及到POST方法參數獲取,以及MySQL數據庫信息的獲取。可能因為自己是新手,剛開始寫的項目有…