用DeepSeek生成批量刪除處理 PDF第一頁工具

安裝依賴庫

在運行程序之前,請確保安裝所需的庫:

pip install pymupdf python-docx

Python 程序代碼?

import os
import fitz  # PyMuPDF
from docx import Documentdef delete_pdf_first_page(input_path, output_path):"""刪除 PDF 文件的第一頁并保存:param input_path: 輸入的 PDF 文件路徑:param output_path: 輸出的 PDF 文件路徑"""# 打開 PDF 文件pdf_document = fitz.open(input_path)# 刪除第一頁pdf_document.delete_page(0)# 保存修改后的 PDFpdf_document.save(output_path)pdf_document.close()print(f"已處理并保存: {output_path}")def delete_word_first_page(input_path, output_path):"""刪除 Word 文件的第一頁內容并保存:param input_path: 輸入的 Word 文件路徑:param output_path: 輸出的 Word 文件路徑"""# 打開 Word 文件doc = Document(input_path)# 獲取第一頁的內容范圍# 假設第一頁的內容在前 500 個字符內(可以根據實際情況調整)first_page_content = doc.paragraphs[:10]  # 取前 10 段作為第一頁內容# 刪除第一頁的內容for paragraph in first_page_content:p = paragraph._elementp.getparent().remove(p)# 保存修改后的 Word 文件doc.save(output_path)print(f"已處理并保存: {output_path}")def batch_process_files(folder_path, output_folder):"""批量處理文件夾中的 PDF 和 Word 文件:param folder_path: 輸入文件夾路徑:param output_folder: 輸出文件夾路徑"""# 確保輸出文件夾存在if not os.path.exists(output_folder):os.makedirs(output_folder)# 遍歷文件夾中的文件for filename in os.listdir(folder_path):file_path = os.path.join(folder_path, filename)output_path = os.path.join(output_folder, filename)try:# 處理 PDF 文件if filename.lower().endswith('.pdf'):print(f"正在處理 PDF 文件: {filename}")delete_pdf_first_page(file_path, output_path)# 處理 Word 文件elif filename.lower().endswith('.docx'):print(f"正在處理 Word 文件: {filename}")delete_word_first_page(file_path, output_path)else:print(f"跳過不支持的文件: {filename}")except Exception as e:print(f"處理文件 {filename} 時出錯: {e}")if __name__ == "__main__":# 輸入文件夾路徑(包含 PDF 和 Word 文件)input_folder = "F:\\python\\pdf"  # 替換為你的輸入文件夾路徑# 輸出文件夾路徑output_folder = "F:\\python\\firstpage"  # 替換為你的輸出文件夾路徑# 批量處理文件batch_process_files(input_folder, output_folder)

程序說明

  1. PDF 文件處理

    • 使用?PyMuPDF?打開 PDF 文件,刪除第一頁并保存。

    • 注意:PyMuPDF?的?delete_page?方法直接刪除指定頁面。

  2. Word 文件處理

    • 使用?python-docx?打開 Word 文件,刪除第一段內容(模擬刪除第一頁)。

    • 注意:python-docx?不支持直接刪除頁面,因此通過刪除第一段內容來實現。

  3. 批量處理

    • 程序會遍歷指定文件夾中的所有文件,自動識別 PDF 和 Word 文件并處理。

?清華大學DeepSeek整套學習資料(持續更新)鏈接:https://pan.quark.cn/s/24136c2b13e8

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/70972.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/70972.shtml
英文地址,請注明出處:http://en.pswp.cn/web/70972.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

redis的下載和安裝詳解

一、下載redis安裝包 進入redis官網查看當前穩定版本: https://redis.io/download/發現此時的穩定版本是6.2.4, 此時可以去這個網站下載6.2.4穩定版本的tar包。 暫時不考慮不在windows上使用redis,那樣將無法發揮redis的性能 二、上傳tar…

如何使用 Jenkins 實現 CI/CD 流水線:從零開始搭建自動化部署流程

如何使用 Jenkins 實現 CI/CD 流水線:從零開始搭建自動化部署流程 在軟件開發過程中,持續集成(CI)和持續交付(CD)已經成為現代開發和運維的標準實踐。隨著代碼的迭代越來越頻繁,傳統的手動部署方式不僅低效,而且容易出錯。為了提高開發效率和代碼質量,Jenkins作為一款…

Python基于Django的網絡課程在線學習平臺【附源碼】

博主介紹:?Java老徐、7年大廠程序員經歷。全網粉絲12w、csdn博客專家、掘金/華為云/阿里云/InfoQ等平臺優質作者、專注于Java技術領域和畢業項目實戰? 🍅文末獲取源碼聯系🍅 👇🏻 精彩專欄推薦訂閱👇&…

Pytorch為什么 nn.CrossEntropyLoss = LogSoftmax + nn.NLLLoss?

為什么 nn.CrossEntropyLoss LogSoftmax nn.NLLLoss? 在使用 PyTorch 時,我們經常聽說 nn.CrossEntropyLoss 是 LogSoftmax 和 nn.NLLLoss 的組合。這句話聽起來簡單,但背后到底是怎么回事?為什么這兩個分開的功能加起來就等于…

rabbitmq 延時隊列

要使用 RabbitMQ Delayed Message Plugin 實現延時隊列,首先需要確保插件已安裝并啟用。以下是實現延時隊列的步驟和代碼示例。 1. 安裝 RabbitMQ Delayed Message Plugin 首先,確保你的 RabbitMQ 安裝了 rabbitmq-delayed-message-exchange 插件。你可…

在 Vue 單文件組件(SFC)中,標簽的顯式關閉與隱式關閉有著重要的區別

一、顯式關閉標簽 1、定義&#xff1a; 所有的 HTML 標簽都必須有一個對應的結束標簽。 自閉合標簽也必須使用 / 來關閉。 <template> <div> <p>這是一個段落</p> <img src"image.png"…

第四屆大數據、區塊鏈與經濟管理國際學術會議

重要信息 官網&#xff1a;www.icbbem.com 時間&#xff1a;2025年3月14-16日 地點&#xff1a;中國-武漢 &#xff08;線上召開&#xff09; 簡介 第四屆大數據、區塊鏈與經濟管理國際學術會議(ICBBEM 2025)&#xff0c;將于2025年3月14-16日在中國湖北省武漢市召開。…

每日十個計算機專有名詞 (7)

Metasploit 詞源&#xff1a;Meta&#xff08;超越&#xff0c;超出&#xff09; exploit&#xff08;漏洞利用&#xff09; Metasploit 是一個安全測試框架&#xff0c;用來幫助安全專家&#xff08;也叫滲透測試人員&#xff09;發現和利用計算機系統中的漏洞。你可以把它想…

使用Docker Compose部署 MySQL8

MySQL 8 是一個功能強大的關系型數據庫管理系統,而 Docker 則是一個流行的容器化平臺。結合使用它們可以極大地簡化 MySQL 8 的部署過程,并且確保開發環境和生產環境的一致性。 安裝 Docker 和 Docker Compose 首先,確保你的機器上已經安裝了 Docker 和 Docker Compose。 …

mamba_ssm和causal-conv1d詳細安裝教程

1.前言 Mamba是近年來在深度學習領域出現的一種新型結構&#xff0c;特別是在處理長序列數據方面表現優異。在本文中&#xff0c;我將介紹如何在 Linux 系統上安裝并配置 mamba_ssm 虛擬環境。由于官方指定mamba_ssm適用于 PyTorch 版本高于 1.12 且 CUDA 版本大于 11.6 的環境…

c++中初始化列表的使用

在 C 中&#xff0c;初始化列表是在構造函數的定義中&#xff0c;用于對類的成員變量進行初始化的一種方式。它緊跟在構造函數的參數列表之后&#xff0c;使用冒號 : 分隔&#xff0c;各成員變量的初始化用逗號 , 分隔。下面詳細介紹初始化列表及其參數的含義。 基本語法 clas…

《Linux系統編程篇》System V信號量實現生產者與消費者問題(Linux 進程間通信(IPC))——基礎篇(拓展思維)

文章目錄 &#x1f4da; **生產者-消費者問題**&#x1f511; **問題分析**&#x1f6e0;? **詳細實現&#xff1a;生產者-消費者****步驟 1&#xff1a;定義信號量和緩沖區****步驟 2&#xff1a;創建信號量****步驟 3&#xff1a;生產者進程****步驟 4&#xff1a;消費者進程…

利用 Python 爬蟲進行跨境電商數據采集

1 引言2 代理IP的優勢3 獲取代理IP賬號4 爬取實戰案例---&#xff08;某電商網站爬取&#xff09;4.1 網站分析4.2 編寫代碼4.3 優化代碼 5 總結 1 引言 在數字化時代&#xff0c;數據作為核心資源蘊含重要價值&#xff0c;網絡爬蟲成為企業洞察市場趨勢、學術研究探索未知領域…

HONOR榮耀MagicBook 15 2021款 獨顯(BOD-WXX9,BDR-WFH9HN)原廠Win10系統

適用型號&#xff1a;【BOD-WXX9】 MagicBook 15 2021款 i7 獨顯 MX450 16GB512GB (BDR-WFE9HN) MagicBook 15 2021款 i5 獨顯 MX450 16GB512GB (BDR-WFH9HN) MagicBook 15 2021款 i5 集顯 16GB512GB (BDR-WFH9HN) 鏈接&#xff1a;https://pan.baidu.com/s/1S6L57ADS18fnJZ1…

c語言實現三子棋小游戲(涉及二維數組、函數、循環、常量、動態取地址等知識點)

使用C語言實現一個三子棋小游戲 涉及知識點&#xff1a;二維數組、自定義函數、自帶函數庫、循環、常量、動態取地址等等 一些細節點&#xff1a; 1、引入自定義頭文件&#xff0c;需要用""雙引號包裹文件名&#xff0c;目的是為了和官方頭文件的<>區分開。…

C語言數據類型及其使用 (帶示例)

目錄 1. 基本數據類型 整型 浮點型 字符型 2. 構造數據類型 數組 結構體 聯合體&#xff08;共用體&#xff09; 枚舉類型 3. 指針類型 4. 空類型 在 C 語言中&#xff0c;數據類型是非常重要的概念&#xff0c;它決定了數據在內存中的存儲方式、占用空間大小以及可…

Web自動化之Selenium添加網站Cookies實現免登錄

在使用Selenium進行Web自動化時&#xff0c;添加網站Cookies是實現免登錄的一種高效方法。通過模擬瀏覽器行為&#xff0c;我們可以將已登錄狀態的Cookies存儲起來&#xff0c;并在下次自動化測試或爬蟲任務中直接加載這些Cookies&#xff0c;從而跳過登錄步驟。 Cookies簡介 …

NAT 技術:網絡中的 “地址魔術師”

目錄 一、性能瓶頸&#xff1a;NAT 的 “阿喀琉斯之踵” &#xff08;一&#xff09;數據包處理延遲 &#xff08;二&#xff09;高并發下的性能損耗 二、應用兼容性&#xff1a;NAT 帶來的 “適配難題” &#xff08;一&#xff09;端到端通信的困境 &#xff08;二&…

php序列化與反序列化

文章目錄 基礎知識魔術方法&#xff1a;在序列化和反序列化過程中自動調用的方法什么是 __destruct() 方法&#xff1f;何時觸發 __destruct() 方法&#xff1f;用途&#xff1a;語法示例&#xff1a; 反序列化漏洞利用前提條件一些繞過策略繞過__wakeup函數繞過正則匹配繞過相…

docker 占用系統空間太大了,整體遷移到掛載的其他磁盤|【當前普通用戶使用docker時,無法指定鏡像、容器安裝位置【無法指定】】

文章目錄 前言【核心步驟皆為 大模型生成的方案】總結步驟應該是&#xff1a;詳細步驟如下1. **停止 Docker 服務**2. **備份原數據&#xff08;防止遷移失敗&#xff09;**3. **遷移數據到新磁盤**4. **修改 Docker 配置文件**5. **重啟 Docker 服務**6. **驗證容器和鏡像**7.…