用python清除PDF文件中的水印(Adobe Acrobat 無法刪除)

學校老師發的資料,有時候會帶水印,有點強迫癥的都想給它去掉。用Adobe?Acrobat試了下,檢測不到水印,無法刪除!分析發現原來這類PDF文件是用word編輯的,其中的水印是加在了頁眉中!

自己動手想辦法搞定它。

"""
Title: 清除PDF水印(非pdf加的水印而是用word文件頭加的然后轉成了pdf)
Author: JackieZheng
Date: 2025-05-11 10:31:23
LastEditTime: 2025-05-12 23:43:21
LastEditors: Please set LastEditors
Description:
FilePath: \\pythonCode\\remove_pdf_watermark.py
"""import os
import fitz  # PyMuPDFdef remove_image_watermark(pdf_path):doc = fitz.open(pdf_path)for page_num in range(len(doc)):page = doc[page_num]xref = page.get_contents()[0]  # 獲取頁面字節流,以xref的形式返回cont0 = doc.xref_stream(xref).decode()  # 將流解碼為字符串page.clean_contents()if '/Header>> BDC' in cont0:  # 找到word頁眉總分start_str = '/Header>> BDC'  # 獲取水印起始位置end_str = 'c\r\nh\r\nf*\r\nq'  # 獲取水印結束位置 (需要自己根據情況找到類似字符)cont = remove_between_strings(cont0, start_str, end_str)doc.update_stream(xref, cont.encode())  # 更新流print('page', page_num, 'processed')doc.save(pdf_path[:-4] + '_processed.pdf')doc.close()def remove_between_strings(original_text, start_str, end_str):start = original_text.index(start_str) + len(start_str)end = original_text.index(end_str, start)content = original_text[:start] + original_text[end:]# print(content)return contentpdf_path = r'C:\Users\JackieZheng\Desktop\滿分沖刺練.pdf'remove_image_watermark(pdf_path)

操作原理:把文件解碼為字符串,分析找出水印部分內容,從中剔除掉即可。

前后效果對比:

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/82755.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/82755.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/82755.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Oracle中自定義異常內置異常嵌套異常的捕獲處理

一、異常類型分類 類型說明示例內置預定義異常Oracle已命名異常(如NO_DATA_FOUND)查詢無數據時觸發內置非預定義異常未命名的Oracle錯誤(需用PRAGMA EXCEPTION_INIT關聯)ORA-02290(違反檢查約束)自定義異常…

《Flutter社交應用暗黑奧秘:模式適配與色彩的藝術》

暗黑模式已從一種新奇的功能演變為用戶體驗中不可或缺的一環。對于Flutter開發者而言,如何在社交應用中完美實現暗黑模式適配與色彩對比度優化,是一場充滿挑戰與驚喜的技術探索之旅。 暗黑模式,絕非僅僅是將界面顏色反轉這么簡單。從用戶體驗…

【kubernetes】通過Sealos 命令行工具一鍵部署k8s集群

一、前言 1、sealos安裝k8s集群官網:K8s > Quick-start > Deploy-kubernetes | Sealos Docs 2、本文安裝的k8s版本為v1.28.9 3、以下是一些基本的安裝要求: 每個集群節點應該有不同的主機名。主機名不要帶下劃線。所有節點的時間需要同步。需要…

視覺-語言-動作模型:概念、進展、應用與挑戰(上)

25年5月來自 Cornell 大學、香港科大和希臘 U Peloponnese 的論文“Vision-Language-Action Models: Concepts, Progress, Applications and Challenges”。 視覺-語言-動作 (VLA) 模型標志著人工智能的變革性進步,旨在將感知、自然語言理解和具體動作統一在一個計…

Java筆記4

第一章 static關鍵字 2.1 概述 以前我們定義過如下類: public class Student {// 成員變量public String name;public char sex; // 男 女public int age;// 無參數構造方法public Student() {}// 有參數構造方法public Student(String a) {} }我們已經知道面向…

記一次redis未授權被種挖礦

#挖礦程序 /etc/httpgd /etc/nnt.sh #大小問 #定時任務名為root /var/spool/cron/root 內容:*/50 * * * * sh /etc/nnt.sh >/dev/null 2>&1 定時任務只有所有者可以寫,且chmod修改權限失敗。 #先查看定時任務的拓展屬性,不可變(i…

Excel分組計算求和的兩種實現方案

文章目錄 背景樣例數據方案一、函數求和實現步驟缺點 方案二、數據透視表實現步驟優點 背景 在Excel文檔中,經常會進行數據的求和計算,可使用不同的方式實現,記錄下來,方便備查。 樣例數據 已有商品銷量信息,包含銷…

如何應對網站被爬蟲和采集?綜合防護策略與實用方案

在互聯網時代,網站內容被惡意爬蟲或采集工具竊取已成為常見問題。這不僅侵犯原創權益,還可能影響網站性能和SEO排名。以下是結合技術、策略與法律的綜合解決方案,幫助網站構建有效防護體系。 一、技術防護:阻斷爬蟲的“技術防線”…

網卡網孔速率的協商是如何進行的?

網卡與交換機等網絡設備之間的速率協商主要通過**自動協商(Auto-Negotiation)**機制實現,其核心是物理層(PHY)芯片之間的信息交互。以下是協商過程的詳細解析: 一、自動協商的核心流程 1. 發送配置幀&am…

FastExcel 本地開發和Linux上上傳Resource文件的差異性

不能直接通過路徑來獲取 這個是一個下載導出文件的操作 GetMapping(value "/export/all") public void exportAll(HttpServletResponse response, LaylineListReq req) throws IOException {// 從類路徑下獲取 Excel 文件資源ClassPathResource classPathResource…

【RAG】Milvus、Pinecone、PgVector向量數據庫索引參數優化

Milvus 、PgVector 索引參數優化 IVF類索引關鍵參數(基于聚類算法) nlist (倒排列表數量): 決定將向量空間劃分為多少個聚類中心值越大搜索越精確但耗時越長推薦值: 通常設置為數據量的4√n到n/1000之間例如: 1百萬數據量可設nlist1000到4000 nprobe (搜…

5月12日信息差

一、國際政治與安全:俄烏沖突與中美博弈 1. 烏克蘭戰場信息分化 俄方戰報: 俄羅斯國防部宣稱在頓巴斯地區摧毀烏軍12輛坦克及3套美制“海馬斯”火箭系統,稱烏軍反攻受阻。 信息特點:強調裝備摧毀數量,淡化前線實際控制變化。 烏方通報: 烏克蘭總參謀部表示已奪回巴赫穆特…

Python如何使用進行風險管理和投資組合優化

文章目錄 前言python3.13 環境配置風險管理投資組合優化 前言 在 Python 中,可以使用多個庫來進行風險管理和投資組合優化,以下是一些常見的方法和庫。 python3.13 環境配置 python3.13安裝教程:https://blog.csdn.net/2501_91538706/artic…

C++ 狀態模式詳解

狀態模式(State Pattern)是一種行為設計模式,它允許一個對象在內部狀態改變時改變其行為,使對象看起來像是改變了其類。 核心概念 設計原則 狀態模式遵循以下設計原則: 單一職責原則:將狀態相關行為分離…

Html5新特性_js 給元素自定義屬性_json 詳解_淺克隆與深克隆

文章目錄 1. html5新特性2.用 js 給元素自定義屬性3.json3.1 json與普通對象的區別3.2 json對象與 js對象的轉化 4.淺克隆和深克隆 1. html5新特性 html5中引入了新的特性(新的標簽),下面的新標簽是新的結構標簽,不過不太常用 h…

std::move 和 std::forward

關聯點 都是執行轉換(cast)的函數(函數模板),不產生任何可執行代碼。且都可以把實參轉換成右值。 std::move無條件將實參(const除外 )轉換成右值引用,std::forward 條件返回右值引用 _EXPORT_STD template…

Uniapp編寫微信小程序,使用canvas進行繪圖

一、canvas文檔: https://developer.mozilla.org/zh-CN/docs/Web/API/Canvas_API/Tutorial 二、數據繪制(單位是像素): 1、繪制文本: 文字的長度超過設置的最大寬度,文字會縮在一起 ① 填充文本&#xf…

FLASH閃存(擦除、編譯)

FLASH閃存 文章目錄 FLASH閃存1.存儲器映像位置2.FLASH簡介3.閃存模塊組織3.2閃存的共性: 4.FLASH基本結構4.1FLASH解鎖4.2使用指針訪問寄存器 5.選項字節5.1選項字節編程5.2選項字節擦除 6.相關函數介紹7.讀取內部FLASH(實操)7.1接線圖7.2工…

PostgreSQL 序列(Sequence) 與 Oracle 序列對比

PostgreSQL 序列(Sequence) 與 Oracle 序列對比 PostgreSQL 和 Oracle 都提供了序列(Sequence)功能,但在實現細節和使用方式上存在一些重要差異。以下是兩者的詳細對比: 一 基本語法對比 1.1 創建序列 PostgreSQL: CREATE [ { TEMPORARY | TEMP } |…

12.2.2 allocator類

allocator類將分配內存空間、調用構造函數、調用析構函數、釋放內存空間這4部分操作分開&#xff0c;全部交給程序員來執行&#xff0c;不像new和delete #include <iostream> #include <string>int main() {const int n 10;std::allocator<std::string> al…