最近在做pdf的ocr,之前使用過ocrmypdf,打算再次使用,發現它更新了,所以就打算使用最新版
環境:win11+anaconda
創建虛擬環境后安裝語句:
pip install ocrmypdf -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install tesseract -i https://pypi.tuna.tsinghua.edu.cn/simple
然后使用時發現報錯了:cannot import name 'PdfMatrix' from 'pikepdf'
查了一下網站:v9.5.1 — pikepdf 9.5.1 documentation
發現pikepdf在v9.0.0版本時Removed deprecated pikepdf.PdfMatrix. Use pikepdf.Matrix instead.
它移除了PdfMatrix模塊,改了個名字。
試了一下同步修改ocrmypdf的兩個文件,發現還是有一部分pdf在ocr時會報錯,懶得研究了,就把pikepdf的版本修改為:v8.15.1即可
pip install pikepdf==8.15.1
ps:記得ocrmypdf還需要依賴Ghostscript,需要官網下載即可:Ghostscript : Downloads