Tesseract OCR 安裝與中文+英文識別實現

一、下載

https://digi.bib.uni-mannheim.de/tesseract/
下載，盡量選擇時間靠前的（識別更好些）。符合你的運行機（我的是windows64）
在這里插入圖片描述
持續點擊下一步安裝，安裝你認可的路徑即可，沒必要配置環境變量（后續在代碼里指定即可）。

二、下載語言包

https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata
（這是中文的。有了它，后續的識別會更精準）
在這里插入圖片描述
下載到的語言包放到安裝目錄的 Tesseract-OCR\tessdata 目錄下

三、代碼實現和圖片優化

注意：圖片的優化很重要，這會極大的提高識別。
【圖片越大、像素越清晰，識別的準確度越高。
如果是小圖片，需要額外做放大、銳化、對比度等處理。本文章不做這方面的優化。
各位可以截大圖和小圖對比一下結果就知道了。】

下面以python實現為例：
程序：替換你的安裝路徑和圖片地址，運行即可測試。

import pytesseract
from PIL import Image# 設置Tesseract路徑（根據實際安裝路徑修改）
pytesseract.pytesseract.tesseract_cmd = r'C:\soft_install\Tesseract-OCR\tesseract.exe'def ocr_scan(image_path):"""對指定圖片文件進行OCR識別:param image_path: 圖片文件路徑（支持PNG/JPG等格式）"""try:# 加載圖片文件image = Image.open(image_path)# 識別文字（中英文混合）text = pytesseract.image_to_string(image, lang='chi_sim+eng')print("識別結果：\n", text.strip())except FileNotFoundError:print(f"錯誤：文件 '{image_path}' 不存在")except Exception as e:print(f"發生錯誤：{str(e)}")if __name__ == "__main__":# 直接指定圖片路徑（示例路徑）image_path = "processed_latest.png"  # 修改為你的圖片路徑ocr_scan(image_path)

圖片實例如下：

（圖1 未經過放大和二值化閾值等處理。會存在識別失真）
在這里插入圖片描述
（圖2 經過放大和二值化閾值處理。 上面的程序可以正確識別）

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/907508.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/907508.shtml
英文地址，請注明出處：http://en.pswp.cn/news/907508.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！