Tesseract OCR 安裝與中文+英文識別實現

一、下載

https://digi.bib.uni-mannheim.de/tesseract/
下載,盡量選擇時間靠前的(識別更好些)。符合你的運行機(我的是windows64)
在這里插入圖片描述
持續點擊下一步安裝,安裝你認可的路徑即可,沒必要配置環境變量(后續在代碼里指定即可)。

二、下載語言包

https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata
(這是中文的。有了它,后續的識別會更精準)
在這里插入圖片描述
下載到的語言包放到安裝目錄的 Tesseract-OCR\tessdata 目錄下
在這里插入圖片描述

三、代碼實現和圖片優化

注意:圖片的優化很重要,這會極大的提高識別。
【圖片越大、像素越清晰,識別的準確度越高。
如果是小圖片,需要額外做放大、銳化、對比度等處理。 本文章不做這方面的優化。
各位可以截大圖和小圖對比一下結果就知道了。】

下面以python實現為例:
程序:替換你的安裝路徑和圖片地址,運行即可測試。

import pytesseract
from PIL import Image# 設置Tesseract路徑(根據實際安裝路徑修改)
pytesseract.pytesseract.tesseract_cmd = r'C:\soft_install\Tesseract-OCR\tesseract.exe'def ocr_scan(image_path):"""對指定圖片文件進行OCR識別:param image_path: 圖片文件路徑(支持PNG/JPG等格式)"""try:# 加載圖片文件image = Image.open(image_path)# 識別文字(中英文混合)text = pytesseract.image_to_string(image, lang='chi_sim+eng')print("識別結果:\n", text.strip())except FileNotFoundError:print(f"錯誤:文件 '{image_path}' 不存在")except Exception as e:print(f"發生錯誤:{str(e)}")if __name__ == "__main__":# 直接指定圖片路徑(示例路徑)image_path = "processed_latest.png"  # 修改為你的圖片路徑ocr_scan(image_path)

圖片實例如下:

(圖1 未經過放大和二值化閾值等處理。 會存在識別失真)
在這里插入圖片描述
(圖2 經過放大和二值化閾值處理。 上面的程序可以正確識別
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/907508.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/907508.shtml
英文地址,請注明出處:http://en.pswp.cn/news/907508.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Visual Studio 2022 發布獨立的 exe 文件

我們在用 Visual Studio 2022 寫好一個 exe 程序之后,如果想把這個拿到其他地方運行,需要把 exe 所在的文件夾一起拿過去。 編譯出來的 exe 文件需要其他幾個文件一同放在同一目錄才能運行,原因在于默認情況下,Visual Studio 是把…

Kotlin-特殊類型

文章目錄 數據類型枚舉類型匿名類和伴生對象單例類伴生對象 數據類型 聲明一個數據類非常簡單: //在class前面添加data關鍵字表示為一個數據類 data class Student(var name: String, var age: Int)數據類聲明后,編譯器會根據主構造函數中聲明的所有屬性自動為其生成以下函數…

在線博客系統【測試報告】

🕒 一. 項目背景 由于紙質筆記容易丟失,攜帶不變,為了方便自己學習的過程中記錄筆記,特開發了這個博客系統。這個系統后端采用 SpringBoot MyBatis SpringMVC ;前端使用Html CSS JS;數據庫使用的是Mysq…

每日刷題c++

快速冪 #include <iostream> using namespace std; #define int long long int power(int a, int b, int p) {int ans 1;while (b){if (b % 2){ans * a;ans % p; // 隨時取模}a * a;a % p; // 隨時取模b / 2;}return ans; } signed main() {int a, b, p;cin >> a …

Python中的變量、賦值及函數的參數傳遞概要

Python中的變量、賦值及函數的參數傳遞概要 python中的變量、賦值 python中的變量不是盒子。 python中的變量無法用“變量是盒子”做解釋。圖說明了在 Python 中為什么不能使用盒子比喻&#xff0c;而便利貼則指出了變量的正確工作方式。 如果把變量想象為盒子&#xff0c;那…

KVM 安裝 Ubuntu 22

在 KVM 中安裝 Ubuntu 22 虛擬機。 首先創建硬盤文件 sudo qemu-img create -f qcow2 /app/vms/ubuntu22.qcow2 100G安裝Ubuntu 22 sudo virt-install \--name ubuntu22 \--ram 4096 \--vcpus 2 \--disk path/app/vms/ubuntu22.qcow2,formatqcow2 \--os-type linux \--os-va…

基于生產-消費模式,使用Channel進行文件傳輸(Tcp方式)

Client端&#xff1a; #region 多文件傳輸 public class FileMetadata {public string FileName { get; set; }public long FileSize { get; set; } }class Program {const int PORT 8888;const int BUFFER_SIZE 60 * 1024 * 1024;//15s-50 25s-64 33s-32 27s-50 31s-40 25…

【后端高階面經:Elasticsearch篇】39、Elasticsearch 查詢性能優化:分頁、冷熱分離與 JVM 調優

一、索引設計優化:構建高效查詢的基石 (一)分片與副本的黃金配置 1. 分片數量計算模型 # 分片數計算公式(單分片建議30-50GB) def calculate_shards(total_data_gb, single_shard_gb=30):return max

學習路之PHP--easyswoole3.3安裝入門

學習路之PHP--easyswoole安裝入門 一、安裝swoole擴展二、安裝easyswoole三、指定PHP版本安裝四、啟動swoole五、EasySwoole的入門學習如果報&#xff1a;not controller class match 六、學習推薦&#xff1a; 0、centos 7、php7.2.33、easyswoole 3.3 一、安裝swoole擴展 二、…

Ad Hoc

什么是 Ad Hoc&#xff1f; Ad hoc 一詞源于拉丁語&#xff0c;意為“為此目的”或“為此特定原因”。一般來講&#xff0c;它指的是為解決某一特定問題或任務&#xff08;而非為了廣泛重復應用&#xff09;而設計的行動、解決方案或組合。在加密貨幣和區塊鏈領域&#xff0c;…

Lines of Thought in Large Language Models

Lines of Thought in Large Language Models 《Lines of Thought in Large Language Models》(大語言模型中的思維鏈)聚焦于分析大語言模型(LLMs)在生成文本時,其內部向量軌跡的統計特性。 核心目標是揭示LLMs復雜的“思維過程”(即文本生成時的隱藏狀態變化)能否被簡…

npm/yarn/pnpm安裝時Sharp模塊報錯解決方法

在安裝依賴模塊時&#xff0c;npm/yarn/pnpm安裝時Sharp模塊報錯解決方法。 打開源代碼發現&#xff1a;使用的下載地址是github地址&#xff0c;就是因為國內經常無法訪問github造成的。 解決辦法&#xff1a; 把涉及到的下載包設置不要從github上下載&#xff0c;設置成淘寶…

基于CEEMDAN-Transformer-BiLSTM的多特征風速氣候預測的完整實現方案及PyTorch源碼解析

基于CEEMDAN-Transformer-BiLSTM的多特征風速氣候預測的完整實現方案及PyTorch源碼解析 一、模型架構設計 1.1 整體框架 該模型采用三級架構設計&#xff08;圖1&#xff09;&#xff1a; CEEMDAN分解層&#xff1a;對非平穩風速序列進行自適應分解多模態特征融合模塊&#…

ubuntu24.04啟用fcitx 5

在ubuntu24.04中啟用fcitx 5 ubuntu24.04系統自帶三種鍵盤輸入法系統&#xff1a; IBusFcitx 5XIM 系統默認使用的是IBus,這個拼音輸入少了一些智能的味道&#xff0c;比較影響輸入體驗。換用Fcitx 5后&#xff0c;加上搜狗細胞詞庫&#xff0c;感覺很絲滑&#xff0c;特記錄…

【HTML/CSS面經】

HTML/CSS面經 HTML1. script標簽中的async和defer的區別2. H5新特性&#xff08;1 標簽語義化&#xff08;2 表單功能增強&#xff08;3 音頻和視頻標簽&#xff08;4 canvas和svg繪畫&#xff08;5 地理位置獲取&#xff08;6 元素拖動API&#xff08;7 Web Worker&#xff08…

Dolphin文檔解析從理論到實踐——保姆級教程

論文&#xff1a;https://arxiv.org/abs/2505.14059 代碼&#xff1a;github.com/bytedance/Dolphin 2025年5月&#xff0c;字節開源了文檔解析Dolphin&#xff0c;讓文檔解析效率提升83%。本文將深入解析字節跳動最新開源的Dolphin模型&#xff0c;先看理論再實戰體驗。 現實…

Web3怎么本地測試連接以太坊?

ETHEREUM_RPC_URLhttps://sepolia.infura.io/v3/你的_INFURA_API_KEY 如果你沒有 Infura Key&#xff0c;注冊 Infura 或 Alchemy&#xff0c;拿一個免費測試網節點就行&#xff1a; Infura&#xff1a;https://infura.io Alchemy&#xff1a;Alchemy - the web3 developme…

深化生態協同,寧盾身份域管完成與拓波軟件兼容互認證

在信創產業蓬勃發展的浪潮下&#xff0c;行業生態的兼容適配決定了信創產品是否好用。近日&#xff0c;寧盾身份域管與拓波軟件 TurboEX 郵件系統完成兼容互認證。測試結果顯示寧盾身份域管&#xff08;信創版&#xff09;與 TurboEX 郵件服務器軟件相互良好兼容&#xff0c;運…

HDFS存儲原理與MapReduce計算模型

HDFS存儲原理 1. 架構設計 主從架構&#xff1a;包含一個NameNode&#xff08;主節點&#xff09;和多個DataNode&#xff08;從節點&#xff09;。 NameNode&#xff1a;管理元數據&#xff08;文件目錄結構、文件塊映射、塊位置信息&#xff09;&#xff0c;不存儲實際數據…

Function calling的過程

文章目錄 逐段講清 **LLM Function Calling&#xff08;函數調用&#xff09;** 的典型鏈路。1. 角色與概念 | Actors & Concepts2. 全流程時序 | End-to-End Sequence3. 關鍵細節 | Key Implementation Notes4. 最小可用示例&#xff08;偽代碼&#xff09; | Minimal Exa…