OCR(Optical Character Recognition),光學字符識別

參考:如何讓機器讀懂圖片上的文字?飛槳助您快速了解OCR - 知乎
OCR(Optical Character Recognition),譯為光學字符識別,是指通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其它印刷品的文字轉化為圖像信息,再利用文字識別技術將圖像信息轉化為可以使用的計算機輸入技術。

OCR技術的應用場景非常廣泛:
(1)拍照/截圖識別
使用OCR技術,實現拍照文字識別、相冊圖片文字識別和截圖文字識別,可應用于搜索、書摘、筆記、翻譯等移動應用中,方便用戶進行文本的提取或錄入,有效提升產品易用性和用戶使用體驗。
(2)內容審核與監管
(3)視頻內容分析
(4)紙質文檔電子化

OCR技術原理

圖像處理階段:包含圖像輸入、圖像預處理、版面分析、字符切割等子步驟。

文字識別階段:包含特征提取、字符識別、版面恢復、后處理等子步驟。


?

【文本檢測】

圖像輸入:讀取不同格式的圖像文件。

圖像預處理:包含灰度化、二值化、圖像降噪、傾斜矯正等預處理步驟。

版面分析:針對左右兩欄等特殊排版,進行版面分析并劃分段落。

字符切割:對圖像中的文本進行字符級的切割,尤其注意字符粘連等問題。

【文本識別】

特征提取:對字符圖像提取關鍵特征并降維,用于后續的字符識別算法。

字符識別:依據特征向量,基于模版匹配分類法或深度神經網絡分類法,識別出字符。

版面恢復:識別原文檔的排版,按照原排版的格式將識別結果輸出。

后處理:引入語言模型或人工檢查,修正“分”和“兮”等形近字。

參考:OCR二次開發寶典:飛槳聯合多家企業和高校發布《OCR產業范例20講》 - 知乎
基于PaddleOCR完成一個范例的完整流程一般包含數據準備、模型訓練、推理部署三個部分,具體來說:

模型訓練

PP-OCR和PP-Structure系列模型都使用了大量訓練數據,在通用場景可以一定程度地保證精度和泛化性,因此一般建議基于飛槳PP系列模型進行模型微調(finetune),從而實現使用較少的業務數據達到預期效果。基于不同場景業務數據訓練的模型,有時需要針對前后處理進行任務適配,往往能進一步提升整體效果,偶爾甚至有“奇效”。如車牌識別范例中,通過后處理優化特殊符號的識別結果,大幅提升了整體識別精度。

銀行回單是企業財務記賬的重要原始憑證之一。目前是由財務人員進行人工讀取,提取賬單中的收付款人、流水單號、金額等關鍵信息,結合財務記賬規則進行處理,加工成記賬憑證、資產負債表、開具發票。針對該場景,本范例基于PP-Structure訓練命名實體識別、關系抽取模型并基于Hub Serving完成關鍵信息抽取的服務化部署,實現代替記賬公司實現自動化記賬報稅功能。

文檔場景信息抽取v4產線 - PaddleX 文檔

通用OCR產線 - PaddleX 文檔
OCR(光學字符識別,Optical Character Recognition)是一種將圖像中的文字轉換為可編輯文本的技術。它廣泛應用于文檔數字化、信息提取和數據處理等領域。OCR 可以識別印刷文本、手寫文本,甚至某些類型的字體和符號。

通用 OCR 產線用于解決文字識別任務,提取圖片中的文字信息以文本形式輸出,本產線集成了業界知名的 PP-OCRv3 和 PP-OCRv4 的端到端 OCR 串聯系統,支持超過 80 種語言的識別,并在此基礎上,增加了對圖像的方向矯正和扭曲矯正功能。基于本產線,可實現 CPU 上毫秒級的文本內容精準預測,使用場景覆蓋通用、制造、金融、交通等各個領域。本產線同時提供了靈活的服務化部署方式,支持在多種硬件上使用多種編程語言調用。不僅如此,本產線也提供了二次開發的能力,您可以基于本產線在您自己的數據集上訓練調優,訓練后的模型也可以無縫集成。
通用OCR產線中包含必選的文本檢測模塊和文本識別模塊,以及可選的文檔圖像方向分類模塊、文本圖像矯正模塊和文本行方向分類模塊。其中,文檔圖像方向分類模塊和文本圖像矯正模塊作為文檔預處理子產線被集成到通用OCR產線中。

如果您更注重模型的精度,請選擇精度較高的模型;如果您更在意模型的推理速度,請選擇推理速度較快的模型;如果您關注模型的存儲大小,請選擇存儲體積較小的模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/78699.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/78699.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/78699.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

一網統管建設組織保障分工常見表

在 “一網統管” 建設進程中,強有力的組織保障體系與各業務部門間的緊密分工協作是確保建設成效的關鍵。 從組織保障層面來看,需建立專門的 “一網統管” 建設領導小組,由政府高層領導擔任組長,各關鍵業務部門負責人作為組員,以此強化對整體建設工作的統籌規劃與組…

Python中的defaultdict方法

文章目錄 核心特點基本語法常見使用場景1. 分組數據(默認值為列表)2. 計數(默認值為整數)3. 集合操作(默認值為集合)4. 嵌套字典 注意事項與普通字典對比總結1. 鍵(Key)的類型2. 值&…

結構化數據、半結構化數據、非結構化數據 差異與實踐指南

結構化數據、半結構化數據、非結構化數據 差異與實踐指南 一、核心概念與差異對比 維度結構化數據半結構化數據非結構化數據數據結構固定Schema(行列明確)含標簽/層級結構(無固定Schema)無預定義結構存儲方式關系型數據庫&#x…

【AI News | 20250429】每日AI進展

AI Repos 1、aci ACI.dev是一個開源基礎設施層,旨在為AI智能體的工具使用提供支持。它通過統一的模型-上下文-協議(MCP)服務器或輕量級Python SDK,使智能體能夠以感知意圖的方式訪問600多種工具,并具備多租戶認證、細…

【C++ 類和數據抽象】消息處理示例(1):從設計模式到實戰應用

目錄 一、數據抽象概述 二、消息處理的核心概念 2.1 什么是消息處理? 2.2 消息處理的核心目標 三、基于設計模式的消息處理實現 3.1 觀察者模式(Observer Pattern) 3.2 命令模式(Command Pattern) 四、實戰場景…

【Android】自定義Trace

1,Trace分析 Android掉幀分析-CSDN博客 2,自定義Trace 以下,android.os.Trace公開了以下API 1,beginSection與endSection聯合使用,只能在同一個線程 2,beginAsyncSection與endAsyncSection可以在不同線程…

基于tabula對pdf中的excel進行識別并轉換成word(三)

上一節中是基于PaddleOCR對圖片中的excel進行識別并轉換成word優化,本節改變思路,直接從pdf中讀取表格的信息,具體思路如下所述。 PDF中的表格數據如下截圖所示: 一、基于tabula從PDF中提取表格 df_list tabula.read_pdf("…

Java中的接口和抽象類

Java 抽象類與接口:區別、應用與選擇 在 Java 編程的世界里,抽象類和接口是兩個極為重要的概念,它們在實現代碼抽象、提高代碼復用性和可維護性方面發揮著關鍵作用。然而,很多開發者在使用時容易混淆這兩個概念。本文將深入探討 …

Java讀Excel:解析阿里云easyExcel導入文件的行號

文章目錄 引言I 解析阿里云easyExcel導入文件的行號聲明解析對象的基類判斷Excel解析對象類型是否包含繼承某個類 isAssignableFromJava 轉換list類型并設置下標到元素對象屬性II 封裝excel 文件讀取excel 文件讀取用法文件導入上下文III 參數校驗工具類校驗參數是否合法 (jaka…

mmap核心原理和用途及其與內存映射段的關系

mmap 是 Linux/Unix 系統中的一個關鍵系統調用,全稱是 Memory Map(內存映射)。它的核心功能是將 文件、設備或匿名內存 直接映射到進程的虛擬地址空間,從而實現高效的內存訪問和操作。以下是其核心原理和用途的詳細說明&#xff1…

數據庫概論速成期中版

文章目錄 引論數據庫用戶Casual usersNaive usersApplication programmersDatabase administrators 關系模型CAP數據庫兩種描述關系數據庫的方式簡單總結 第一范式規則第二范式規則舉個例子符合第二規則的操作不符合第二規則的操作 第三范式規則key,superkey,null values,主鍵&…

解決調用Claude 3.7接口 403 Request not allowed問題

1. 遇到問題 Python 基于 Langchain 對接 Claude 3.7 大模型接口進行問答時,由于國內不在Claude支持的國家和地區,所以一直調不通,錯誤 anthropic.PermissionDeniedError: Error code: 403 - {error: {type: forbidden, message: Request…

Vue2+Vue3學習筆記

Vue基礎介紹 下載并安裝vue.js v2 https://v2.cn.vuejs.org/https://v2.cn.vuejs.org/ v3 https://v3.cn.vuejs.org/ 會重定向到Vue.js - 漸進式 JavaScript 框架 | Vue.jsVue.js - 漸進式的 JavaScript 框架https://cn.vuejs.org/ 從v2過渡到v3 在F盤創建v2v3學習筆記 并…

2025年KBS新算法 SCI1區TOP:長穎燕麥優化算法AOO,深度解析+性能實測

目錄 1.摘要2.算法原理3.結果展示4.參考文獻5.文章&代碼獲取 1.摘要 本文提出了一種新穎的元啟發式算法——長穎燕麥優化算法(AOO),該算法靈感來自動畫燕麥在環境中的自然行為。AOO模擬了長穎燕麥的三種獨特行為:(i) 通過自然…

CentosLinux系統crontab發現執行刪除命令失效解決方法

權限或安全策略限制 ??可能場景??: ??### ??目錄權限沖突??: 你的目錄權限為 drwxr-xr-x(屬主 mssql),但 cron 任務以 root 執行。 ??風險點??:若目錄內文件屬主為 mssql 且權限為 700&…

后驗概率最大化(MAP)估計算法原理以及相具體的應用實例附C++代碼示例

1. MAP估計基本原理 MAP(Maximum A Posteriori,最大后驗概率估計)是貝葉斯推斷中的重要概念,它的目標是: 給定觀測數據,找到使得后驗概率最大的參數值。 公式化表示: [ θ MAP arg ? max ?…

16、路由守衛:設置魔法結界——React 19 React Router

一、魔法結界的本質 "路由守衛是霍格沃茨城堡的隱身斗篷,在時空裂隙中精準控制維度躍遷!" 魔法部交通司官員揮舞魔杖,React Router 的嵌套路由在空中交織成星軌矩陣。 ——基于《國際魔法聯合會》第7號時空協議,路由守…

從車道檢測項目入門open cv

從車道檢測項目入門open cv 前提聲明:非常感謝b站up主 嘉然今天吃帶變,感謝其視頻的幫助。同時希望各位大佬積積極提出寶貴的意見。😊😊😊(???)(●’?’●)╰(▽)╯ github地址:https://github.com/liz…

【行業特化篇3】制造業簡歷優化指南:技術參數與標準化流程的關鍵詞植入藝術

寫在最前 作為一個中古程序猿,我有很多自己想做的事情,比如埋頭苦干手搓一個低代碼數據庫設計平臺(目前只針對寫java的朋友),比如很喜歡幫身邊的朋友看看簡歷,講講面試技巧,畢竟工作這么多年,也做到過高管,有很多面人經歷,意見還算有用,大家基本都能拿到想要的offe…

如何在本地部署小智服務器:從源碼到全模塊運行的詳細步驟

小智聊天機器人本地后臺服務器源碼全模塊部署 作者:林甲酸 -不是小女子也不是女漢子 是大女子 更新日期:2025年4月29日 🎯 前言:為什么要寫這篇教程? 上周按照蝦哥小智服務器的教程去部署本地后臺,我用的是…