什么是OCR?
OCR(Optical Character Recognition,光學字符識別)是一種通過技術手段將圖像或掃描件中的文字內容轉換為可編輯、可搜索的文本格式(如TXT、Word、PDF等)的技術。它廣泛應用于文檔數字化、信息提取、自動化處理等領域。
OCR的核心功能
-
圖像轉文本
將紙質文檔、照片、PDF掃描件等圖像中的文字提取為計算機可識別的字符。- 例如:從一張發票中提取金額、日期等信息。
-
多語言支持
支持多種語言的字符識別(如中文、英文、日文、阿拉伯語等),甚至能處理手寫體、特殊符號。 -
格式保留
部分高級OCR工具可保留原文檔的排版、表格結構、字體樣式等。
OCR的工作原理
-
圖像預處理
- 去噪、二值化、傾斜校正等,優化圖像質量以提高識別準確率。
-
字符檢測與分割
- 定位圖像中的文字區域,并將單個字符或單詞分割出來。
-
特征提取與匹配
- 通過算法(如深度學習模型)分析字符形狀,與已知字符庫比對,確定最可能的字符。
-
后處理與優化
- 結合上下文語義修正識別結果(如將“0”修正為字母“O”),提升文本準確性。
常見應用場景
-
文檔數字化
- 將紙質書籍、合同、檔案掃描為電子文本,便于存儲和檢索。
-
自動化辦公
- 提取發票、收據、表單中的數據,自動導入數據庫或財務系統。
-
移動應用
- 手機APP(如Google Keep、掃描全能王)通過拍照提取文字,支持翻譯、復制粘貼。
-
車牌識別與安防
- 監控攝像頭捕捉車牌信息,用于交通管理或停車場系統。
-
殘障人士輔助
- 幫助視障用戶通過圖像識別文字,再轉為語音朗讀。
技術挑戰與局限性
- 復雜背景干擾:如花紋背景、低對比度文字可能導致識別失敗。
- 特殊字體或手寫體:藝術字體、潦草手寫體可能降低準確率。
- 多語言混合:不同語言字符的混合場景需要更復雜的模型支持。
- 圖像質量依賴:模糊、傾斜、光照不均的圖像會影響識別效果。
主流OCR工具/服務
-
商業工具
- Adobe Acrobat(PDF文字提取)、Google Drive(在線OCR)、ABBYY FineReader。
-
開源項目
- Tesseract OCR(Google開源,支持多種語言)。
- PaddleOCR(基于深度學習的高精度識別)。
-
云服務API
- Google Cloud Vision API、Amazon Textract、百度AI開放平臺OCR。
未來趨勢
- 深度學習優化:通過Transformer、CNN等模型提升復雜場景的識別準確率。
- 端側部署:輕量化模型(如移動端OCR)實現實時處理。
- 多模態融合:結合語音、圖像、上下文信息提升語義理解能力。
來源于qwen3
百度飛槳OCR(python)
開源地址:
https://github.com/PaddlePaddle/PaddleOCR
文檔:
https://paddlepaddle.github.io/PaddleOCR/latest/index.html
文本檢測+方向分類+文本識別
以cpu為例:
conda create -n py310 python=3.10 -y
conda activate py310
python -m pip install paddlepaddle==3.0.0rc1 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
pip install paddleocrfrom paddleocr import PaddleOCR, draw_ocr# Paddleocr supports Chinese, English, French, German, Korean and Japanese
# You can set the parameter `lang` as `ch`, `en`, `french`, `german`, `korean`, `japan`
# to switch the language model in order
ocr = PaddleOCR(use_angle_cls=True, lang='en') # need to run only once to download and load model into memory
img_path = 'PaddleOCR/doc/imgs_en/img_12.jpg'
result = ocr.ocr(img_path, cls=True)
for idx in range(len(result)):res = result[idx]for line in res:print(line)# draw result
from PIL import Image
result = result[0]
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='/path/to/PaddleOCR/doc/fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')
低代碼平臺:
https://github.com/PaddlePaddle/PaddleX
文檔:
https://paddlepaddle.github.io/PaddleX/latest/module_usage/tutorials/ocr_modules/text_detection.html
開箱即用:
PaddleX:
conda create -n py310 python=3.10 -y
conda activate py310from paddlex import create_model
## 文本檢測 PP-OCRv4_server_det
## 文本識別 PP-OCRv4_server_rec_doc# 車牌檢測 : PP-YOLOE-L_vehicle
# 車輛屬性檢測: PP-LCNet_x1_0_vehicle_attribute
model = create_model(model_name="PP-LCNet_x1_0_vehicle_attribute")
output = model.predict(input="img/cc.jpg", batch_size=1)
# print("----",str(output))for res in output:res.print()res.save_to_img(save_path="./output/")res.save_to_json(save_path="./output/res.json")
cnocr 開源項目(python)
https://github.com/breezedeus/cnocr
開箱即用:
conda create -n py310 python=3.10 -y
conda activate py310
## cpu版本
pip install cnocr[ort-cpu] -i https://mirrors.aliyun.com/pypi/simple## gpu版本
pip install cnocr[ort-gpu] -i https://mirrors.aliyun.com/pypi/simple# 簡單使用
from cnocr import CnOcr
img_fp = './docs/examples/huochepiao.jpeg'
ocr = CnOcr() # 所有參數都使用默認值
out = ocr.ocr(img_fp)
print(out)## 使用百度飛槳的版本
from cnocr import CnOcr
img_fp = './docs/examples/shupai.png'
ocr = CnOcr(rec_model_name='ch_PP-OCRv4')
out = ocr.ocr(img_fp)
print(out)
RapidOCR
用于PaddleOCR onnx的跨平臺 (python|java|C++|C#)
開源地址:
https://github.com/RapidAI/RapidOCR
文檔:
https://rapidai.github.io/RapidOCRDocs/main/
jvm:jni 方式調用 onnx
https://github.com/RapidAI/RapidOcrOnnxJvm
https://github.com/RapidAI/RapidOcrOnnx
開箱即用
conda create -n py310 python=3.10 -y
conda activate py310pip install onnxruntime
pip install rapidocrfrom rapidocr import RapidOCR
engine = RapidOCR(params={"Global.with_torch": True})
img_url = "https://img1.baidu.com/it/u=3619974146,1266987475&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=516"
result = engine(img_url)
print(result)
result.vis("vis_result.jpg")
RapidOCRJava
開源地址:
https://gitee.com/lc_monster/rapid-ocr-java
開箱即用:
<dependency><groupId>io.github.mymonstercat</groupId><artifactId>rapidocr-onnx-platform</artifactId><version>0.0.7</version>
</dependency><dependency><groupId>io.github.mymonstercat</groupId><artifactId>rapidocr-ncnn-platform</artifactId><version>0.0.7</version>
</dependency>public static void main(String[] args) {InferenceEngine engine = InferenceEngine.getInstance(Model.ONNX_PPOCR_V4);OcrResult ocrResult = engine.runOcr("/images/test.png");System.out.println(ocrResult.getStrRes().trim());}
場景
(標準的印刷體電子文檔識別和數據抽取)
一般地OCR識別底層處理
1, 文字區域識別 (det)
2,方向分類(cls)
3,文字光學識別 (rec)
PaddleOCR to onnx
## det
paddle2onnx --model_dir C:/Users/linpx/.paddlex/official_models/PP-OCRv4_server_det --model_filename inference.pdmodel --params_filename inference.pdiparams --save_file ./ppocrv4_det.onnx --opset_version 11# rec
paddle2onnx --model_dir C:/Users/linpx/.paddlex/official_models/PP-OCRv4_server_rec_doc --model_filename inference.pdmodel --params_filename inference.pdiparams --save_file ./ppocrv4_rec_doc.onnx --opset_version 11
項目使用
- 底層使用 PP-OCRv4_server_det + PP-OCRv4_server_rec_doc
- onnxruntime(2onnx): ppocrv4_det.onnx + ppocrv4_rec_doc.onnx
- 使用rapidOCR的跨平臺的jni
- rapidOCRJava pom依賴 快速的項目集成簡單ocr能力
代碼部分
主要有:pdf文件轉圖片》圖片OCR》結果重畫
package app;import com.alibaba.fastjson.JSON;
import com.benjaminwan.ocrlibrary.OcrResult;
import com.benjaminwan.ocrlibrary.Point;
import com.benjaminwan.ocrlibrary.TextBlock;
import com.visual.open.anpr.core.domain.DrawImage;
import io.github.mymonstercat.Model;
import io.github.mymonstercat.ocr.InferenceEngine;
import io.github.mymonstercat.ocr.config.ParamConfig;
import lombok.AllArgsConstructor;
import lombok.Builder;
import lombok.Data;
import lombok.NoArgsConstructor;
import nu.pattern.OpenCV;
import org.apache.commons.collections4.list.TreeList;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.opencv.core.*;
import org.opencv.imgcodecs.Imgcodecs;import javax.imageio.ImageIO;
import java.awt.*;
import java.awt.image.BufferedImage;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.util.*;
import java.util.List;public class RapidOCRJavaDemo {static {OpenCV.loadShared();System.out.println("Loaded OpenCV version: " + Core.VERSION);}public static void main(String[] args) throws IOException {System.out.println("----------start-----------------");String parentPath = "D:\\work\\ocr-img\\pdf";pdfToPng(parentPath);File parent = new File(parentPath,"pdf2img");File[] files = parent.listFiles();for (File file : files){runOcr(file.getAbsolutePath());}System.out.println("----------end-----------------");}private static void runOcr(String filePath) {File file = new File(filePath);File parent = file.getParentFile();new File(parent.getAbsolutePath()+"/ocr").mkdirs();ParamConfig paramConfig = ParamConfig.getDefaultConfig();// 圖像外接白框,用于提升識別率,文字框沒有正確框住所有文字時,增加此值。默認50。paramConfig.setPadding(50);// 按圖像長邊進行總體縮放,放大增加識別耗時但精度更高,縮小減小耗時但精度降低,maxSideLen為0表示不縮放paramConfig.setMaxSideLen(0);// 文字框置信度門限,文字框沒有正確框住所有文字時,減小此值paramConfig.setBoxScoreThresh(0.5f);// 同上,自行試驗paramConfig.setBoxThresh(0.3f);// 單個文字框大小倍率,越大時單個文字框越大paramConfig.setUnClipRatio(1.6f);// 啟用(true)/禁用(false) 文字方向檢測,只有圖片倒置的情況下(旋轉90~270度的圖片),才需要啟用文字方向檢測,默認關閉paramConfig.setDoAngle(false);// 啟用(1)/禁用(0) 角度投票(整張圖片以最大可能文字方向來識別),當禁用文字方向檢測時,此項也不起作用,默認關閉paramConfig.setMostAngle(false);InferenceEngine engine = InferenceEngine.getInstance(Model.ONNX_PPOCR_V4);String outFileBox = parent.getAbsolutePath()+"/ocr/result_box_"+file.getName();String outFileFill = parent.getAbsolutePath()+"/ocr/result_fill_"+file.getName();OcrResult ocrResult = engine.runOcr(filePath, paramConfig);System.out.println(JSON.toJSONString(ocrResult));
// System.out.println(ocrResult.getStrRes().trim());// 畫框版本DrawImage drawBox = DrawImage.build(filePath);drawTextToImg(ocrResult.getTextBlocks(), drawBox);saveFileToDir(drawBox, outFileBox);createGrayBackgroundImage(filePath, outFileFill);// 填充文本版本DrawImage drawFill = DrawImage.build(outFileFill);drawFilledTextToImg(ocrResult.getTextBlocks(), drawFill);saveFileToDir(drawFill, outFileFill);}private static void pdfToPng(String parentPath) throws IOException {File parent = new File(parentPath);File[] files = parent.listFiles();new File(parent.getAbsolutePath()+"/pdf2img").mkdirs();for (int i = 0; i < files.length; i++) {File file = files[i];PDDocument document = PDDocument.load(file);PDFRenderer renderer = new PDFRenderer(document);String newFileName = UUID.randomUUID().toString().replace("-","");for (int j = 0; j < document.getNumberOfPages(); j++) {BufferedImage image = renderer.renderImageWithDPI(j, 300); // 300 DPIImageIO.write(image, "PNG", new File(parent.getAbsolutePath()+"/pdf2img",newFileName+"_page_" + (j + 1) + ".png"));}document.close();}}/*** 根據源圖片生成一個灰色背景的新空白圖片** @param sourceImagePath 源圖片路徑* @param outputImagePath 輸出圖片路徑* @param grayValue 灰色值(0~255),推薦 128*/public static void createGrayBackgroundImage(String sourceImagePath, String outputImagePath) {int grayValue = 100;// 讀取源圖片Mat src = Imgcodecs.imread(sourceImagePath);if (src.empty()) {throw new RuntimeException("無法讀取源圖片: " + sourceImagePath);}// 獲取源圖尺寸int width = src.cols();int height = src.rows();// 創建一個與源圖尺寸相同的新 Mat 對象,3 通道,8 位無符號整型Mat grayImage = new Mat(height, width, CvType.CV_8UC3, new Scalar(grayValue, grayValue, grayValue));// 釋放源圖資源(如果不需要后續使用)src.release();// 保存新圖片boolean success = Imgcodecs.imwrite(outputImagePath, grayImage);if (!success) {throw new RuntimeException("無法保存新圖片到: " + outputImagePath);}System.out.println("灰色背景圖片已保存至: " + outputImagePath);// 釋放新圖片資源(如果不需要后續使用)grayImage.release();}private static void drawTextToImg(List<TextBlock> textBlocks, DrawImage drawImage) {for (TextBlock block : textBlocks) {List<Point> points = block.getBoxPoint();if (points == null || points.size() != 4) {continue; // 忽略無效數據}// 依次繪制四條線,形成閉合四邊形for (int i = 0; i < 4; i++) {Point p1 = points.get(i);Point p2 = points.get((i + 1) % 4);drawImage.drawLine(new DrawImage.Point(p1.getX(), p1.getY()),new DrawImage.Point(p2.getX(), p2.getY()),2, Color.RED);}// 可選:繪制文本內容和置信度String displayText = String.format("%s", block.getText());// 文本位置設置在框的上方Point topLeft = points.get(0);int textX = topLeft.getX();int textY = topLeft.getY() - 25;drawImage.drawText(displayText,new DrawImage.Point(textX, textY),13,Color.GREEN);}}private static void saveFileToDir( DrawImage drawImage, String outputFilePath) {Mat outputMat = drawImage.toMat();Imgcodecs.imwrite(outputFilePath, outputMat);ByteArrayOutputStream plateStream = convertMatToStream(outputMat);saveStreamToFile(plateStream, outputFilePath);System.out.println("Saved to: " + outputFilePath);outputMat.release();}public static ByteArrayOutputStream convertMatToStream(Mat image) {MatOfByte matOfByte = new MatOfByte();Imgcodecs.imencode(".jpg", image, matOfByte); // 將 Mat 編碼成 JPG 格式ByteArrayOutputStream outputStream = new ByteArrayOutputStream();try {outputStream.write(matOfByte.toArray()); // 寫入字節流} catch (IOException e) {throw new RuntimeException("Error converting Mat to stream", e);}image.release();return outputStream;}public static void saveStreamToFile(ByteArrayOutputStream stream, String filePath) {try (FileOutputStream fileOutputStream = new FileOutputStream(filePath)) {stream.writeTo(fileOutputStream); // 將流寫入文件} catch (IOException e) {throw new RuntimeException("Error writing stream to file", e);}}@Data@AllArgsConstructor@NoArgsConstructor@Builderstatic class OcrTextDTO{private String text;private int x1;private int x2;private int y1;private int y2;}private static void drawFilledTextToImg(List<TextBlock> textBlocks, DrawImage drawImage) {// System.out.println("textBlocks sort pre:"+JSON.toJSONString(textBlocks));Map<String,List<OcrTextDTO>> tableGroup = new LinkedHashMap<>();int currentY = 0;textBlocks.sort(Comparator.comparingInt(o ->o.getBoxPoint().stream().mapToInt(Point::getY).min().orElse(Integer.MAX_VALUE)));
// System.out.println("textBlocks sort end:"+JSON.toJSONString(textBlocks));for (TextBlock block : textBlocks) {List<Point> points = block.getBoxPoint();if (points == null || points.size() != 4) {continue; // 忽略無效數據}int minY = Integer.MAX_VALUE;int maxY = Integer.MIN_VALUE;int minX = Integer.MAX_VALUE;int maxX = Integer.MIN_VALUE;System.out.println("points:"+JSON.toJSONString(points));// [{"x":1022,"y":971},{"x":1116,"y":971},{"x":1116,"y":1000},{"x":1022,"y":1000}]// 依次繪制四條線,形成閉合四邊形for (int i = 0; i < 4; i++) {Point p1 = points.get(i);Point p2 = points.get((i + 1) % 4);drawImage.drawLine(new DrawImage.Point(p1.getX(), p1.getY()),new DrawImage.Point(p2.getX(), p2.getY()),2, Color.RED);minY = Math.min(minY, p1.getY());maxY = Math.max(maxY, p1.getY());minX = Math.min(minX, p1.getX());maxX = Math.max(maxX, p1.getX());}int height = maxY - minY;// 可選:繪制文本內容和置信度String displayText = String.format("%s", block.getText());// 文本位置設置在框的上方Point topLeft = points.get(0);int textX = topLeft.getX();int textY = topLeft.getY();
// System.out.println("maxY:"+maxY+",minY:"+minY+",height:"+height);
// System.out.println("currentY:"+currentY+",minY-currentY:"+(minY-currentY)+",minY:"+minY);if(currentY == 0){currentY = minY;}else {if(minY-currentY > 18){currentY = minY;}}
// System.out.println("----currentY:"+currentY+",minY:"+minY+",height:"+height);List<OcrTextDTO> orDefault = tableGroup.getOrDefault(currentY+"", new TreeList<>());orDefault.add(OcrTextDTO.builder().text(displayText).x1(minX).y1(minY).x2(maxX).y2(maxY).build());orDefault.sort(Comparator.comparingInt(OcrTextDTO::getX1));tableGroup.put(currentY+"",orDefault);
// System.out.println("textY:"+textY+",height:"+height+",text:"+displayText);int fontSize;if (height > 40) {fontSize = (int) (height * 0.6);} else if (height > 25) {fontSize = (int) (height * 0.7);} else if (height > 15) {fontSize = (int) (height * 0.8);}else {fontSize = height;}drawImage.drawText(displayText,new DrawImage.Point(textX, textY),fontSize,Color.GREEN);}System.out.println(JSON.toJSONString(tableGroup));}
}
擴展
在java平臺可以直接使用 onnxrunntime來進行解析,不使用 jni的方式
免責聲明:樣例僅供參考,如有錯誤還請糾正!謝謝