C++/OpenCV 圖像預處理與 PaddleOCR 結合進行高效字符識別

在許多實際應用場景中，直接從原始圖片中提取文字的準確率可能不盡人意。圖像中的噪聲、光照不均、角度傾斜等問題都會嚴重干擾 OCR (Optical Character Recognition) 引擎的識別效果。本文將詳細介紹如何利用 C++ 和強大的計算機視覺庫 OpenCV 對圖像進行預處理，然后將處理后的圖像送入 PaddleOCR 的 C++ 預測庫中，從而顯著提升文字識別的準確率和魯棒性。

摘要

本文主要涵蓋以下內容：

環境搭建: 配置 OpenCV 和 PaddleOCR C++ 預測庫。
核心預處理技術: 介紹灰度化、二值化、去噪、傾斜校正等關鍵圖像處理步驟及其 OpenCV 實現。
集成與識別: 展示如何將 OpenCV 處理后的 cv::Mat 對象無縫對接到 PaddleOCR 引擎。
完整代碼示例: 提供一個包含預處理和 OCR 識別的完整 C++ 項目示例，并附上 CMakeLists.txt 以便編譯。

1. 環境搭建

在開始之前，請確保您的開發環境已經準備就緒。

1.1 安裝 OpenCV

您可以從 OpenCV 官網下載源碼自行編譯，或者使用包管理器（如 vcpkg, apt, brew）進行安裝。請確保安裝的是 C++ 版本。

1.2 下載 PaddleOCR C++ 預測庫

從 PaddleOCR GitHub Release 頁面下載適用于您系統（Windows/Linux/macOS）和硬件（CPU/GPU）的 C++ 預測庫。解壓后，您會得到包含以下內容的目錄結構：

include: 存放所需的頭文件（如 paddle_inference_api.h, ocr_det.h, ocr_rec.h 等）。
lib: 存放編譯好的庫文件（如 .so, .a, .lib, .dll）。
models: 存放 OCR 所需的推理模型文件。

1.3 項目結構（推薦）

project_root/
|-- main.cpp              # 我們的主程序
|-- CMakeLists.txt        # 編譯配置文件
|-- models/               # 從 PaddleOCR 預測庫中復制的模型文件夾
|   |-- ch_PP-OCRv4_det_infer/
|   |-- ch_PP-OCRv4_rec_infer/
|   |-- ch_ppocr_mobile_v2.0_cls_infer/
|   `-- ppocr_keys_v1.txt
|-- images/
|   `-- test_image.jpg    # 待識別的圖片
|-- paddle_ocr_lib/       # 存放 PaddleOCR 的頭文件和庫文件
|   |-- include/
|   `-- lib/
`-- build/                # 編譯輸出目錄

2. 核心圖像預處理技術

預處理是提升 OCR 準確率的關鍵。一個好的預處理流程可以為 OCR 引擎提供一個清晰、規范的輸入。

2.1 灰度化 (Grayscale)

將彩色圖像轉換為灰度圖像是大多數圖像處理任務的第一步。它可以降低計算復雜性，并消除顏色信息的干擾。

目的: 簡化圖像，減少數據量。
OpenCV 函數: cv::cvtColor()

#include <opencv2/imgproc.hpp>cv::Mat gray_image;
cv::cvtColor(source_image, gray_image, cv::COLOR_BGR2GRAY);

2.2 二值化 (Binarization)

二值化將灰度圖像轉換為只有黑白兩種顏色的圖像，可以有效地將文字與背景分離。對于光照不均的圖像，自適應閾值 (cv::adaptiveThreshold) 通常比全局閾值 (cv::threshold) 效果更好。

目的: 突出文字輪廓，分離前景和背景。
OpenCV 函數: cv::adaptiveThreshold()

#include <opencv2/imgproc.hpp>cv::Mat binary_image;
cv::adaptiveThreshold(gray_image, binary_image, 255,cv::ADAPTIVE_THRESH_GAUSSIAN_C,cv::THRESH_BINARY, 11, 2);

2.3 圖像去噪 (Denoising)

噪聲會干擾文字邊緣的檢測。中值濾波 (cv::medianBlur) 對去除椒鹽噪聲特別有效，而高斯濾波 (cv::GaussianBlur) 則常用于平滑圖像。

目的: 移除隨機噪聲點，使圖像更平滑。
OpenCV 函數: cv::medianBlur()

#include <opencv2/imgproc.hpp>cv::Mat denoised_image;
// 使用 3x3 的核進行中值濾波
cv::medianBlur(binary_image, denoised_image, 3);

2.4 傾斜校正 (Deskewing) - (進階)

傾斜的文本行會嚴重影響識別效果。傾斜校正的目標是檢測文本的傾斜角度并將其旋轉回水平位置。這通常是一個更復雜的過程，簡單思路如下：

通過霍夫變換 (cv::HoughLinesP) 或輪廓檢測 (cv::findContours 和 cv::minAreaRect) 找到文本塊的主方向。
計算平均傾斜角度。
使用 cv::getRotationMatrix2D 和 cv::warpAffine 旋轉整個圖像。

由于傾斜校正實現較為復雜，在本文的基礎示例中將不包含其代碼，但這是優化識別效果的一個重要方向。

3. 集成與識別

經過 OpenCV 預處理后，我們得到一個干凈的 cv::Mat 對象。PaddleOCR 的 C++ API 設計得非常友好，可以很方便地接收 cv::Mat 數據。

PaddleOCR 的 C++ API 通常包含一個 ocr 方法，其簽名可能如下所示：

// 偽代碼，具體請參考所下載版本的頭文件
std::vector<std::vector<OCRPredictResult>> ocr(cv::Mat& img, bool det, bool rec);

其中 OCRPredictResult 結構體通常包含文字塊的包圍盒 (box)、識別出的文本 (text) 和置信度 (score)。

我們只需要將預處理后的 cv::Mat 對象作為參數傳遞給這個函數即可。

4. 完整代碼示例

下面是一個將所有部分整合在一起的 C++ 示例。

`main.cpp`

#include <iostream>
#include <vector>
#include <string>// OpenCV Headers
#include <opencv2/core.hpp>
#include <opencv2/imgcodecs.hpp>
#include <opencv2/highgui.hpp>
#include <opencv2/imgproc.hpp>// PaddleOCR Headers - 路徑根據你的項目結構調整
#include "paddle_ocr_lib/include/ocr_det.h"
#include "paddle_ocr_lib/include/ocr_rec.h"
#include "paddle_ocr_lib/include/ocr_cls.h"
#include "paddle_ocr_lib/include/ppocr_keys_v1.txt"
#include "paddle_ocr_lib/include/paddle_ocr.h"// 使用 PaddleOCR 命名空間
using namespace PaddleOCR;// 打印識別結果的輔助函數
void print_results(const std::vector<std::vector<OCRPredictResult>>& ocr_results) {for (const auto& line_results : ocr_results) {for (const auto& result : line_results) {std::cout << "Box: [";for (const auto& point : result.box) {std::cout << "(" << point[0] << "," << point[1] << ") ";}std::cout << "], Text: " << result.text << ", Score: " << result.score << std::endl;}}
}int main(int argc, char** argv) {if (argc < 2) {std::cerr << "Usage: " << argv[0] << " <path_to_image>" << std::endl;return -1;}// -------- 1. 加載圖片 --------std::string image_path = argv[1];cv::Mat image = cv::imread(image_path, cv::IMREAD_COLOR);if (image.empty()) {std::cerr << "Error: Could not read image from " << image_path << std::endl;return -1;}std::cout << "Image loaded successfully." << std::endl;// -------- 2. 圖像預處理 --------cv::Mat preprocessed_image;// (1) 灰度化cv::cvtColor(image, preprocessed_image, cv::COLOR_BGR2GRAY);// (2) 高斯模糊去噪cv::GaussianBlur(preprocessed_image, preprocessed_image, cv::Size(3, 3), 0);// (3) 自適應二值化cv::adaptiveThreshold(preprocessed_image, preprocessed_image, 255, cv::ADAPTIVE_THRESH_GAUSSIAN_C, cv::THRESH_BINARY, 11, 2);// (可選) 顯示預處理后的圖片// cv::imshow("Preprocessed Image", preprocessed_image);// cv::waitKey(0);std::cout << "Image preprocessed." << std::endl;// -------- 3. 初始化 PaddleOCR 引擎 --------// 模型路徑根據你的項目結構調整std::string det_model_dir = "./models/ch_PP-OCRv4_det_infer";std::string rec_model_dir = "./models/ch_PP-OCRv4_rec_infer";std::string cls_model_dir = "./models/ch_ppocr_mobile_v2.0_cls_infer";std::string keys_path = "./models/ppocr_keys_v1.txt";// 創建 PP-OCR 實例PPOCR ocr_engine = PPOCR(det_model_dir, rec_model_dir, cls_model_dir, keys_path);std::cout << "PaddleOCR engine initialized." << std::endl;// -------- 4. 執行OCR并打印結果 --------std::cout << "\n--- OCR Results on Original Image ---" << std::endl;std::vector<std::vector<OCRPredictResult>> original_results = ocr_engine.ocr(image, true, true, true);print_results(original_results);std::cout << "\n--- OCR Results on Preprocessed Image ---" << std::endl;// 注意：PaddleOCR 內部可能也會進行灰度處理，但我們傳入預處理圖像可以控制處理流程// 如果傳入單通道灰度圖，需要先將其轉為三通道cv::Mat preprocessed_bgr;cv::cvtColor(preprocessed_image, preprocessed_bgr, cv::COLOR_GRAY2BGR);std::vector<std::vector<OCRPredictResult>> preprocessed_results = ocr_engine.ocr(preprocessed_bgr, true, true, true);print_results(preprocessed_results);return 0;
}

`CMakeLists.txt`

cmake_minimum_required(VERSION 3.10)
project(OcrWithOpenCV CXX)# 設置 C++ 標準
set(CMAKE_CXX_STANDARD 11)
set(CMAKE_CXX_STANDARD_REQUIRED ON)# --- 配置 OpenCV ---
# 推薦使用 find_package，如果找不到，請設置 OpenCV_DIR 環境變量
find_package(OpenCV REQUIRED)
include_directories(${OpenCV_INCLUDE_DIRS})# --- 配置 PaddleOCR ---
# 設置 PaddleOCR 庫的路徑 (請根據你的實際路徑修改)
set(PADDLE_OCR_INC_DIR ${CMAKE_SOURCE_DIR}/paddle_ocr_lib/include)
set(PADDLE_OCR_LIB_DIR ${CMAKE_SOURCE_DIR}/paddle_ocr_lib/lib)include_directories(${PADDLE_OCR_INC_DIR})
link_directories(${PADDLE_OCR_LIB_DIR})# --- 創建可執行文件 ---
add_executable(ocr_demo main.cpp)# --- 鏈接庫 ---
# 鏈接 OpenCV 庫
target_link_libraries(ocr_demo ${OpenCV_LIBS})# 鏈接 PaddleOCR 庫 (庫名可能因版本和平臺而異)
# 在 Linux 上通常是 .so 文件，Windows 上是 .lib
# 例如：libpaddle_inference.so, libpaddle_ocr.so
target_link_libraries(ocr_demo paddle_inference paddle_ocr)# 如果遇到 GLIBCXX 版本問題，可以嘗試添加以下行
# add_definitions(-D_GLIBCXX_USE_CXX11_ABI=0)

如何編譯和運行

執行 CMake 和 Make：

cd project_root
mkdir build && cd build
cmake ..
make

運行程序：
```
./ocr_demo ../images/test_image.jpg
```

你會看到程序分別輸出對原始圖像和預處理后圖像的識別結果，可以直觀地對比預處理帶來的效果提升。

5. 結論

將 OpenCV 的強大圖像處理能力與 PaddleOCR 的高效識別核心相結合，是構建高性能、高魯棒性 OCR 應用的黃金搭檔。通過灰度化、二值化、去噪等一系列精心設計的預處理步驟，我們可以將原始的、充滿挑戰的圖像“凈化”為 OCR 引擎最“喜歡”的格式，從而在各種復雜場景下都能獲得令人滿意的識別準確率。

本文提供的框架是一個起點，你可以根據具體應用場景的需求，進一步探索更高級的預處理技術（如透視變換、亮度均衡等），以應對更具挑戰性的識別任務。