計算機視覺（四）：二值化

二值化，就是將圖像從彩色或灰度模式轉換為只有兩種顏色（通常是黑色和白色）的模式。這個過程的本質是設定一個閾值 (Threshold)，將圖像中所有像素的灰度值與這個閾值進行比較。

基本原理

二值化的核心原理非常簡單：

灰度化：如果原始圖像是彩色的，首先需要將其轉換為灰度圖像。這是因為彩色圖像有三個通道（紅、綠、藍），而灰度圖像只有一個灰度通道，每個像素的值代表其亮度，從 0（最黑）到 255（最白）。
設定閾值：選擇一個介于 0 到 255 之間的數值作為閾值。這個閾值是二值化成功的關鍵。
像素比較與轉換：遍歷圖像中的每一個像素，執行以下操作：
- 如果像素的灰度值大于設定的閾值，就將其灰度值設置為一個固定值（通常是 255，代表白色）。
- 如果像素的灰度值小于或等于設定的閾值，就將其灰度值設置為另一個固定值（通常是 0，代表黑色）。

經過上述處理后，圖像中的所有像素都只剩下兩種可能的值：0 和 255，從而得到了一個黑白分明的二值化圖像。

為什么要進行二值化？

二值化是許多圖像處理和計算機視覺任務中的一個重要預處理步驟。它之所以重要，主要有以下幾個原因：

簡化圖像數據：將圖像從多級灰度簡化為黑白兩色，極大地減少了數據量和處理的復雜性。這使得后續的算法（如邊緣檢測、輪廓提取）可以更快、更高效地運行。
突出目標：通過合適的閾值，可以有效地將圖像中的前景目標（如文字、物體）從背景中分離出來，使其更加突出和易于識別。
便于分析和識別：在光學字符識別（OCR）、條形碼識別、醫學圖像分析等領域，二值化是必不可少的步驟。它能幫助算法更準確地識別出字符或病變區域。

如何選擇合適的閾值？

選擇閾值是二值化的核心挑戰。錯誤的閾值會導致信息丟失或引入噪聲。根據不同的應用場景，選擇閾值的方法主要分為以下兩類：

全局閾值（Global Thresholding）
- 概念：對整張圖像使用同一個固定的閾值。
- 方法：
  - 手動設置：根據經驗或對圖像的初步分析來設定一個固定的值。
  - 自動計算：通過算法自動尋找一個最優的閾值，例如大津法（Otsu’s method）。大津法的基本思想是找到一個閾值，使得前景和背景的方差最大化，從而實現最佳的分離效果。
- 局限性：當圖像的光照不均勻時，全局閾值效果會很差。例如，如果圖像左側很亮而右側很暗，一個固定的閾值就無法同時正確地分離兩邊的目標。
局部閾值（Local/Adaptive Thresholding）
- 概念：將圖像分割成許多小的區域，對每個小區域分別計算并應用不同的閾值。
- 方法：
  - 均值法（Mean）：計算每個小區域內的像素平均值作為該區域的閾值。
  - 高斯法（Gaussian）：在計算均值時，為中心像素附近的像素賦予更高的權重，從而得到一個加權平均值作為閾值。
- 優勢：這種方法能很好地處理光照不均或背景復雜的情況，因為它能夠根據局部環境自動調整閾值。

灰度圖

灰度圖的本質

單通道：彩色圖像通常有三個顏色通道（紅、綠、藍，即 RGB），每個像素由這三個通道的值組合而成，可以表示數百萬種顏色。而灰度圖只有一個通道，每個像素的值只代表其亮度或灰度級別。
0-255 的數值：在 8 位灰度圖中，每個像素的取值范圍通常是 0 到 255。
- 0 代表最黑。
- 255 代表最白。
- 0 到 255 之間的值則代表不同深淺的灰色，值越大，顏色越亮。
黑白過渡：與只有純黑和純白的二值化圖像不同，灰度圖能夠平滑地表現出從黑到白的各種過渡，保留了圖像的更多細節信息。

為什么需要灰度圖？

將彩色圖轉換為灰度圖是許多圖像處理任務中的一個重要步驟，主要有以下幾個原因：

簡化數據：灰度圖的數據量比彩色圖小得多。彩色圖需要三個字節（RGB）來存儲一個像素，而灰度圖只需要一個字節。這可以大大減少存儲空間和處理時間。
突出亮度信息：在許多視覺任務中，例如邊緣檢測、輪廓識別、物體追蹤等，算法主要依賴于圖像的亮度或明暗變化。將圖像轉換為灰度圖可以去除不必要的顏色信息，使算法能更專注于分析亮度差異，從而提高效率和準確性。
預處理步驟：在進行二值化、直方圖均衡化等操作之前，通常需要先將圖像轉換為灰度圖。

如何從彩色圖得到灰度圖？

將一張彩色圖片轉換為灰度圖，最常見的方法是根據人眼對不同顏色的敏感度，對 RGB 三個通道的值進行加權平均。

一個常用的轉換公式是：

灰度值=0.299×紅色值+0.587×綠色值+0.114×藍色值

這個公式反映了人眼對綠色最敏感，其次是紅色，對藍色最不敏感。OpenCV 等庫在進行彩色到灰度轉換時，通常會采用類似的加權平均方法。

如果是YUV 轉換為灰度圖，由于 Y 分量本身就直接代表了圖像的亮度信息，而灰度圖的本質就是亮度圖，因此，從 YUV 轉換為灰度圖只需要提取 Y 分量即可。

OpenCV實現YUV到灰度圖的轉換

import cv2
import numpy as np# 1. 加載一張彩色圖像 (OpenCV默認以 BGR 格式讀取)
bgr_img = cv2.imread('your_image_path.jpg')# 檢查圖像是否成功加載
if bgr_img is None:print("Error: Could not read the image.")
else:# 2. 將 BGR 圖像轉換為 YUV 格式# OpenCV 使用 YUV 而非 YCbCr，但原理相同yuv_img = cv2.cvtColor(bgr_img, cv2.COLOR_BGR2YUV)# 3. 提取 Y 分量（亮度通道），作為灰度圖# Y 分量是 YUV 圖像的第一個通道gray_img = yuv_img[:,:,0]# 4. 顯示原始彩色圖像和生成的灰度圖像cv2.imshow('Original BGR Image', bgr_img)cv2.imshow('Gray Image from Y Channel', gray_img)# 等待按鍵，然后關閉所有窗口cv2.waitKey(0)cv2.destroyAllWindows()

opencv實現二值化

cv2.threshold() 函數

ret, dst = cv2.threshold(src, thresh, maxval, type)

參數解釋：

src: 原始圖像，必須是灰度圖。
thresh: 設定的閾值。
maxval: 當像素值超過（或低于）閾值時，所賦予的最大值。通常是 255。
type: 值的類型，決定了如何應用閾值。這是最關鍵的參數，常用的類型包括：
- cv2.THRESH_BINARY: 最基礎的二值化。如果像素值大于 thresh，則設置為 maxval；否則設置為 0。
- cv2.THRESH_BINARY_INV: 與 THRESH_BINARY 相反。如果像素值大于 thresh，則設置為 0；否則設置為 maxval。
- cv2.THRESH_TRUNC: 截斷。如果像素值大于 thresh，則設置為 thresh；否則保持不變。
- cv2.THRESH_TOZERO: 如果像素值大于 thresh，則保持不變；否則設置為 0。
- cv2.THRESH_TOZERO_INV: 與 THRESH_TOZERO 相反。如果像素值大于 thresh，則設置為 0；否則保持不變。

返回值：

ret: 設定的閾值。當使用 Otsu’s 或 Triangle 方法時，返回的是自動計算出的閾值。
dst: 二值化后的圖像。

實現基礎二值化

import cv2
import numpy as np# 1. 加載圖像并轉換為灰度圖
img = cv2.imread('your_image_path.jpg', cv2.IMREAD_GRAYSCALE)# 檢查圖像是否成功加載
if img is None:print("Error: Could not read the image.")
else:# 2. 設定閾值并進行二值化處理# 設定閾值為127，最大值為255ret, binary_img = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY)# 打印返回的閾值（這里會是127）print(f"Threshold value returned: {ret}")# 3. 顯示原始圖像和二值化后的圖像cv2.imshow('Original Grayscale Image', img)cv2.imshow('Binary Image', binary_img)# 等待按鍵，然后關閉所有窗口cv2.waitKey(0)cv2.destroyAllWindows()

使用 Otsu’s 方法自動尋找閾值

import cv2
import numpy as np# 1. 加載圖像并轉換為灰度圖
img = cv2.imread('your_image_path.jpg', cv2.IMREAD_GRAYSCALE)if img is None:print("Error: Could not read the image.")
else:# 2. 使用 Otsu's 方法進行自動二值化# 注意：這里閾值參數傳入 0，類型與 cv2.THRESH_OTSU 按位或ret, binary_otsu = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)# 打印 Otsu's 算法自動計算出的閾值print(f"Otsu's threshold value: {ret}")# 3. 顯示圖像cv2.imshow('Original Grayscale Image', img)cv2.imshow('Otsu\'s Binary Image', binary_otsu)cv2.waitKey(0)cv2.destroyAllWindows()