OpenCV：圖像金字塔

文章目錄

一、什么是圖像金字塔？
二、圖像金字塔的核心操作：采樣與逆采樣
- 1. 向下采樣（pyrDown）：從高分辨率到低分辨率
- - 步驟1：高斯濾波
  - 步驟2：刪除偶數行與偶數列
  - OpenCV實戰代碼
  - 效果特點
- 2. 向上采樣（pyrUp）：從低分辨率到高分辨率
- - 步驟 1：插值補全像素
  - 步驟 2：高斯濾波
  - OpenCV 實戰代碼
  - 效果特點
三、拉普拉斯金字塔：捕捉采樣丟失的細節
- 1. 拉普拉斯金字塔的定義
- 2. 拉普拉斯金字塔的核心作用：圖像恢復與融合
- - OpenCV 實戰：圖像恢復
  - 效果特點
四、圖像金字塔的典型應用場景
- 1. 特征點提取（SIFT、ORB 等）
- 2. 模板匹配
- 3. 圖像融合
- 4. 光流跟蹤
五、總結與注意事項
- 核心知識點
- 注意事項
- 注意事項

在計算機視覺領域，如何高效處理不同尺度下的圖像信息，是實現 目標檢測、特征提取、圖像融合等任務的關鍵。圖像金字塔（Image Pyramid）作為一種經典的多分辨率表示方法，通過將圖像分解為不同分辨率的子圖集合，為解決上述問題提供了簡潔而強大的思路。本文將從圖像金字塔的基本概念出發，深入解析其核心操作（向下采樣與向上采樣）、數學原理，并結合OpenCV實戰代碼與典型應用場景，帶你全面掌握這一技術。

一、什么是圖像金字塔？

圖像金字塔是由同一幅圖像的多個不同分辨率子圖構成的集合，因其層級結構形似“金字塔”而得名。其核心特征如下：

層級關系：金字塔的底部是原始高分辨率圖像（記為G?），向上每一層（G?、G?、…、G?）的分辨率都逐步降低，頂部可能僅保留1個像素點。
分辨率變化規律：通常每向上移動一層，圖像的寬度和高度會縮小為前一層的1/2，像素總數減少為1/4（也可根據需求調整縮放比例）。
核心作用：將單分辨率圖像轉化為多尺度表示，讓算法能在不同“尺度”下分析圖像（例如大尺度檢測目標整體，小尺度捕捉細節）。

示例：若原始圖像為512×512（G?），經過1次向下采樣得到256×256的G?，再采樣得到128×128的G?，以此類推，最終形成“底層大、上層小”的金字塔結構。
在這里插入圖片描述

二、圖像金字塔的核心操作：采樣與逆采樣

圖像金字塔的構建依賴兩種基礎操作：向下采樣（降采樣） 和向上采樣（升采樣）。這兩種操作是金字塔分層的核心，但需注意：

它們并非可逆過程——對圖像先降采樣再升采樣，無法恢復原始圖像的細節（會丟失信息）。

1. 向下采樣（pyrDown）：從高分辨率到低分辨率

向下采樣是構建高斯金字塔的核心步驟，目的是降低圖像分辨率，生成金字塔的上一層子圖。其操作遵循“先濾波、再抽樣”的原則，具體流程如下：

步驟1：高斯濾波

首先對當前圖像（如G?）進行高斯模糊處理。這一步的核心目的是抑制高頻噪聲——若直接刪除像素，會導致圖像邊緣出現鋸齒或偽影，高斯濾波通過對鄰域像素加權平均，平滑圖像并保留主要結構。

高斯濾波的權重由二維高斯函數決定：
$\frac{1}{2\pi\sigma^2} e^{-\frac{x^2 + y^2}{2\sigma^2}}$
其中，σ為高斯核的標準差（控制模糊程度），通常使用3×3或5×5的高斯核（如3×3核： $[121242121]\begin{bmatrix}1&2&1\\2&4&2\\1&2&1\end{bmatrix}$ ，需歸一化后使用）。

步驟2：刪除偶數行與偶數列

對濾波后的圖像，刪除所有偶數行和偶數列。例如512×512的圖像經此操作后，變為256×256（寬度和高度各減半），像素總數變為原來的1/4。

OpenCV實戰代碼

import cv2# 讀取原始灰度圖像（G0）
img = cv2.imread("face.png", cv2.IMREAD_GRAYSCALE)
cv2.imshow("Original (G0)", img)
cv2.waitKey(0)# 第一次向下采樣（G1：256×256）
img_down1 = cv2.pyrDown(img)
cv2.imshow("Down Sample 1 (G1)", img_down1)
cv2.waitKey(0)# 第二次向下采樣（G2：128×128）
img_down2 = cv2.pyrDown(img_down1)
cv2.imshow("Down Sample 2 (G2)", img_down2)
cv2.waitKey(0)cv2.destroyAllWindows()

在這里插入圖片描述

效果特點

分辨率降低，尺寸縮小；
因高斯濾波和平滑，圖像整體更模糊，細節（如邊緣、紋理）逐漸丟失；
每一層都保留了前一層的“概覽信息”（如目標的整體形狀）。

2. 向上采樣（pyrUp）：從低分辨率到高分辨率

向上采樣是向下采樣的逆操作，目的是恢復圖像分辨率（生成比當前層更大的子圖），但無法恢復向下采樣時丟失的細節。其操作流程為“先插值、再濾波”：

步驟 1：插值補全像素

對當前低分辨率圖像（如 G?），在每個像素的行和列之間插入 0 值。例如 256×256 的圖像經此操作后，變為 512×512——新圖像的寬度和高度翻倍，但插入的 0 值會導致圖像出現“網格狀”空洞。

步驟 2：高斯濾波

用與向下采樣相同的高斯核（需放大 4 倍以匹配像素密度）對插值后的圖像進行濾波，填充空洞并平滑圖像。例如 3×3 高斯核需調整為 $[121242121]\begin{bmatrix}1&2&1\\2&4&2\\1&2&1\end{bmatrix}$ （與向下采樣核一致，因插值后像素密度變為原來的 1/4，核權重需保持對應）。

OpenCV 實戰代碼

# 對G1進行向上采樣（恢復為512×512，但細節丟失）
img_down1_up = cv2.pyrUp(img_down1)
cv2.imshow("Down1 -> Up (G1')", img_down1_up)
cv2.waitKey(0)# 對比原始圖像與“降采樣+升采樣”結果
cv2.imshow("Original (G0)", img)
cv2.imshow("Down1 -> Up (G1')", img_down1_up)
cv2.waitKey(0)
cv2.destroyAllWindows()

在這里插入圖片描述

效果特點

尺寸與原始圖像一致（如 512×512），但清晰度遠低于原始圖像；
因丟失的高頻細節無法恢復，圖像整體偏模糊，邊緣過渡不銳利；
驗證了 “采樣不可逆” 的特性 —— 降采樣丟失的信息無法通過升采樣完全找回。

三、拉普拉斯金字塔：捕捉采樣丟失的細節

既然向下采樣會丟失細節，如何保留這些信息以便后續恢復圖像？拉普拉斯金字塔（Laplacian Pyramid） 應運而生。它通過計算 “原始圖像與‘降采樣后再升采樣’圖像的差值”，記錄每一層向下采樣時丟失的高頻細節（邊緣、紋理等）。

1. 拉普拉斯金字塔的定義

拉普拉斯金字塔的第 i 層（ $L_i$ ）計算公式為：
$Li=Gi?pyrUp(pyrDown(Gi))L_i = G_i - \text{pyrUp}(\text{pyrDown}(G_i))$
其中：

$G_i$ ：高斯金字塔的第 i 層（原始或降采樣后的圖像）；
$pyrUp(pyrDown(Gi))\text{pyrUp}(\text{pyrDown}(G_i))$ ：對 $G_i$ 先降采樣再升采樣的結果（尺寸與 $G_i$ 一致，但細節丟失）；
$L_i$ ：差值圖像，記錄了 $G_i$ 中被降采樣丟失的高頻細節（邊緣、紋理等）。

示例：

$L0=G0?pyrUp(pyrDown(G0))L_0 = G_0 - \text{pyrUp}(\text{pyrDown}(G_0))$ → 記錄 $G_0$ 到 $G_1$ 丟失的細節；
$L1=G1?pyrUp(pyrDown(G1))L_1 = G_1 - \text{pyrUp}(\text{pyrDown}(G_1))$ → 記錄 $G_1$ 到 $G_2$ 丟失的細節；
以此類推，拉普拉斯金字塔的頂層為高斯金字塔的頂層（無更高層可采樣）。

2. 拉普拉斯金字塔的核心作用：圖像恢復與融合

拉普拉斯金字塔的最大價值在于恢復高分辨率圖像。通過“高斯金字塔的高層圖像 + 拉普拉斯金字塔的對應細節”，可逐步重建原始圖像：

從高斯金字塔頂層 $G_n$ 開始，對其進行升采樣： $pyrUp(Gn)\text{pyrUp}(G_n)$ ；
加上拉普拉斯金字塔的 $L_{n-1}$ 層，得到 $G_{n-1}$ ：$ G_{n-1} = \text{pyrUp}(G_n) + L_{n-1} $；
重復步驟 1 - 2，直到恢復出原始圖像 $G_0$ 。

OpenCV 實戰：圖像恢復

# 計算拉普拉斯金字塔L0和L1
L0 = img - cv2.pyrUp(img_down1)  # G0 - pyrUp(G1)
L1 = img_down1 - cv2.pyrUp(img_down2)  # G1 - pyrUp(G2)# 顯示拉普拉斯細節（黑色背景下的白色邊緣，即丟失的細節）
cv2.imshow("Laplacian L0", L0)
cv2.imshow("Laplacian L1", L1)
cv2.waitKey(0)# 用L0恢復原始圖像：pyrUp(G1) + L0 = G0
recovered_img = cv2.pyrUp(img_down1) + L0
cv2.imshow("Recovered Image (G0)", recovered_img)
cv2.imshow("Original Image (G0)", img)
cv2.waitKey(0)
cv2.destroyAllWindows()

在這里插入圖片描述

效果特點

拉普拉斯圖像（ $L_{0}$ 、 $L_{1}$ ）以 “黑色背景 + 白色邊緣” 為主，直觀展示了各層丟失的細節；
恢復后的圖像與原始圖像幾乎一致（微小差異來自數值精度），驗證了拉普拉斯金字塔的細節保留能力。

四、圖像金字塔的典型應用場景

圖像金字塔的多尺度特性使其成為計算機視覺的基礎工具，廣泛應用于以下場景：

1. 特征點提取（SIFT、ORB 等）

SIFT（尺度不變特征變換）是經典的特征提取算法，其核心是“在不同尺度下檢測穩定的特征點”。圖像金字塔為 SIFT 提供了多尺度基礎：

對原始圖像構建高斯金字塔（不同 σ 的模糊圖像）；
計算相鄰層的差值（高斯差分金字塔，DoG），檢測極值點（潛在特征點）；
結合拉普拉斯金字塔的細節，篩選出尺度不變的特征點，用于圖像匹配、目標識別。

2. 模板匹配

模板匹配是在大圖像中尋找與小模板相似區域的任務。若直接在原始圖像中匹配，可能因“模板與目標尺度不一致”導致匹配失敗。圖像金字塔的解決方案是：

對原始圖像和模板分別構建金字塔；
從金字塔頂層（低分辨率）開始匹配，快速定位大致區域；
逐步向下層（高分辨率）細化匹配，提高精度。

這種“從粗到細”的匹配方式，既提升了速度，又解決了尺度不一致問題。

3. 圖像融合

在圖像拼接（如全景圖）或曝光融合中，需將多幅圖像的重疊區域平滑過渡。圖像金字塔的融合流程為：

對每幅圖像構建高斯金字塔（獲取不同尺度的概覽）；
構建對應的拉普拉斯金字塔（獲取不同尺度的細節）；
在拉普拉斯金字塔的每一層，對重疊區域進行加權融合（如左側圖像權重從 1→0，右側從 0→1）；
從融合后的拉普拉斯金字塔頂層開始，逐步向上恢復，得到最終融合圖像。

優勢：可避免融合邊緣出現 “拼接痕跡”，實現平滑過渡。

4. 光流跟蹤

光流跟蹤用于檢測視頻中運動目標的 “瞬時速度”。由于目標可能在視頻中縮放（如靠近 / 遠離攝像頭），需在多尺度下跟蹤：

對視頻的連續幀構建圖像金字塔；
在頂層（低分辨率）跟蹤目標的大致運動方向；
向下層（高分辨率）細化跟蹤位置，提高精度；
結合各層結果，得到目標在原始分辨率下的光流向量。

五、總結與注意事項

圖像金字塔作為計算機視覺的基礎技術，其核心價值在于將單分辨率圖像轉化為多尺度表示，解決了 “尺度不一致”“細節與概覽平衡” 等關鍵問題。

核心知識點

高斯金字塔：通過 “向下采樣” 構建，每一層都是前一層的低分辨率平滑版本，用于獲取圖像的概覽信息；
向上采樣：恢復圖像尺寸但無法恢復細節，驗證了 “采樣不可逆”；
拉普拉斯金字塔：記錄向下采樣丟失的細節，用于圖像恢復與融合；
應用場景：特征提取（SIFT）、模板匹配、圖像融合、光流跟蹤等。

注意事項

分辨率變化：默認每一層的寬 / 高為前一層的 1/2，需注意圖像尺寸需為 2 的整數次冪（如 512、256），否則可能出現尺寸偏差；
噪聲影響：向下采樣前的高斯濾波需合理選擇 σ（過小易保留噪聲，過大易模糊細節）；
錄向下采樣丟失的細節，用于圖像恢復與融合；

應用場景：特征提取（SIFT）、模板匹配、圖像融合、光流跟蹤等。

注意事項

分辨率變化：默認每一層的寬 / 高為前一層的 1/2，需注意圖像尺寸需為 2 的整數次冪（如 512、256），否則可能出現尺寸偏差；
噪聲影響：向下采樣前的高斯濾波需合理選擇 σ（過小易保留噪聲，過大易模糊細節）；
OpenCV 函數細節：cv2.pyrDown()和cv2.pyrUp()的dstsize參數可自定義輸出尺寸，但需遵循 “向下采樣為 1/2，向上采樣為 2 倍” 的原則，否則會導致后續計算錯誤。