離散傅里葉變換（Discrete Fourier Transform, DFT）及其在圖像處理中的應用

離散傅里葉變換（DFT）及其在圖像處理中的應用

什么是離散傅里葉變換？

離散傅里葉變換（Discrete Fourier Transform, DFT）是一種強大的數學工具，用于將離散信號從時域（或空間域）轉換到頻域。它可以將一個有限長度的信號分解成一系列正弦和余弦波的組合，每個波都有特定的頻率、幅度和相位。DFT 的核心思想來源于傅里葉分析，但它適用于離散信號，是數字信號處理和圖像處理的基礎。

DFT 的數學定義如下：對于長度為 ( $N$ ) 的一維信號 ( $x [n]$ )，其離散傅里葉變換為：

$\sum_{n=0}^{N-1} x[n] e^{-j \frac{2\pi}{N} nk}, \quad k = 0, 1, ..., N-1$

其中：

( $X [k]$ ) 是頻域中的復數系數，表示頻率分量；
( $x [n]$ ) 是時域或空間域的輸入信號；
( $e^{-j \frac{2\pi}{N} nk}$ ) 是復指數函數，包含正弦和余弦成分；
( $j$ ) 是虛數單位。

反變換（IDFT）可以將頻域信號轉換回時域：

$\frac{1}{N} \sum_{k=0}^{N-1} X[k] e^{j \frac{2\pi}{N} nk}$

DFT 有什么用？

DFT 的用途非常廣泛，尤其是在信號處理和圖像處理領域。以下是一些主要應用：

頻譜分析：分析信號的頻率成分，例如音頻信號中的音調或圖像中的紋理。
濾波：通過修改頻域系數實現低通、高通或帶通濾波，去除噪聲或增強特定特征。
圖像壓縮：提取主要頻率成分，丟棄次要信息（如 JPEG 中的 DCT）。
卷積加速：利用快速傅里葉變換（FFT）實現高效卷積運算，廣泛應用于圖像處理和深度學習。

在圖像處理中，二維 DFT 特別重要，因為圖像本質上是一個二維信號。通過分析圖像的頻域特性，我們可以進行去噪、邊緣檢測、紋理分析等操作。

二維 DFT 在圖像處理中的應用

對于一張二維圖像 ( $f (x, y)$ )（大小為 ( $\times N$ )），二維 DFT 的公式為：

$\sum_{x=0}^{M-1} \sum_{y=0}^{N-1} f(x, y) e^{-j 2\pi \left( \frac{ux}{M} + \frac{vy}{N} \right)}$

其中：

( $F (u, v)$ ) 是頻域系數，( $u$ ) 和 ( $v$ ) 分別表示水平和垂直方向的頻率；
( $f (x, y)$ ) 是圖像像素值。

反變換為：

$\frac{1}{MN} \sum_{u=0}^{M-1} \sum_{v=0}^{N-1} F(u, v) e^{j 2\pi \left( \frac{ux}{M} + \frac{vy}{N} \right)}$

在圖像處理中，二維 DFT 的結果是一個復數矩陣，其幅度譜（Magnitude Spectrum）通常用于可視化：

$\sqrt{\text{Re}(F(u, v))^2 + \text{Im}(F(u, v))^2}$

以下是一個 Python 代碼示例，展示如何對圖像應用二維 DFT 并可視化頻譜。

Python 代碼實現（二維 DFT）

import numpy as np
import matplotlib.pyplot as plt
from scipy.fft import fft2, ifft2, fftshift# Load and process an image
def load_image():# Create a simple synthetic image (grayscale)image = np.zeros((256, 256))image[100:156, 100:156] = 255  # Add a white square in the centerreturn image# Apply 2D DFT and visualize
def apply_dft(image):# Compute 2D DFTdft = fft2(image)# Shift the zero frequency component to the centerdft_shifted = fftshift(dft)# Compute magnitude spectrum (log scale for better visualization)magnitude_spectrum = np.log(1 + np.abs(dft_shifted))# Reconstruct the image using inverse DFTreconstructed_image = np.abs(ifft2(dft))return magnitude_spectrum, reconstructed_image# Main function
if __name__ == "__main__":# Load imageoriginal_image = load_image()# Apply DFTmagnitude_spectrum, reconstructed_image = apply_dft(original_image)# Visualizationplt.figure(figsize=(12, 4))plt.subplot(1, 3, 1)plt.imshow(original_image, cmap='gray')plt.title("Original Image")plt.axis('off')plt.subplot(1, 3, 2)plt.imshow(magnitude_spectrum, cmap='gray')plt.title("Magnitude Spectrum (Log Scale)")plt.axis('off')plt.subplot(1, 3, 3)plt.imshow(reconstructed_image, cmap='gray')plt.title("Reconstructed Image")plt.axis('off')plt.tight_layout()plt.show()

代碼說明

load_image：生成一個簡單的 256x256 灰度圖像，中間有一個白色方塊，用于測試。
apply_dft：
- 使用 scipy.fft.fft2 計算二維 DFT。
- 使用 fftshift 將零頻分量移到頻譜中心，便于可視化。
- 計算幅度譜并取對數（np.log(1 + np.abs())），增強顯示效果。
- 使用 ifft2 進行逆變換，重構圖像。
可視化：展示原始圖像、頻譜圖和重構圖像。

運行結果

在這里插入圖片描述

運行代碼后，你會看到：

原始圖像：一個帶有白色方塊的灰度圖像。
幅度譜：頻譜圖顯示低頻分量集中在中心，高頻分量分布在邊緣，形成對稱圖案。
重構圖像：通過逆 DFT 恢復的圖像，應與原始圖像幾乎一致。

DFT 與 DCT 的區別

關于DCT，可以參考筆者的另一篇博客：離散余弦變換（Discrete Cosine Transform, DCT）：從數學到圖像壓縮的魔法（Python代碼實現）

離散傅里葉變換（DFT）和離散余弦變換（DCT）都是頻域變換工具，但在原理和應用上有顯著差異：

數學基礎
- DFT：使用復指數函數 ( $e^{-j\theta}$ )，輸出是復數（包含幅度和相位），能完整表示信號的頻率和相位信息。
- DCT：僅使用實數的余弦函數，輸出是實數，專注于信號的幅度信息，相位信息被簡化。
邊界條件
- DFT：假設信號是周期性的，因此在邊界處可能引入偽影（稱為“周期性邊界效應”）。
- DCT：假設信號在邊界處通過鏡像對稱擴展，減少邊界偽影，特別適合圖像處理。
能量集中
- DCT：將信號能量更多地集中在低頻系數中，這使得它在壓縮（如 JPEG）中更高效。
- DFT：能量分布較均勻，不如 DCT 集中，但在頻譜分析中更全面。
計算復雜度
- DFT：直接計算復雜度為 ( $O(N^2)$ )，但通過快速傅里葉變換（FFT）可降至 (O(N \log N))，適用于大尺寸信號。
- DCT：復雜度也為 ( $O(N^2)$ )，但在圖像壓縮中通常處理小塊（如 8x8），實際計算量較小。
應用場景
- DFT：更適合需要完整頻率信息和相位的場景，如信號分析、濾波、卷積運算。
- DCT：專為數據壓縮設計（如 JPEG、MPEG），因其能量集中特性在有損壓縮中占優。

總結

離散傅里葉變換（DFT）是一個通用的信號分析工具，在圖像處理中通過二維 DFT 可以揭示圖像的頻率特性，適用于濾波、去噪等任務。而 DCT 則是圖像壓縮的“秘密武器”，通過能量集中和實數運算優化了壓縮效率。選擇 DFT 還是 DCT，取決于你的具體需求：如果你需要全面的頻域分析，DFT 是首選；如果目標是高效壓縮，DCT 更勝一籌。

希望這篇博客和代碼能讓你更好地理解 DFT 及其與 DCT 的差異！如果有疑問，歡迎留言討論。

你的疑問非常好！關于頻譜圖中“低頻分量集中在中心且很亮”的現象，以及為什么亮的不是高頻分量，這涉及到頻域表示的特點和可視化時的處理方式。下面我來詳細解答：

為什么頻譜圖中低頻分量集中在中心且很亮？

1. 頻譜圖的中心化（fftshift 的作用）

在代碼中，我們使用了 fftshift 函數對二維 DFT 的結果進行了移位處理。原始的 DFT 輸出 ( $F (u, v)$ ) 將零頻分量（即頻率為 0 的分量）放在矩陣的左上角 ( $(0, 0)$ ) 位置。但在實際可視化時，為了更直觀地觀察頻率分布，我們通常將零頻分量移到頻譜圖的中心。這種移位操作使得：

低頻分量（接近零頻的頻率）集中在頻譜圖的中心。
高頻分量（較大的頻率）分布在邊緣。

因此，在你看到的頻譜圖中，中心區域代表低頻分量，而邊緣區域代表高頻分量。

2. 亮度與幅度譜的關系

頻譜圖顯示的是幅度譜 ( $∣ F (u, v) ∣$ )，即 DFT 復數系數的模（magnitude），計算公式為：

$\sqrt{\text{Re}(F(u, v))^2 + \text{Im}(F(u, v))^2}$

為了讓幅度譜的可視化更清晰，代碼中還對幅度取了對數：

$magnitude_spectrum = log ? ( 1 + ∣ F ( u , v ) ∣ ) \text{magnitude\_spectrum} = \log(1 + |F(u, v)|)$

低頻分量為什么亮？
在圖像中，低頻分量通常對應平滑區域或整體亮度變化（例如大塊的白色或黑色區域）。這些區域的能量（幅度）往往很大，因為它們占據了圖像的主要內容。在你的示例圖像中，白色方塊是一個較大的均勻區域，其能量集中在低頻部分，因此中心區域的幅度值很高。取對數后，這些高幅度值在灰度圖中表現為“很亮”。
高頻分量為什么不亮？
高頻分量對應圖像中的細節、邊緣或快速變化的部分（例如白色方塊的邊界）。這些分量的幅度通常較小，因為細節部分的能量分布較分散，且在圖像中占的比例較低。即使某些高頻分量的幅度可能不小，取對數后它們的值也被壓縮，不如低頻分量突出，因此邊緣區域顯得較暗。

3. 為什么亮的不是高頻？

疑問：“亮的一般不是高頻嗎？”
這可能是因為在某些直觀理解中，高頻分量與“尖銳”或“顯著”的邊緣相關，容易讓人覺得它們應該很“亮”。但在頻譜圖中，亮度直接反映的是幅度的大小，而不是頻率的高低：

圖像特性決定能量分布：對于大多數自然圖像或簡單圖像（如你的白色方塊示例），低頻分量包含大部分能量，因為它們描述了圖像的主要結構。而高頻分量的能量通常較少，除非圖像充滿了密集的細節或噪聲。
對數縮放的影響：未經對數縮放的幅度譜動態范圍很大，低頻分量可能比高頻分量高出幾個數量級。如果直接顯示原始幅度譜，低頻的亮度會過于強烈，其他部分幾乎不可見。取對數是為了平衡這種差異，讓高頻分量也能被看到，但低頻的高幅度仍然主導了亮度。

用代碼驗證亮度的來源

為了進一步說明，我們可以修改代碼，觀察不同圖像的頻譜圖，驗證低頻和高頻的亮度分布。以下是擴展代碼：

import numpy as np
import matplotlib.pyplot as plt
from scipy.fft import fft2, ifft2, fftshift# Create a synthetic image with a white square (low frequency dominant)
def load_low_freq_image():image = np.zeros((256, 256))image[100:156, 100:156] = 255  # White square in the centerreturn image# Create a synthetic image with high-frequency details (checkerboard pattern)
def load_high_freq_image():image = np.zeros((256, 256))for i in range(256):for j in range(256):if (i // 16 + j // 16) % 2 == 0:  # Checkerboard patternimage[i, j] = 255return image# Apply 2D DFT and visualize
def apply_dft(image):dft = fft2(image)dft_shifted = fftshift(dft)magnitude_spectrum = np.log(1 + np.abs(dft_shifted))reconstructed_image = np.abs(ifft2(dft))return magnitude_spectrum, reconstructed_image# Main function
if __name__ == "__main__":# Test two imageslow_freq_image = load_low_freq_image()  # Low frequency dominanthigh_freq_image = load_high_freq_image()  # High frequency dominant# Apply DFT to bothlow_freq_spectrum, low_freq_reconstructed = apply_dft(low_freq_image)high_freq_spectrum, high_freq_reconstructed = apply_dft(high_freq_image)# Visualizationplt.figure(figsize=(12, 8))plt.subplot(2, 3, 1)plt.imshow(low_freq_image, cmap='gray')plt.title("Low Frequency Image")plt.axis('off')plt.subplot(2, 3, 2)plt.imshow(low_freq_spectrum, cmap='gray')plt.title("Magnitude Spectrum (Low Freq)")plt.axis('off')plt.subplot(2, 3, 3)plt.imshow(low_freq_reconstructed, cmap='gray')plt.title("Reconstructed Image (Low Freq)")plt.axis('off')plt.subplot(2, 3, 4)plt.imshow(high_freq_image, cmap='gray')plt.title("High Frequency Image")plt.axis('off')plt.subplot(2, 3, 5)plt.imshow(high_freq_spectrum, cmap='gray')plt.title("Magnitude Spectrum (High Freq)")plt.axis('off')plt.subplot(2, 3, 6)plt.imshow(high_freq_reconstructed, cmap='gray')plt.title("Reconstructed Image (High Freq)")plt.axis('off')plt.tight_layout()plt.show()

運行結果分析

在這里插入圖片描述

低頻主導圖像（白色方塊）：
- 頻譜圖中心很亮，因為白色方塊的均勻區域貢獻了大量低頻能量。
- 邊緣較暗，高頻分量（方塊邊界）的能量較少。
高頻主導圖像（棋盤格圖案）：
- 頻譜圖中亮度分布到遠離中心的位置，形成離散的亮點，對應棋盤格的高頻周期性變化。
- 中心（低頻）不再是最亮的區域，因為圖像缺少大范圍平滑結構。

總結

頻譜圖中“亮”的區域反映的是幅度的大小，而幅度的大小取決于圖像的能量分布：

低頻分量亮：在你的原始例子中，低頻分量因白色方塊的平滑區域而具有高幅度，因此中心很亮。
高頻分量暗：高頻分量的能量通常較分散，且幅度較小，在對數縮放下不突出。
亮的不是高頻的誤解：高頻分量可能在邊緣或細節豐富的圖像中更顯著，但在典型圖像中，低頻分量往往占主導地位。

如果你對特定圖像的頻譜有疑問，可以提供圖像或描述，我可以幫你進一步分析！

為什么頻譜圖通常只顯示幅度譜 ( $∣ F (u, v) ∣$ )，而相位譜往往被忽略？

什么是幅度譜和相位譜？

在二維離散傅里葉變換（DFT）中，輸出 ( $F (u, v)$ ) 是一個復數矩陣，每個元素可以表示為：

$\text{Re}(F(u, v)) + j \cdot \text{Im}(F(u, v))$

其中：

( $\text{Re}(F(u, v))$ ) 是實部；
( $\text{Im}(F(u, v))$ ) 是虛部。

我們可以將其轉換為極坐標形式：

$e^{j \phi(u, v)}$

幅度譜 ( $∣ F (u, v) ∣$ )：
$\sqrt{\text{Re}(F(u, v))^2 + \text{Im}(F(u, v))^2}$
表示每個頻率分量的強度或能量大小。
相位譜 ( $\phi(u, v)$ )：
$\phi(u, v) = \arctan\left(\frac{\text{Im}(F(u, v))}{\text{Re}(F(u, v))}\right)$
表示每個頻率分量的相位角，反映信號在時間或空間上的偏移。

為什么頻譜圖通常只顯示幅度譜？

1. 幅度譜直接反映能量分布

幅度譜 ( $∣ F (u, v) ∣$ ) 表示每個頻率分量的強度，直接對應于信號的能量分布。在圖像處理和信號分析中，我們通常關心：

哪些頻率分量占主導地位（例如低頻的平滑區域還是高頻的邊緣）；
信號的頻率特性如何（例如是否有噪聲或特定模式）。

幅度譜提供了直觀的“強度圖”，可以快速判斷信號的主要成分。例如：

在你的白色方塊圖像中，幅度譜中心的亮點表明低頻分量占主導；
在噪聲圖像中，高頻分量可能更顯著。

相比之下，相位譜 ( $\phi(u, v)$ ) 是一個角度值（通常在 ( $\pi, \pi]$ ) 范圍內），它的數值沒有直接的物理意義（如能量或強度），可視化后往往是一片雜亂的圖案，不易直觀解讀。

2. 可視化難度

幅度譜：取對數后（如 ( $\log(1 + |F(u, v)|)$ )），幅度譜的值被壓縮到一個合理的范圍，便于用灰度圖或彩色圖顯示，人類視覺系統能輕松分辨。
相位譜：相位值是周期性的角度（如 ( $-\pi$ ) 到 ( $\pi$ )），直接顯示時會形成復雜的跳躍圖案（由于相位的周期性，可能出現不連續的邊界）。即使映射到灰度值，也很難看出規律，除非進行特殊處理（如解纏繞或平滑），但這增加了分析復雜性。

3. 應用場景的側重點

在許多實際應用中，幅度譜已經足以滿足需求：

圖像壓縮：如 JPEG 使用 DCT，只關心幅度信息來量化系數，相位被忽略。
濾波：設計低通或高通濾波器時，主要修改幅度譜（如削弱高頻分量），相位通常保持不變。
頻譜分析：檢查信號的頻率分布時，幅度譜直接給出答案。

相位譜雖然包含信息，但在這些場景下不是首要關注的，因為它對最終結果的感知影響較小（后面會詳細解釋）。

相位譜的作用是什么？為什么不常關心？

相位譜的作用

相位譜 ( $\phi(u, v)$ ) 描述了每個頻率分量在空間或時間上的相對位置或偏移。換句話說，它決定了信號的“形狀”或“結構”，而幅度譜決定了“強度”。在圖像中：

幅度譜：控制每個頻率分量的大小，影響圖像的對比度和能量分布。
相位譜：控制頻率分量的排列方式，影響圖像的空間結構（如邊緣的位置、物體的輪廓）。

一個經典實驗可以說明兩者的作用：將兩張圖像的幅度譜和相位譜互換，然后用逆 DFT 重構：

用圖像 A 的幅度譜 + 圖像 B 的相位譜：重構圖像更像圖像 B。
用圖像 B 的幅度譜 + 圖像 A 的相位譜：重構圖像更像圖像 A。

這表明相位譜對圖像的視覺結構（可識別性）至關重要，而幅度譜更多影響亮度和對比度。

為什么不常關心相位譜？

人類視覺對相位的敏感度較低
人眼對圖像的整體結構（由相位決定）非常敏感，但對相位的微小擾動不敏感。例如：
- 如果幅度譜保持不變，輕微改變相位譜，圖像仍可識別。
- 如果相位譜保持不變，改變幅度譜（如濾波），圖像的感知變化更明顯（如變模糊或變清晰）。
  在壓縮或濾波中，丟棄或修改部分相位信息對視覺影響較小，因此相位常被忽略。
相位信息難以處理和利用
- 相位譜的周期性和跳躍性使其難以直接操作。例如，濾波時修改相位可能引入偽影（如振鈴效應），而修改幅度更直觀。
- 在壓縮中（如 JPEG），相位信息被 DCT 簡化（DCT 是實數變換，不保留相位），但仍能重構可接受的圖像。
計算和存儲成本
DFT 輸出是復數，包含幅度和相位需要雙倍存儲空間（實部和虛部）。而在許多應用中，只保留幅度譜即可完成任務（如頻譜分析或壓縮），省去了存儲和處理相位的開銷。