【數字圖像處理系列筆記】Ch06:圖像壓縮

一、基礎知識

信源編碼器：減少或消除輸入圖像中的編碼冗余、像素間冗余以及心理視覺冗余。?

數據的冗余?

一、空間冗余（Spatial Redundancy）

1.?定義

圖像中相鄰像素間的強相關性導致的冗余 —— 同一區域內相鄰像素的像素值（如灰度、色彩）往往相似或相同，重復信息未被壓縮時會占用額外存儲空間。

2.?產生原因

自然圖像中存在大量平滑區域（如藍天、墻壁），相鄰像素值幾乎一致；
物體邊緣的像素值雖有突變，但邊緣兩側的區域內仍存在像素相關性。

3.?壓縮應用

預測編碼（Prediction Coding）：利用相鄰像素預測當前像素值，僅存儲預測誤差（如 JPEG 中的 DPCM 預測）。例如，若當前像素值為 100，相鄰像素預測值為 98，則僅存儲差值 “2”。
像素差值編碼：計算相鄰像素的差值（如相鄰行 / 列的差），差值中零值或小值占比高，可通過行程編碼（RLE）壓縮連續相同差值。

二、編碼冗余（Coding Redundancy）

1.?定義

圖像中像素值的概率分布與編碼方式不匹配導致的冗余 —— 當像素值出現概率不均時，使用等長編碼（如 8 位固定編碼）會浪費編碼空間（即實際編碼長度大于信息熵理論最小值）。

2.?數學原理

信息熵公式：，其中p(i)為像素值i出現的概率。
若圖像中某像素值出現概率p(i)很高（如背景色），其理論編碼長度應更短；但等長編碼強制所有值占用相同長度（如 8 位），導致總編碼長度L>H，差值L?H即為編碼冗余。

3.?壓縮應用

變長編碼（Variable - Length Coding）：為高頻出現的像素值分配短編碼，低頻值分配長編碼。例如：
霍夫曼編碼（Huffman Coding）：根據像素值概率構建編碼表，概率越高編碼越短；
算術編碼（Arithmetic Coding）：將整個像素序列映射為 [0,1) 區間的一個小數，用更少位數表示。
JPEG 壓縮中，對量化后的 DCT 系數進行霍夫曼編碼，減少編碼冗余。

三、視覺冗余（Visual Redundancy）

1.?定義

基于人類視覺系統（HVS）的感知局限性產生的冗余 —— 圖像中部分信息（如高頻細節、微小色差）超出人眼分辨能力，即使丟失也不影響主觀視覺效果。

2.?生理基礎

人眼對亮度變化比色彩變化更敏感（如 YUV 色彩空間中 Y 分量優先保留）；
對圖像的高頻細節（如細微紋理、快速變化的邊緣）分辨力低，對低頻輪廓更敏感。

3.?壓縮應用

量化（Quantization）：對圖像變換域（如 DCT、小波變換）的高頻系數進行粗量化（甚至置零），丟棄人眼不敏感的信息。例如：
JPEG 中使用 DCT 將圖像轉換到頻率域，對高頻系數（對應細節）采用大步長量化，大幅減少數據量；
JPEG 2000 利用小波變換，對不同頻率子帶采用不同量化精度，優先保留低頻信息。
色彩空間轉換：將 RGB 轉換為 YUV 后，對 UV 分量（色彩）進行降采樣（如 4:2:0 采樣），利用人眼對色彩分辨率低的特性減少數據量。

四、三種冗余的對比與應用場景

冗余類型	核心本質	典型壓縮技術	應用場景（舉例）
空間冗余	像素間空間相關性	預測編碼、差值編碼、RLE	無損壓縮（如 PNG）、視頻幀內壓縮
編碼冗余	概率分布與編碼不匹配	霍夫曼編碼、算術編碼	各類壓縮的熵編碼階段（如 JPEG）
視覺冗余	人眼感知能力局限性	量化、頻率域濾波、色彩降采樣	有損壓縮（如 JPEG、WebP）

總結

圖像壓縮的核心是通過分析不同類型的數據冗余，結合算法針對性優化：

空間冗余利用像素相關性減少重復存儲；
編碼冗余通過變長編碼匹配概率分布，逼近信息熵下限；
視覺冗余則借助人眼特性 “合理丟棄” 無效信息，在壓縮效率與視覺質量間平衡。
三種冗余常協同作用（如 JPEG 同時利用空間冗余的 DPCM 預測、編碼冗余的霍夫曼編碼、視覺冗余的 DCT 量化），實現高效壓縮。

圖像壓縮評價標準

一、冗余度（Redundancy）

1.?定義

指圖像數據中可被消除的冗余信息比例，反映壓縮算法對數據冗余的利用效率。冗余度越低，說明壓縮后數據中無效信息越少。

2.?數學表達與計算

信息熵（Entropy,?H）：表示圖像中信息的理論最小編碼長度，公式為：
其中?p(i)?為像素值?i?出現的概率，n?為像素值種類數。
平均編碼長度（L）：壓縮后每個像素的平均編碼位數。
冗余度公式：
當?L=H?時，冗余度為 0，此時編碼達到理論最優（無冗余）；若?L>H，冗余度越大，說明編碼效率越低。

3.?應用場景

用于評估無損壓縮算法的效率（如霍夫曼編碼、算術編碼），衡量其對編碼冗余的消除能力。
例如：某圖像信息熵?H=5?bit / 像素，壓縮后平均編碼長度?L=6?bit / 像素，則冗余度為?1?5/6≈16.7%，表示存在 16.7% 的編碼冗余可進一步優化。

二、編碼效率（Coding Efficiency）

1.?定義

衡量壓縮算法的編碼結果與理論最優編碼（信息熵）的接近程度，反映編碼過程中對信息的利用效率。

2.?數學表達與計算

編碼效率公式：
其中?H?為信息熵，L?為平均編碼長度。編碼效率越高，說明編碼結果越接近理論最小值。
理想情況下，編碼效率為 100%（L=H），但實際中因算法復雜度等限制，效率通常小于 100%。

3.?應用場景

對比不同編碼方式的有效性：
霍夫曼編碼的編碼效率通常在 80%~95%，而算術編碼可更接近 100%（因無需將每個符號獨立編碼，而是處理整個符號序列）。
例如：JPEG 壓縮中，對量化后的 DCT 系數進行霍夫曼編碼，若信息熵?H=3?bit / 系數，平均編碼長度?L=3.2?bit / 系數，則編碼效率為?3/3.2≈93.75%。

三、保真度（Fidelity）

1.?定義

衡量壓縮后圖像與原始圖像的相似程度，反映壓縮算法對圖像信息的保留能力，分為無損保真度和有損保真度。

2.?分類及計算方法

（1）無損保真度（適用于無損壓縮）

壓縮前后圖像完全一致，保真度為 100%，常用指標：
- 壓縮比（Compression Ratio）：原始數據量與壓縮后數據量的比值，公式為：
  例如：原始圖像大小為 10MB，壓縮后為 2MB，壓縮比為 5:1。

（2）有損保真度（適用于有損壓縮）

衡量圖像質量損失，常用客觀指標：
- 均方誤差（MSE, Mean Squared Error）：計算原始圖像?f(i,j)?與壓縮圖像?f^?(i,j)?像素值差的平方均值：
- 峰值信噪比（PSNR, Peak Signal-to-Noise Ratio）：基于 MSE 的對數轉換，單位為分貝（dB），公式為：
  其中?k?為像素值位數（如 8 位灰度圖中?k=8，最大值為 255）。PSNR 越高，圖像質量越好（通常 30dB 以上視為可接受）。
主觀指標：
- 主觀評分（如 MOS, Mean Opinion Score）：通過人類觀察者對圖像質量打分（1~5 分），更貼合實際感知，但具有主觀性。

3.?應用場景

有損壓縮算法（如 JPEG、WebP）中，用于平衡壓縮比與圖像質量：
- 調整量化參數可改變保真度：量化步長越大，PSNR 越低，壓縮比越高（如 JPEG 的 “質量因子” 從 100 降至 10 時，PSNR 從 40dB 降至 25dB，壓縮比從 1:1 升至 20:1）。

四、指標對比與實際應用

指標	核心作用	數值特性	典型應用場景
冗余度	衡量數據冗余消除程度	越接近 0 越好	無損壓縮算法評估
編碼效率	衡量編碼與理論最優的差距	越接近 100% 越好	比較不同編碼方式的優劣
保真度	衡量圖像質量保留能力	無損壓縮中為 100%，有損壓縮中 PSNR 越高越好	JPEG、視頻壓縮等有損場景的質量評估

總結

冗余度與編碼效率：從信息論角度評估壓縮算法對數據冗余的處理能力，適用于無損壓縮場景，兩者呈互補關系（冗余度 = 1 - 編碼效率）。
保真度：聚焦圖像質量，是有損壓縮的核心指標，需與壓縮比結合權衡（如犧牲部分保真度換取更高壓縮比）。
實際應用中，需根據需求（如醫學圖像要求高保真度，網頁圖片側重壓縮比）選擇合適的指標組合評估壓縮算法性能。

二、基本壓縮方法

根據解壓重建后的圖像和原始圖像之間是否具有誤差，圖像編碼壓縮分為兩大類

無誤差（無失真、無損、信息保持）編碼
有誤差（有失真或有損）編碼

根據編碼作用域劃分，圖像編碼為

空間域編碼
變換域編碼

一、有損壓縮（Lossy Compression）

1.?定義與核心原理

定義：通過舍棄部分次要信息（如人眼 / 人耳不敏感的高頻細節）來減少數據量，壓縮過程不可逆，解壓后無法完全還原原始數據。
核心原理：利用人類感知系統的局限性（如視覺對色彩精度、聽覺對高頻聲音的不敏感），通過量化（Quantization）?等操作丟棄冗余信息，換取高壓縮比。

2.?關鍵技術與算法

（1）變換編碼（Transform Coding）

流程：
1. 將原始數據從空間域 / 時域轉換到頻率域（如傅里葉變換、DCT 離散余弦變換）。
2. 對高頻系數進行粗量化（舍棄或近似），保留低頻重要信息。
3. 對量化后的數據進行熵編碼（如霍夫曼編碼）。
典型算法：
- JPEG（圖像）：對圖像分塊進行 DCT 變換，量化高頻系數，壓縮比可達 10:1~100:1，但會產生 “塊效應”（如質量因子過低時邊緣模糊）。
- MP3（音頻）：利用人耳 “掩蔽效應”（高頻聲音會掩蓋低頻細節），丟棄感知不到的頻率成分，壓縮比約 10:1~12:1。

（2）矢量量化（Vector Quantization, VQ）

將數據分組為向量，用碼本中的近似向量替代原始向量，適用于圖像像素塊壓縮（如早期圖像壓縮標準），但計算復雜度高。

3.?應用場景

多媒體內容：圖片（JPEG、WebP）、音頻（MP3、AAC）、視頻（H.264、H.265）。
對細節要求不高的場景：網頁圖片、流媒體視頻、手機拍攝的照片（如手機相機默認啟用有損壓縮）。

4.?優缺點

優點：壓縮比高（可達數十至數百倍），適合存儲和傳輸大量多媒體數據。
缺點：信息永久丟失，壓縮比過高時質量明顯下降（如圖片模糊、視頻色塊）。

二、無損壓縮（Lossless Compression）

1.?定義與核心原理

定義：僅消除數據中的冗余信息（如重復字節、統計冗余），壓縮過程可逆，解壓后可完全還原原始數據。
核心原理：利用數據的統計特性或結構冗余，通過編碼算法重新組織數據，減少存儲空間，不丟失任何信息。

2.?關鍵技術與算法

（1）熵編碼（Entropy Coding）

基于信息熵理論，對出現概率高的符號分配短編碼，概率低的符號分配長編碼。
典型算法：
- 哈夫曼編碼（Huffman Coding）：根據符號出現頻率構建二叉樹，生成變長編碼，如文本壓縮（.txt 文件）。
- 算術編碼（Arithmetic Coding）：將整個符號序列編碼為 [0,1) 區間的一個小數，編碼效率高于霍夫曼編碼（接近信息熵），常用于 JPEG 2000。

（2）字典編碼（Dictionary Coding）

查找數據中的重復模式，用索引（字典條目）替代重復內容。
典型算法：
- LZ77/LZ78：記錄重復數據的位置和長度，如 ZIP 壓縮格式的基礎。
- DEFLATE：結合 LZ77 和霍夫曼編碼，用于 PNG 圖像、ZIP 文件壓縮，壓縮比約 2:1~5:1。

（3）預測編碼（Prediction Coding）

根據相鄰像素的相關性預測當前值，僅存儲預測誤差（如差分脈沖編碼 DPCM），適用于無損圖像壓縮（如 BMP 轉 PNG）。

3.?應用場景

需要完全還原的數據：
- 文本文件（.txt、.pdf）、程序代碼、壓縮包（.zip、.rar）、醫學影像（如 DR、CT 的無損格式）、原始傳感器數據（如衛星圖像原始采樣）。
圖像格式：PNG（無損位圖）、GIF（有限色彩無損）、TIFF（可選無損壓縮）。

4.?優缺點

優點：100% 還原原始數據，適合對準確性要求極高的場景。
缺點：壓縮比有限（通常 2:1~10:1），無法處理大量冗余度低的數據（如已壓縮的圖片再無損壓縮效果差）。

三、混合編碼（Hybrid Coding）

1.?定義與核心思想

定義：結合有損壓縮與無損壓縮的優勢，對數據中不同部分采用不同壓縮策略，平衡壓縮比與保真度。
核心思想：對次要信息用有損壓縮提高效率，對關鍵信息用無損壓縮保留細節，適用于既需高壓縮比又需部分細節保真的場景。

2.?典型技術與應用

（1）JPEG 2000（圖像混合編碼）

策略：
- 對圖像進行小波變換（Wavelet Transform），將數據分為低頻（輪廓）和高頻（細節）部分。
- 對低頻部分采用無損壓縮（如算術編碼），對高頻部分采用有損量化壓縮。
優勢：支持 “感興趣區域（ROI）” 編碼 —— 對 ROI 用無損壓縮，其他區域用有損壓縮，兼顧壓縮比和關鍵細節（如醫學圖像中的病灶區域）。

（2）視頻編碼標準（如 H.264/AVC、H.265/HEVC）

混合策略：
- 幀內壓縮（Intra Coding）：對單幀圖像采用類似 JPEG 的有損變換編碼（DCT + 量化），減少空間冗余。
- 幀間壓縮（Inter Coding）：利用相鄰幀的時間冗余，僅存儲運動矢量和殘差（預測誤差），殘差部分可選擇有損或無損編碼（如 H.264 的無損模式）。
應用：藍光視頻、網絡流媒體（如 YouTube、Netflix），壓縮比可達 100:1 以上，同時通過參數調整（如 QP 值）控制保真度。

（3）醫學圖像壓縮（如 JPEG-LS、JPEG 2000 無損 + 有損模式）

對診斷關鍵區域（如腫瘤邊緣）用無損壓縮，背景區域用有損壓縮，確保醫療診斷的準確性。

3.?技術優勢

靈活性：可根據需求調整有損與無損的比例，例如：
- 衛星遙感圖像：對地表輪廓用有損壓縮，對坐標等元數據用無損壓縮。
- 手機相機 RAW 格式：部分廠商采用混合編碼，保留色彩信息的同時壓縮亮度數據。
高性價比：在相同文件大小下，混合編碼的圖像 / 視頻質量通常高于純有損壓縮（如 H.265 比 H.264 在相同碼率下質量提升約 50%）。

四、三種壓縮方式對比表

指標	有損壓縮	無損壓縮	混合編碼
信息保留	舍棄部分次要信息	完全保留原始信息	關鍵信息無損，次要信息有損
壓縮比	高（10:1~100:1+）	中低（2:1~10:1）	中高（結合兩者優勢）
可逆性	不可逆	完全可逆	部分可逆（關鍵信息可逆）
典型算法	JPEG、MP3、H.264	霍夫曼、ZIP、PNG	JPEG 2000、H.265、JPEG-LS
應用場景	照片、視頻、音樂	文檔、代碼、醫學影像	遙感圖像、醫療影像、4K 視頻
質量風險	高壓縮比時質量下降	無質量損失	可控制質量損失范圍

五、實際應用中的選擇策略

優先有損壓縮：對質量要求不高、存儲空間有限的場景（如社交平臺圖片、在線視頻）。
優先無損壓縮：對數據準確性要求極高的場景（如財務報表、程序安裝包）。
選擇混合編碼：
需平衡壓縮比與關鍵細節的場景（如醫學影像、專業攝影 RAW 文件）。
視頻編碼中，通過幀內 / 幀間混合策略在有限碼率下實現高清畫質（如 8K 視頻傳輸）。