音視頻之視頻壓縮及數字視頻基礎概念

系列文章：

1、音視頻之視頻壓縮技術及數字視頻綜述

一、視頻壓縮編碼技術綜述：

? ? ? ? 1、信息化與視頻通信：

? ? ? ? 什么是信息：

????????眾所周知，人類社會的三大支柱是物質、能量和信息。具體而言，農業現代化的支柱是物質，工業現代化的支柱是能量，而信息化的支柱是信息。

????????廣義地講，信息就是客觀世界的描述和分析，它無所不在、無時不在，具有廣泛性和通用性，這是信息的一個特性。信息沒有重量，沒有長度，具有抽象性，但它確實存在，這是信息的另一個特性。

????????信息的第三個特性是無限性。例如，關于物質的信息，物質具有無限的不可分性，物質由分子組成，分子由原子組成，下面還有中子、質子、電子、中微子等；關于通信網絡的信息，為了增加通信容量，最初一對電話線只能通一路電話，后來利用N-ISDN技術，可在一對電話線上同時通兩路電話，以后又發展B-ISDN、ATM、IP、 MPLS，直到今天，通信網絡技術仍在不斷地發展，應該說，它具有無限性。

? ? ? ?總之，信息具有通用性、抽象性、無限性三個特征，其中，無限性最重要。

? ? ? ? 什么是信息化：

????????信息化是這樣一個過程：“在現代信息技術廣為普及的基礎上，通過開發和利用信息資源，各種社會和經濟活動的功能和效益得以顯著提高。人類社會的物質和精神文明達到了一個新的水平。”

????????可見，信息化的目的是提高人類的社會效益和經濟效益，而實現信息化的關鍵在于開發和利用各種信息資源。

????????信息化的實現依賴于圖1.1所示的信息系統來構建。

???????信息化的實現首先要開發和利用各種信息資源，其次要有一個信息網絡（如寬帶通信網），通過該網絡將大量信息傳送到信息用戶。?

? ? ? ? 2、視頻信息和信號的特點：

? ? ? ? 直觀性：

????????利用人的視覺獲取的信息稱為視頻信息，它具有直觀性的特點。話音信息則是利用人的聽覺獲取的信息。兩者相比，視頻信息給人印象深刻、具體，話音信息則相對較淺顯。從信息交流的客觀效果講，視頻信息的效果更好。

? ? ? ? 確定性：

????????視頻信息直觀具體，不易和其他內容相混淆，能保證信息的準確性。而話音信息則會由于地方口音的不同產生歧義，導致不必要的損失。

? ? ? ? 高效性：

????????利用視覺，人們可以并行地觀察一幅圖像的各個像素，因而獲取視頻信息的效率比音頻信息高得多。例如，通過一幅電機構建的圖，人們可以很快搞清楚定子、轉子及其相關位置，從而很快弄清電機的結構及其原理；如果人們沒有這樣的圖，只是一味地聽講，通過音頻信息去反復理解電機結構，仍可能搞不清楚，其接受的效率要低得多。

? ? ? ? 廣泛性：

????????據統計，人們每天通過視覺獲取的信息占外界信息總量的70％左右。也就是說，人們每天獲得的信息大部分是視覺信息。

????????視頻信號的高帶寬性：

????????視頻信息的表示形式是視頻信號，通常為視頻的電信號。視頻信號通過網絡傳送至終端用戶，并在屏幕上顯示。

????????視頻信號所包含的信息量大，其內容可以是活動的，也可以是靜止的；可以是彩色的，也可以是黑白的；有時變化多、細節多，有時十分平坦。一般而言，視頻信號信息量大，傳輸網絡所需要的帶寬相對較寬。

????????視頻信息雖然具有直觀性、確定性、高效性等優越性能，但要傳送包含視頻信息的信號卻需要較高的網絡帶寬，這就是為獲得視頻信息所需付出的代價。

? ? ? ? 3、視頻壓縮編碼的要求和可能性：

? ? ? ? 視頻壓縮編碼的目標：

????????視頻信號由于信息量大，傳輸網絡帶寬要求高，就像一輛體型巨大的貨車只有在寬闊的馬路上才能行駛一樣。于是出現一個問題：能否將視頻信號在傳送前先進行壓縮編碼，即進行視頻源壓縮編碼，然后在網絡上進行傳送，以便節省傳送帶寬和存儲空間。

????????視頻信號壓縮編碼有兩個要求：

必須壓縮在一定的帶寬內，即視頻編碼器應具有足夠的壓縮比；
視頻信號壓縮之后，經解壓重建應保持一定的視頻質量。

? ? ? ? 視頻質量有兩個標準：一個為主觀質量，由人從視覺上進行評定；一個為客觀質量，通常用信噪比（S/N）表示。

? ? ? ? 視頻壓縮的可能性：

? ? ? ? 預測編碼：

????????眾所周知，一幅圖像由許多個稱為像素的點組成，如圖1.2中的“○”表示一個像素。大量的統計表明，同一幅圖像的像素之間具有較強的相關性，兩個像素之間的距離越短，其相關性越強，通俗地講，即兩個像素的值越接近。換言之，兩個相鄰像素的值發生突變的概率極小，相等、相似或緩變的概率則極大。

????????于是，人們可利用這種像素間的相關性進行壓縮編碼。例如，當前像素X（設為立即傳送的像素）可用前一個像素a、b或c，或三者的線性加權來預測。a、b、c被稱為參考像素。實際傳送時，把實際像素 X（當前值）和參考像素（預測值）相減，只傳送X－a，到了接收端再把（X－a）＋a恢復成X。由于a是已傳送的（在接收端被存儲），于是得到當前值。由于X與a相似，（X－a）值很小，視頻信號被壓縮，這種壓縮方式稱為幀內預測編碼。

????????不僅如此，還可利用圖1.3所示的幀間相關性進行壓縮編碼。由于鄰近幀之間的相關性一般比幀內像素間的相關性更強，因此壓縮比也更大

????????由此可見，利用像素之間（幀內）的相關性和幀間的相關性，找到相應的參考像素或參考幀作為預測值，可以實現視頻壓縮編碼。

? ? ? ? 變換編碼：

????????大量統計表明，視頻信號中包含著能量上占大部分的直流和低頻成分（圖中的平坦部分），還有少量的高頻成分（圖像的細節部分）。因此，可以用另一種方法進行視頻編碼，將圖像經過某種數學變換后，得到變換域中的圖像（如圖1.4所示），其中u、v分別是空間頻率坐標軸。在圖1.4中，用“o”表示的低頻和直流占圖像能量中的大部分；而用“×”表示的高頻成分則是少量的；其余均是零值，用“O”表示。于是可用較少的碼表示直流、低頻以及高頻，而“O”則不必用碼表示，由此可完成壓縮編碼。

? ? ? ? 4、視頻壓縮編碼技術綜述：

? ? ? ? 基本結構：

????????視頻編碼系統的基本結構如圖1.5所示。

????????由圖1.5可見，視頻編碼方法與可采用的信源模型有關。如果采用“一幅圖像由許多像素構成”的信源模型，這種信源模型的參數就是每個像素的亮度和色度的幅度值，對這些參數進行壓縮編碼的技術稱為基于波形的編碼。如果采用“一個分量由幾個物體構成”的信源模型，這種信源模型的參數就是各個物體的形狀、紋理和運動，對這些參數進行壓縮編碼的技術稱為基于內容的編碼。

????????由此可見，根據采用信源模型，視頻編碼可以分為兩大類：基于波形的編碼和基于內容的編碼。它們利用不同的壓縮編碼方法，得到相應的量化前的參數；再對這些參數進行量化，用二進制碼表示其量化值；最后，進行無損熵編碼進一步壓縮碼率。解碼則為編碼的逆過程。

? ? ? ? 基于波形的編碼：

????????利用像素間的空間相關性和幀間的時間相關性，采用預測編碼和變換編碼技術可大大減少視頻信號的相關性，從而顯著降低視頻序列的碼率，實現壓縮編碼的目標。

????????基于波形的編碼采用了把預測編碼和變換編碼組合起來的基于塊的混合編碼方法。

????????為了減少編碼的復雜性，使視頻編碼操作易于執行，采用混合編碼方法時，首先把一幅圖像分成固定大小的塊，例如塊8×8（即每塊8 行，每行8個像素）、塊16×16（每塊16行，每行16個像素）等，然后對塊進行壓縮編碼處理。

? ? ? ? 基于內容的編碼：

????????基于塊的編碼易于操作，但由于人為地把一幅圖像劃分成許多固定大小的塊，當包含邊界的塊屬于不同物體時，它們分別具有不同的運動方向，不能用同一個運動矢量表示該邊界塊的運動狀態。如果強制劃分成固定大小的塊，這種邊界塊必然會產生高的預測誤差和失真，嚴重影響了壓縮編碼信號的質量。

????????于是產生了基于內容的編碼技術。先把視頻幀分成對應于不同物體的區域，然后分別對其進行編碼。具體說來，就是對不同物體的形狀、運動和紋理進行編碼。在最簡單的情況下，利用二維輪廓描述物體的形狀，利用運動矢量描述其運動狀態，而紋理則用顏色的波形進行描述。

????????當視頻序列中的物體種類已知時，可采用基于知識或基于模型的編碼。例如，對人的臉部，已開發了一些預定義的線框對臉的特征進行編碼，這種編碼效率很高，只需少數比特就能描述其特征。

????????對于人臉的表情（如生氣、高興等），可能的行為可用語義編碼，由于物體可能的行為數目非常小，可獲得非常高的編碼效率。

????????MPEG-4采用的編碼方法既是基于塊的混合編碼，又有基于內容的編碼方法。

? ? ? ? 立體（三維）視頻編碼：

?????????立體視頻編碼是視頻編碼的發展方向之一，它在平面信息外增加了深度信息，數據量非常龐大。立體視頻編碼也有兩種：第一種是基于波形的，它組合運動補償預測和位差補償預測，所謂位差估計，是在兩幅不同的圖像中尋找對應的點，然后對預測殘差圖像、位差和運動矢量進行編碼；第二種是基于物體的，它直接對成像物體的三維結構和運動進行編碼，當物體結構簡單時，可獲得非常高的壓縮比，其編碼結構如圖1.6所示。???????

????????

二、數字視頻：

????????視頻壓縮編碼技術就是對數字視頻信號進行壓縮和解壓縮的技術，因此討論視頻壓縮編碼前，必須先了解數字視頻信號的概念和構成。

? ? ? ? 1、數字電視的基本概念：

????????數字電視的優越性：

? ? ? ? 模擬電視的缺陷日益顯露。為此，數字電視應運而生，與模擬電視相比，具有許多突出的優點。

失真小、噪聲低、視頻質量高：

????????模擬電視信號在放大、處理、傳輸、存儲過程中，難免會引入失真和噪聲，而且多種噪聲與失真疊加到電視信號上后，不易去除，并會隨著處理次數和傳輸距離的增加不斷累積，導致圖像質量及信噪比下降。

????????相反，數字電視信號沒有上述的噪聲累積效應。如圖2.1所示，只要噪聲電平不超過信號脈沖幅度的一半，就可用脈沖再生技術對其整形，并恢復成“0”或“1”兩種電平，不會引入噪聲。這樣說來，數字電視信號是否沒有任何失真和噪聲呢？從下面的敘述可知，它會引入“量化噪聲”，這是因為信號的數字化必須要經過取樣、量化、編碼三個基本步驟，“量化”是不可缺少的，量化噪聲不可避免，但可控制在相當低的電平以下。

????????可見，數字電視的第一個突出優點是噪聲低、失真小、視頻質量好。

易處理、易校正：

????????模擬電視信號要進行壓縮編碼處理、加密處理、校正處理都不是一件容易的事情。

????????數字電視信號利用VLSI芯片進行壓縮編碼處理、加密處理、白平衡調整、γ校正、彩色校正和輪廓校正，相對來說容易得多。隨著大規模集成電路設計和工藝的不斷發展，現在利用專用芯片和通用DSP來實現以上處理的成本不斷下降，這是視頻數字壓縮編碼能取得不斷發展的一個重要原因。

容量大、節目多：

????????同樣的帶寬能容納的數字電視節目比模擬電視節目多得多。例如，CATV頻道中，550～750MHz的200MHz帶寬中，如果傳送模擬電視，每個節目需8MHz帶寬，充其量只能傳送25套節目。如果傳送數字電視節目，采用64QAM調制，其頻譜利用率為5.3，如果每路節目用 MPEG-2壓縮為4Mbit/s，實際只需4÷5.3≈0.75（MHz）帶寬，于是在同樣的200MHz帶寬中可傳送數字電視節目數為200÷0.75≈260，約為模擬電視的11倍。

? ? ? ? 數字電視的PCM原理：

????????將輸入的模擬電視信號變成輸出的數字電視信號需經過取樣、量化、編碼三個步驟，如圖2.2所示，由A/D變換器完成這三個步驟。

? ? ? ? 取樣：

????????所謂取樣，就是在時間軸上把連續變化的模擬信號變為離散量的過程。圖2.3（a）中的ua (t)在時間上是連續變化的，經取樣后變換成圖 2.3（c）所示的時間上離散的ud (t)信號。

????????

???????????根據取樣定理，當輸入的模擬信號上限頻率為f c，只要取樣脈沖 us（t）的重復頻率 $f_{s}$ 不低于 $f_{c}$ 的兩倍，總可以無失真地由取樣后的離散信號恢復出原來的模擬信號，即不失真輸出條件為：

? ? ? ? $u_{d}$ 通過下式實現：

????????圖2.3（e）、（f）分別是 $u_{a}(t)$ 和 $u_{s}(t)$ 的頻譜 $F_{a}(f)$ 、 $F_{s}(f)$ 。于是，圖 2.3（c）中 $u_{d}(t)$ 的頻譜，即圖2.3（g）中的 $F_{d}(f)$ 可由 $F_{a}(f)$ 和 $F_{s}(f)$ 卷積得到：

????????由圖2.3（g）可知，當 $2f_{C}\leq f_{S}$ 或滿足取樣定理時，則可恢復出原始的模擬信號，否則會發生頻譜重疊，產生混疊效應，無法恢復出原始信號。

????????由于實際的低通濾波器（限制模擬信號的上限頻率 $f_{C}$ ）濾波特性不可能做成理想的陡峭的截止特性，當低通濾波器的截止頻率為 $f_{C}$ 時，實際的取樣頻率 $f_{S}$ 應取成：

????????對于電視信號，經分析可知，其信號能量主要集中在行頻 $f_{h}$ 及其多次諧波 $nf_{h}$ 附近。而在 $f=(2n+1)f_{h}/2$ 附近，信號能量很弱。當取樣頻率 $f_{S}$ 取下式：

????????當 $f_{S}<2f_{C}$ 時，即所謂的亞取樣時，發生頻譜混疊，但頻譜以 $f_{h}/2$ 的間隔交錯開，因此仍可通過設計得當的梳狀濾波器將所需信號的頻譜分離出來。

????????這種亞取樣可顯著壓縮數字電視的數字碼率。

? ? ? ? 量化：

????????取樣后的脈沖信號在時間上是離散的，但在幅值上（空間上）仍是連續的，即其可能取的值有無限多個，這就需要對它采用四舍五入的方法，將其可能的幅值數由無限多個變為有限個值。這種將信號幅值由連續量變成離散量的過程稱為量化。

????????圖2.5所示為信號的量化過程。量化器的輸入輸出特性（如圖 2.5（a）所示）呈階梯形狀，圖2.5（b）為輸入模擬信號，圖2.5（c）為其相應的量化后的輸出信號。由于采用四舍五入的方法，輸出信號不同于原模擬信號，產生了失真，即加入了所謂的“量化噪聲”。

????????如果模擬信號的動態范圍（最大值）為A，量化級數為M，量化節距（或量化步長）為Q，則

???????這種量化稱為均勻量化，量化節距為恒定值Q。

? ? ? ? PCM編碼：?

????????對于量化后的信號，通常用“0”和“1”表示，即用二進制碼表示。這時的編碼稱為脈沖編碼調制——PCM編碼。模擬電視信號經取樣、量化、編碼（PCM編碼）后得到的二進制序列，即數字電視信號。

????????每個取樣信號用8位二進制碼表示，可能取的量化值為M＝28＝ 256。一般說來，當用n位二進制碼表示時，有：

????????n越大，則M越大，Q越小，即量化噪聲越小，數字信號越接近原模擬信號。

? ? ? ? A/D與D/A變換：

??????上述取樣、量化、編碼過程均由A/D變換器完成。反之，數字信號的解碼、反量化、恢復成模擬信號的逆過程則由D/A變換器完成，如圖 2.6所示。?

? ? ? ? 2、數字電視信號：

? ? ? ? 時間取樣：

????????電視信號的取樣有兩種：空間取樣和時間取樣。運動圖像可由每秒若干幀的靜止圖像構成，我國采用的PAL制規定彩色電視每秒25幀，美國、日本等采用的NTSC制彩色電視則為每秒30幀。這種取樣方式就是時間取樣。如果是會議電視、可視電話等運動量不大的視頻信號，幀頻也可取15～20幀/秒，但低于15幀/秒的視頻質量不高。

????????隔行掃描幀圖像由兩場組成，每場由若干行組成，奇數行和偶數行各構成一場，它們分別為頂場和底場，如圖2.7所示。幀、場的鄰近行相關性并不相同。幀的鄰近行空間相關性強，時間相關性弱，因為某行的鄰近行（下一行）要一場掃描完才能被掃描，因此在壓縮靜止圖像或運動量不大的圖像時采用幀編碼方式。場的鄰近行時間相關性強，空間相關性差，因為場的一行掃描完畢，接著對場中下一行掃描，因此對運動量大的圖像常采用場編碼方式。實際的視頻圖像有快有慢，有粗有細，應根據這個標準自適應選擇幀/場編碼方式。

? ? ? ? 空間取樣：

????????在同一電視信號幀中，同一行由若干取樣點構成，這些取樣點稱為像素，這種取樣就屬于空間取樣。其前提是假定一幀圖像是靜止的，每個像素點處于同一時刻的不同的空間位置上。

? ? ? ? 色彩空間：

????????黑白圖像的每個像素只需一個幅值表示其亮度即可，而彩色圖像的每個像素至少需要3個值表示表示其亮度和色度。所謂色度空間就是表示彩色圖像的亮度與色度的方法。

RGB：

????????眾所周知，任何彩色圖像可由不同比例的紅色、綠色和藍色組合而成，即三基色原理。這種表示彩色圖像的方法即RGB彩色空間。

????????彩色顯象管（CRT）和液晶顯示器件（LCD）可顯示彩色圖像，彩色攝像機中的電荷耦合器件（CCD）等傳感器可產生彩色電視圖像，這些都是根據RGB原理獲得的。

$YC_{b}C_{r}$ （YUV）：

???????人類視覺系統（HVS）對亮度比彩色更敏感，因此可以把亮度信息從彩色信息中分離出來，并使之具有更高的清晰度。彩色信息的清晰度降低，可顯著壓縮帶寬，實現視頻壓縮的一部分。但是，人眼對畫面的感覺卻沒有不同。?

? ? ? ? 色彩電視取樣格式：

????????有3種不同的彩色電視取樣格式，如圖2.8所示：

?4∶4∶4，Y、Cb和Cr具有同樣的水平和垂直清晰度，在每一像素位置，都有Y、Cb和Cr分量，即不論水平方向還是垂直方向，每4個亮度像素相應的有4個Cb和4個Cr色度像素。
4∶2∶2，這時彩色分量和亮度分量具有同樣的垂直清晰度，但水平清晰度彩色分量是亮度分量的一半。水平方向上，每4個亮度像素具有2個Cb和2個Cr。在CCIR601標準中，這是彩色電視的標準取得格式。
4∶2∶0，在水平和垂直清晰度方面，Cb和Cr都是Y的一半。

????????4∶2∶0的彩電取樣格式廣泛應用于數字電視、會議電視、DVD等。因為3種格式中，4∶2∶0的彩色分量最少，對人眼的彩色感覺而言，這種格式與其他兩種類似，最適合用于進行數字壓縮。

? ? ? ? 數字電視信號的編碼參數：

????????現在介紹電視信號的量化值和取樣頻率值，即未壓縮前數字信號的編碼參數。

量化值（ $Q_{p}$ ）：

????????量化值（量化節距）取得太大，視頻圖像顯得粗糙；取得太小，視頻圖像質量好，但帶寬浪費過大。一般認為，每個取樣值采用8個比特表示，即256個灰度級，是比較合理的。在會議電視的視頻通信中，隨著網絡帶寬的變化， $Q_{p}$ 可進行自動調整。

取樣頻率（ $f_{s}$ ）：

????????CCIR601建議的電視國際標準為：對每幅畫面625/50（625行，每秒50場）的電視系統和525/60（525行，每秒60場）的電視系統取樣頻率都為：????????

???????? $f_{s}$ ?= 13.5MHZ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （亮度信號，即Y信號）

???????? $f_{s}$ ?= 6.75MHZ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （色差信號，即 $C_{b}$ 、 $C_{r}$ 信號）

??????彩色電視采用4∶2∶2格式時（垂直方向 $C_{b}$ 、 $C_{r}$ 和Y具有同等清晰度，水平方向 $C_{b}$ 、 $C_{r}$ 只是Y一半），Y和 $C_{b}$ 、 $C_{r}$ 取樣頻率如上，則電視信號總碼率為：??

????13.5×8＋2×6.75×8＝216（Mbit/s）

????????當彩色會議電視采用CIF格式時，取4∶2∶0格式，幀頻為25幀/秒，總碼率為：

352×288×25×8×1.5＝30.41（Mbit/s）

? ?????對于高級窄屏幕的HDTV（1250×1440），采用4∶2∶0格式，亮度 $f_{s}$ ＝54MHz，色度 $f_{s}$ ＝27MHz，總碼率為：

54×8＋27×8＝648（Mbit/s）

????????對于高級寬屏幕的HDTV（1250×1920），采用4∶2∶0格式，亮度 $f_{s}$ ＝72MHz，色度 $f_{s}$ ＝36MHz，總碼率為：

72×8＋36×8＝864（Mbit/s）

????????不論何種數字電視信號，這些值30.41Mbit/s、216Mbit/s、 648Mbit/s、864Mbit/s都是沒有經過壓縮的碼率。如果直接在現有的信道中傳輸，都需要相當大的帶寬，因此需對這些數字視頻信號進行壓縮編碼。

????????

? ? ? ? 3、視頻信號的預處理：

????????視頻處理和通信系統所要處理的信息是十分龐大的視頻圖像數據，對于處理的速度和精度都有相當高的要求，系統的應用也非常廣泛。

????????目前的視頻處理和通信系統有各種各樣的結構，但不論結構復雜還是簡單，一個基本的視頻處理和通信系統大致可如圖2.9所示，主要包括采集、預處理、視頻編碼、通信、圖像處理以及顯示等幾個方面。

????????圖像采集的功能由圖像傳感器實現，目前圖像傳感器主要有電荷耦合器件（CCD，Charge Coupled Devices）和CMOS傳感器。前者技術發展成熟，具有高解析度、低噪聲、動態范圍大等優點，在高端產品中得到廣泛應用；后者隨著半導體技術的發展，以其低成本、高集成度、低功耗等特性占領了低端市場，且隨著技術的不斷發展，CMOS圖像傳感器的一些參數性能指標已達到或超過CCD。但不論是CCD還是 CMOS傳感器，在將實際景物轉換為圖像信號時總會引入各種噪聲和畸變失真，因此一般需要對圖像傳感器的圖像進行預處理，包括伽馬校正、圖像插值、圖像校正、白平衡、圖像增強以及增益控制等技術，一方面改善圖像的質量，另一方面，可使得圖像有利于視頻編碼的處理。

? ? ? ? 色彩插值（Color Interpolation）：

????????不論是CCD還是CMOS圖像傳感器，為了簡化工藝和降低成本，一個像素點往往只能給出記錄從純白到純黑的系列色調，因而只能給出單色的色調值，不能同時給出RGB三組數據。因此，對于彩色的圖像值的獲取，就需要借助色彩濾鏡陣列（CFA，Color Filter Array），即在圖像傳感器的像素表面覆蓋一個多色的濾鏡陣列。通過應用不同的色彩濾鏡陣列，可以獲得不同的圖像輸出陣列，其中，最常見的一種濾鏡陣列的圖像傳感器獲得的是一幅如圖2.10所示的馬賽克的圖像陣列，即Bayer模型。

????????顯然，在這種圖像陣列中，每個像素值只有一個顏色的色調值，另外兩個顏色的色調必須利用相鄰像素之間的相關性，通過數據計算獲得，這些方法通常被稱為色彩插值。這里就以Bayer圖像陣列為基礎，描述色彩的插值算法。多種色彩插值算法的實現方法和性能比較，例如，相鄰像素復制法、雙線性插值算法以及雙三次多項式插值等。這里僅以雙線性插值算法為例做個簡單的介紹。顯然，色彩的插值涉及RGB三色的處理。具體如下：

紅色/藍色點處的像素綠色分量：

????????插值等于其相鄰的4個像素點的綠色分量平均值。例如，G8＝(G3 ＋G7＋G9＋G13)/4。

在綠色點處的紅色/藍色分量的插值：

????????這里分兩種情況。一種情況是如果存在相鄰的兩個像素的紅色/藍色分量，就取紅色/綠色分量的均值，例如B7＝(B6＋B8)/2，R7＝(R2 ＋R12)/2；另一個情況是周圍沒有相鄰的紅色/藍色分量，就取對角線方形的4個像素點處紅色/藍色分量的均值，R8＝(R2＋R4＋R12＋ R14)/4，B12＝(B6＋B8＋B16＋B18)/4。

? ? ? ? 色彩校正（Color Correction）：

????????通過插值已經得到了RGB三基色齊全的圖像（R、G、B）了，但傳感器響應的這個圖像與真實場景之間仍存在差異。這其中存在多方面的原因，涉及圖像傳感器中光學器件（棱鏡）的光譜特性、場景的光源光照條件（諸如白光、熒光或者鎢光）以及色彩濾鏡的光譜特性等。圖2.11給出了配置RGB色彩濾鏡陣列的CMOS圖像傳感器的光譜響應曲線。

????????為了補償這種差異，必須對圖像的像素值（R、G、B）按照公式（2.10）進行變換處理

????????其中，系數 $b_{ij}$ 是由傳感器的光譜特性、光源光照條件和濾鏡的光譜特性所決定的，不能簡單地給出，往往需要傳感器廠商在滿足人眼的視覺效果的前提下，依據性能指標和測試結果綜合給出。因此，這里的色彩校正不可能做到理想的效果，只能做到盡可能地減小上述的差異性。

? ? ? ? 伽馬校正（Gamma Correction）：

????????在計算機圖形領域，“伽馬校正”這個術語大家并不陌生，但能正確理解它的含義的人并不多。這其中又涉及另一個術語——強度（Intensity），其表示的是每單位面積傳播的（光）輻射能量。在圖像顯示器中，這個強度作為參量和輸入的電壓信號密切相關。

????????以目前應用最為廣泛的陰極射線管顯示器（CRT）為例，CRT的感光材料的響應隨著加載電子束電壓信號的不同而不同。在理想狀態時，輸出的色彩強度和電子束的電壓信號之間的關系應該是線性的，如圖2.12（a）所示；但實際上，它們之間的關系如圖2.12（b）所示，輸出的強度與電壓信號之間的關系是非線性的。

????????研究表明，顯示器的輸出強度和輸入電壓的響應大致呈冪指數關系，如公式（2.11）所示輸出的強度隨著輸入電壓的增長成指數增長。通常我們就把這個冪指數稱為伽馬（gamma）。事實上，幾乎各種顯示器都存在這種非線性關系，其伽馬值大小在1.7～2.7之間，CRT的伽馬值一般取2.2。

????????其中，I指顯示器輸出的光強度；P指顯示器上加載的光束電壓，一般光束電壓P是由圖像相應位置的像素值決定的；γ為伽馬值。

????????為了在顯示器上顯示的圖像效果和實際相符，有必要在攝像機獲取圖像后進行伽馬校正，將上述這種非線性的關系校正為線性關系，公式如下：

???????? ??其中， $P_{new}$ 是進行了校正處理的圖像的像素值； $P_{old}$ 是校正前的像素值；伽馬值γ影響著校正的程度，γ＝1時，不進行校正，γ越大，像素值的校正量越大。

????????伽馬校正的具體實現方法是多種多樣的，在模擬電視中，伽馬校正可采用分段折線與漸變式兩種方法。對于分段式是通過選擇二極管的配置電路，確定不同的分段導通特性來實現校正處理。隨著數字電路技術的發展，高度靈活的數字化伽馬校正得到了廣泛應用，可以采用數字電路的硬件實現折線式的伽馬校正電路，也可采用軟件實現漸變式伽馬校正電路。如圖2.13所示，軟件實現的伽馬校正的步驟分為兩步：①建立伽馬校正數據表；②根據輸入的像素值進行查表獲取伽馬校正后的數據。其中，伽馬校正數據表可以通過各種公式的修正公式計算獲得，也可預先設定。

????????

? ? ? ? 4、圖像增強：

????????很顯然，實際應用中圖像傳感器的輸出圖像經過上述的處理并不是完美的，圖像質量獲得的改進也是有限的，加之噪聲、光照等原因，需要進一步處理，丟棄無用的信息，保留我們感興趣的重要信息。圖像增強作為一種重要的圖像處理技術，目的無非就是兩個：第一，更適合人眼的感覺；第二，有利于后續的分析處理。

????????圖像增強主要包括直方圖均衡、平滑濾波、中值濾波、銳化等內容。一般情況下，圖像增強既可以在空間域實現，也可以在頻域內實現。這里我們主要介紹在空間域內對圖像進行點運算，它是一種既簡單又重要的圖像處理技術，能讓用戶通過改變圖像上像素點的灰度值，進行運算處理產生一幅新圖像。總之，圖像增強有利于視覺效果和后續的處理，消除了相關性和高頻噪聲，有利于圖像的壓縮和處理，節省帶寬。

? ? ? ? 平滑濾波：

????????圖像平滑作為一種主要的圖像增強技術，其主要目的是為了消除圖像采樣系統的量化過程所產生的噪聲。噪聲并不限于人眼所能看見的失真和變形，有些噪聲只有在進行圖像處理時才可以發現。圖像的常見噪聲主要有加性噪聲、乘性噪聲和量化噪聲等。圖像中的噪聲往往和信號交織在一起，尤其是乘性噪聲，如果平滑不當，就會使圖像本身的細節如邊界輪廓、線條等變得模糊不清。如何能既平滑掉噪聲又盡量保持圖像細節，是圖像平滑研究的主要任務。

????????一般來說，圖像的能量主要集中在其低頻部分，噪聲所在的頻段主要在高頻段，同時圖像中的細節信息也主要集中在其高頻部分，因此，如何去掉高頻干擾同時又保持細節信息是關鍵。為了去除噪聲，有必要對圖像進行平滑，可以采用低通濾波的方法去除高頻干擾。圖像平滑包括空域法和頻域法兩大類。

????????在空域法中，圖像平滑的常用方法是采用均值濾波或中值濾波。對于均值濾波，它是用一個有奇數點的滑動窗口在圖像上滑動，將窗口中心點對應的圖像像素點的灰度值用窗口內的各個點的灰度值的平均值代替，如果滑動窗口規定了取均值過程中窗口各個像素點所占的權重，也就是各個像素點的系數，這時候就稱為加權均值濾波；對于中值濾波，對應的像素點的灰度值用窗口內的中間值代替。

????????在頻域法中，一般采用低通濾波法。這里主要采用介紹空域處理的方法。

????????加權均值濾波是取一個n×n的窗口，取該窗口內的 $n^{2}$ 個像素的加權平均值取代中心像素原來的值。加權均值算法的一般表達形式為：

???????其中，g(x, y)是窗口的中心元素，f(x＋i, y＋j)是有噪聲圖像的像素，w(i, j)為加權值，其窗口大小為(2k＋1)×(2k＋1)。把n×n的權值排成矩陣，稱為加權模板。下面介紹幾個3×3的加權模板。?

? ? ? ? 相等加權的模版為：

? ? ? ? 錐形加權的模版為：

? ? ? ? 灰度差倒數加權的模版為：

? ? ? ? 其中，每個加權值為：

? ? ? ?圖2.14給出了采用錐形加權的模板運算得出的平滑效果圖：

? ? ? ? 中值濾波：

????????中值濾波也是一種典型的低通濾波器，它的目的是在保護圖像的細節的同時，消除噪聲。中值濾波的原理是指把以某點（x, y）為中心的小窗口內的所有像素的灰度按從大到小的順序排列，將中間值作為（x, y）處的灰度值（若窗口中有偶數個像素，則取兩個中間值的平均）。

????????對二維的數字圖像，設定一個大小為(2k＋1)×(2k＋1)的窗口，計算其中值為：

????????可以采用冒泡法對數組進行排序，然后返回數組元素的中值。

????????實際處理中可采用多種快速算法求解，例如，Narendra提出了對圖像先進行行方向的一維中值濾波，再做列方向的一維中值濾波的方法，可得到與二維中值濾波相近的結果，使計算量大大降低，也易于硬件實現。T.S.Huang提出了對圖像用n×n的滑動窗口進行中值濾波時，每次求中值只要考慮去掉最左列，補上最右列的像素，其余的像素不變，因此計算量大大縮小。

? ? ? ? 圖像銳化：

????????圖像的邊緣信息在圖像風險和人的視覺中都是非常重要的，物體的邊緣是以圖像局部特性不連續的形式出現的。前面介紹的圖像濾波對于消除噪聲是有益的，但往往使圖像中的邊界、輪廓變的模糊，為了減少這類不利效果的影響，就需要利用圖像銳化技術，使圖像的邊緣變得更加鮮明。

????????圖像銳化處理的目的就是為了使圖像的邊緣、輪廓線以及圖像的細節變得清晰，經過平滑處理后的圖像變得模糊的根本原因是因為圖像的像素受到了平均或積分，因此對其進行逆運算（如微分運算）就可以使圖像變得清晰。從頻率域來考慮，圖像模糊的實質是因為其高頻分量被衰減，因此可以用高通濾波器使圖像清晰。

????????圖像銳化的技術有兩種：微分法和高通濾波法。這里主要介紹微分法，常用的微分銳化主要有兩種：梯度銳化和拉普拉斯銳化。以拉普拉斯銳化為例，對于給定的圖像f(x,y)，其二階差分為：

????????從而拉普拉斯算子為：

????????顯然，公式（2.20）可以變成前面的模板運算，從而拉普拉斯銳化運算也變成了模板運算，其模板形式為：

??????圖2.15給出了采用銳化處理的效果圖。

????????直方圖均衡：

????????圖像直方圖是圖像處理中一種十分重要的圖像分析工具，它描述了一幅圖像的灰度級內容。從數學上來說，圖像直方圖是圖像各灰度值統計特性與圖像灰度值的函數，它統計一幅圖像中各個灰度級出現的次數或概率；從圖形上來說，它是一個二維圖，橫坐標表示圖像中各個像素點的灰度級，縱坐標為各個灰度級上圖像像素點出現的次數或概率。????????

????????在介紹灰度直方圖均衡之前，先講講直方圖修正。所謂直方圖修正，就是通過一個灰度映射函數S＝F(r)，將原灰度直方圖改造成我們所希望的直方圖。所以，直方圖修正的關鍵就是灰度映射函數。直方圖均衡化是一種最常用的直方圖修正。它是把給定圖像的直方圖分布改造成均勻直方圖分布。由信息學的理論來解釋，具有最大熵（信息量）的圖像為均衡化圖像。

???????則圖像直方圖均衡的變化函數為：

????????圖2.16給出了直方圖均衡處理前后的效果圖。

? ? ? ? 白平衡（White Balance）：

????????白平衡作為圖像處理的一個重要術語，也隨著數碼相機的普及進入了人們的認識中。白平衡指的就是對白色物體顏色的還原。當我們用肉眼觀看這大千世界時，在不同的光線下，對相同的顏色的感覺基本是相同的，比如在早晨旭日初升時，我們看一個白色的物體，感到它是白的；而我們在夜晚昏暗的燈光下，看到的白色物體，感到它仍然是白的。這是由于人類在出生以后的成長過程中，大腦已經對不同光線下的物體的彩色還原有了適應性。但是，圖像傳感器沒有這種人眼的適應性，在不同的光線下，由于圖像傳感器輸出的不平衡性，造成其輸出的彩色失真：或者圖像偏藍，或者偏紅，如圖2.17所示。

????????要理解白平衡，就涉及另一個重要的概念：色溫。所謂色溫，簡而言之，就是定量地以開爾文溫度表示色彩。色溫越高，藍色成分就越多；色溫越低，紅色成分就越多。這跟我們傳統的認知不一樣。在攝影、攝像時，不同色溫光源下拍攝物體，獲得的圖像不可避免會出現色彩上的偏差。為了獲得現實際世界中各種色彩的圖像，必須消除環境中光源色溫的影響，即進行白平衡處理。

????????傳統的白平衡方法，首先在色溫環境中拍攝一純白色物體，分析所拍攝的圖像數據，對白色物體的數據進行平均，得出三原色的平均值（ $R_{mean}$ 、 $G_{mean}$ 、 $B_{mean}$ ），根據白色的定義：

R＝G＝B

????????改變R、B感應通道的增益可以實現圖像的白平衡，這種白平衡方法需要有白色參照物，使用不便。因此，實際應用中，產生了一些自動白平衡的算法，主要有以下幾種算法

全局平衡法：認為所拍攝的圖像的R、G、B三色分量的統計平均應該相等，對于拍攝的圖像進行統計平均，以R、B分量的均值作為白平衡校準的依據。
局部白平衡法：搜索所拍攝的圖像中，最亮的區域作為白色區域，該區域的R、 G、B三色分量的統計平均值應該相同，以該區域的R、B分量的均值作為白平衡校準的依據。

三、視頻質量：

????????對壓縮后的視頻質量進行估計是一件困難的工作。大體上，可分為主觀視頻質量評定和客觀視頻質量評定兩種估計方法。

? ? ? ? 1、主觀質量的評定：

????????由于個人的視覺系統（HVS）不盡相同，對視頻內容的熟悉程度也不一樣。為了減少主觀隨意性，在對視頻圖像主觀評定前，選若干名專家和“非專家”作為評分委員，共同利用5項或7項評分法對同一種視頻圖像進行壓縮編碼的圖像評定。最后按加權平均法則對該壓縮后的圖像質量進行主觀評定，見表2.2。

????????測試方法可用隨機的次序請評委觀察比較原始圖像和壓縮編解碼后的圖像。國際上稱為DSCQS的測試系統如圖2.18所示。其中A為原始圖像，B為編碼解碼后的圖像，以任意的A、B次序讓評委打分評定。

????????

? ? ? ? 2、客觀質量的測量：

????????主觀的視頻質量評分更接近人的真實視覺感受，但需耗費人力和時間，成本較高。客觀質量的測定方法速度快、易實行，但往往不會太符合人眼的視覺感受，只能反映大體上的質量情況。客觀質量測定方法應致力于改進其測試標準和測試方法，使其符合人的視覺感受。

????????最常用的測試標準是峰值信噪比（PSNR）：

????????其中，MSE為原始和編解碼后圖像之間的均方誤差， $(2^{n} - 1)^{2}$ 為圖像中最大可能的信號值平方，n為表示每個像素的比特數。

????????一般來講，PSNR越高，視頻質量越高，反之亦然。但實際上有時并非如此，如圖2.19和圖2.20所示。圖2.20的PSNR＝27.7dB，其主觀評定的分數可能比圖2.19（b）、（c）的高，但客觀質量PSNR卻低于圖 2.19（b）、（c）的30.6dB和28.3dB。這是因為圖2.20中的臉部更清晰，只是背景模糊，而人眼對臉部往往更敏感更重視。