H.264入門級概念之I、B、P幀

MPEG壓縮中的 I、B、P幀

首先,MPEG-1壓縮的基本思想:幀內壓縮和幀間壓縮。
其次,時間相關性的統計分析:統計的結果表明,在間隔1~2幀的圖像中,各像素只有10%以下的點,其亮度差值變化超過2%,而色度差值的變化只有1%以下。

采用的壓縮方法: 分組:把幾幀圖像分為一組(GOP),為防止運動變化,幀數不宜取多。
1.定義幀:將每組內各幀圖像定義為三種類型,即I幀、B幀和P幀;
2.預測幀:以I幀做為基礎幀,以I幀預測P幀,再由I幀和P幀預測B幀;
3.數據傳輸:最后將I幀數據與預測的差值信息進行存儲和傳輸。

I幀:幀內編碼幀
I幀特點:
1.它是一個全幀壓縮編碼幀。它將全幀圖像信息進行JPEG壓縮編碼及傳輸;
2.解碼時僅用I幀的數據就可重構完整圖像;
3.I幀描述了圖像背景和運動主體的詳情;
4.I幀不需要參考其他畫面而生成;
5.I幀是P幀和B幀的參考幀(其質量直接影響到同組中以后各幀的質量);
6.I幀是幀組GOP的基礎幀(第一幀),在一組中只有一個I幀;
7.I幀不需要考慮運動矢量;
8.I幀所占數據的信息量比較大。

P幀:前向預測編碼幀。
P幀的預測與重構:P幀是以I幀為參考幀,在I幀中找出P幀“某點”的預測值和運動矢量,取預測差值和運動矢量一起傳送。在接收端根據運動矢量從I幀中找出P幀“某點”的預測值并與差值相加以得到P幀“某點”樣值,從而可得到完整的P幀。
P幀特點:
1.P幀是I幀后面相隔1~2幀的編碼幀;
2.P幀采用運動補償的方法傳送它與前面的I或P幀的差值及運動矢量(預測誤差);
3.解碼時必須將I幀中的預測值與預測誤差求和后才能重構完整的P幀圖像;
4.P幀屬于前向預測的幀間編碼。它只參考前面最靠近它的I幀或P幀;
5.P幀可以是其后面P幀的參考幀,也可以是其前后的B幀的參考幀;
6.由于P幀是參考幀,它可能造成解碼錯誤的擴散;
7.由于是差值傳送,P幀的壓縮比較高。

B幀:雙向預測內插編碼幀。
B幀的預測與重構
B幀以前面的I或P幀和后面的P幀為參考幀,“找出”B幀“某點”的預測值和兩個運動矢量,并取預測差值和運動矢量傳送。接收端根據運動矢量在兩個參考幀中“找出(算出)”預測值并與差值求和,得到B幀“某點”樣值,從而可得到完整的B幀。
B幀特點
1.B幀是由前面的I或P幀和后面的P幀來進行預測的;
2.B幀傳送的是它與前面的I或P幀和后面的P幀之間的預測誤差及運動矢量;
3.B幀是雙向預測編碼幀;
4.B幀壓縮比最高,因為它只反映丙參考幀間運動主體的變化情況,預測比較準確;
5.B幀不是參考幀,不會造成解碼錯誤的擴散。

注:I、B、P各幀是根據壓縮算法的需要,是人為定義的,它們都是實實在在的物理幀,至于圖像中的哪一幀是I幀,是隨機的,一但確定了I幀,以后的各幀就嚴格按規定順序排列

視頻壓縮中，每幀代表一幅靜止的圖像。而在實際壓縮時，會采取各種算法減少數據的容量，其中IPB就是最常見的。

I幀表示關鍵幀，你可以理解為這一幀畫面的完整保留；解碼時只需要本幀數據就可以完成（因為包含完整畫面）

P幀表示的是這一幀跟之前的一個關鍵幀（或P幀）的差別，解碼時需要用之前緩存的畫面疊加上本幀定義的差別，生成最終畫面。（也就是差別幀，P幀沒有完整畫面數據，只有與前一幀的畫面差別的數據）

B幀是雙向差別幀，也就是B幀記錄的是本幀與前后幀的差別（具體比較復雜，有4種情況，但我這樣說簡單些，有興趣可以看看我上面提供的資料），換言之，要解碼B幀，不僅要取得之前的緩存畫面，還要解碼之后的畫面，通過前后畫面的與本幀數據的疊加取得最終的畫面。B幀壓縮率高，但是解碼時CPU會比較累~。

從上面的解釋看，我們知道I和P的解碼算法比較簡單，資源占用也比較少，I只要自己完成就行了，P呢，也只需要解碼器把前一個畫面緩存一下，遇到P時就使用之前緩存的畫面就好了，如果視頻流只有I和P，解碼器可以不管后面的數據，邊讀邊解碼，線性前進，大家很舒服。

但網絡上的電影很多都采用了B幀，因為B幀記錄的是前后幀的差別，比P幀能節約更多的空間，但這樣一來，文件小了，解碼器就麻煩了，因為在解碼時，不僅要用之前緩存的畫面，還要知道下一個I或者P的畫面（也就是說要預讀預解碼），而且，B幀不能簡單地丟掉，因為B幀其實也包含了畫面信息，如果簡單丟掉，并用之前的畫面簡單重復，就會造成畫面卡（其實就是丟幀了），并且由于網絡上的電影為了節約空間，往往使用相當多的B幀，B幀用的多，對不支持B幀的播放器就造成更大的困擾，畫面也就越卡。

一般平均來說，I的壓縮率是7（跟JPG差不多），P是20，B可以達到50，可見使用B幀能節省大量空間，節省出來的空間可以用來保存多一些I幀，這樣在相同碼率下，可以提供更好的畫質。

B幀（B frame）

B幀法是雙向預測的幀間壓縮算法。當把一幀壓縮成B幀時，它根據相鄰的前一幀、本幀以及后一幀數據的不同點來壓縮本幀，也即僅記錄本幀與前后幀的差值。只有采用B幀壓縮才能達到200：1的高壓縮。

也就是說，有B幀的視頻，是比較耗費CPU/圖像處理器的

B 幀在 MPEG-4 中有四種參考模式，如果是同時參考前后的畫面壓縮，則記錄的是和 (前畫面 pixel 值后畫面 pixel 值)/2 的差值，也就是和「前后畫面的平均」的差值。所以記錄的差值個數和 P 幀一樣，只有一個，沒有增加。

而因為 B 幀位于前后畫面的中間，以「前后畫面的平均」，也就是「前后畫面的中間值」來作為預測數值（預測 B 幀的 pixel 數值為多少？如果有誤差，再記錄差值），這樣這個預測數值會比單獨使用前一個畫面來預測，更接近目前真正的 B 幀的數值，可想而知，如此所需要記錄的差值就會很小甚至可以根本不用記錄，所以便可以省下很多的 bits，提高壓縮率。

例如
亮度變化 -> I B P 7 8 9

如果 B 只參考前一個畫面壓縮，則需記錄差值 1。如果以 (I P)/2 壓縮，則差值為 0，不需記錄差值。（雖然要記錄兩個矢量，不過矢量也可以再做進一步預測壓縮，總的來說，還是會比單獨參考前一個畫面壓縮來得小很多）如果畫面不是這樣變化怎么辦？通常來講畫面都會是這樣變化，如果不是這樣變化我們就不使用 B 幀就算變化不是如此規則，換個方式想，B 幀可以參考的畫面還是比 P 幀多，再怎么找，也還是 B 幀可以找到誤差更小的方塊來使用的機率大（因為可以選擇、參考的對象較多），所以 B 幀還是比 P 幀的壓縮率來得高。（而且高很多，差距非常大）

除了壓縮率以外，B 幀對畫質的影響…是有的，因為 B 幀這種參考前后畫面的特性，等于有內插（interpolation）的效果，所以可以減少噪訊。

MPEG-4 中的 B 幀，也是非常具有威力的，除了以前的三種參考模式，還有 Direct Mode，連矢量的紀錄都省了。雖然
MPEG-4 之中有 4MV 的功能，可以記錄四個矢量，不過編碼器在壓縮的時候會判斷，到底是使用 4MV 壓出來的結果小，還是使用傳統的方法壓出來的結果小？

如果使用傳統的方法壓出來的結果小，便使用傳統的方法記錄，如果使用 4MV 壓出來的結果小，才使用 4MV 來記錄。

（ps. 4MV 不會用在 backward 預測）

您可以觀察 VirtualDub 壓縮時畫面上顯示的藍線，您會發現藍線和藍線之間通常會有很短的藍線插在中間，造成空隙，而且差距很大，這個就是夾在 P 之間的 B 在發揮壓縮威力如果是用 DivX 5 更明顯，因為 DivX 5 只能夠使用 IBPBPBPB… 這種一個 B 接一個 P 的形式，所以畫面上的藍線就是「一長一短、一長一短」這樣排列。