基于IP的H.264關鍵技術

一、引言
H.264是ITU-T最新的視頻編碼標準，被稱作ISO/IEC14496-10或MPEG-4 AVC，是由運動圖像專家組(MPEG)和ITU的視頻編碼專家組共同開發的新產品。H.264分兩層結構，包括視頻編碼層和網絡適配層。視頻編碼層處理的是塊、宏塊和片的數據，并盡量做到與網絡層獨立，這是視頻編碼的核心，其中包含許多實現錯誤恢復的工具；網絡適配層處理的是片結構以上的數據，使H.264能夠在基于RTP/UDP/IP、H.323/M、MPEG-2傳輸和H.320協議的網絡中使用。
二、 IP網絡對視頻壓縮的限制
　　1. H.264的應用場合?? < type="text/javascript"> < type="text/javascript" src="http://pagead2.googlesyndication.com/pagead/show_ads.js">?
　　在討論基于IP的H.264之前，有必要先闡述一下H.264與IP網絡有關的應用場合及其對傳輸和編解碼器的要求。下面介紹對話應用、下載服務和流媒體應用三種場合。
　　對話應用，比如像視頻電話和視頻會議，有嚴格的時延限制，要求端到端時延小于1s，最好小于100ms。編解碼器的參數能實時調整，錯誤恢復機制要根據實際網絡變化而改變。編解碼的復雜度不能很高，比如雙向預測的模式就不能被采用。
　　下載服務，可使用可靠的傳輸協議如FTP和HTTP將數據全部傳輸。由于這種應用的非實時性，編碼器可以通過優化進行高效編碼，而且對時延和錯誤恢復機制沒有要求。
　　流媒體服務應用，對時延要求介于上面兩者之間，初始化時延是10s以內。與實時編碼相比對時延要求降低，編碼器可以進行優化實現高效編碼(比如雙向預測)。然而通常流媒體服務使用不可靠的傳輸協議，所以編碼時要進行差錯控制并進行信道糾錯編碼。
　　本文主要討論對話應用和流媒體應用，這兩種應用基于IP網絡。IP網絡又可分為三種類型：不可控IP網絡(如Internet)、可控IP網絡(廣域網)和無線IP網絡(如3G網絡)。這三種IP網絡有不同的最大傳輸單元尺寸(MTUsize)、比特出錯概率和TCP使用標記。最大傳輸單元尺寸是網絡層最大的分組長度，H.264編碼時要使片的長度小于MTU尺寸，這樣可避免在網絡層再進行一次數據的分割。兩個IP節點之間的MTU尺寸是動態變化的，通常假定有線IP網絡的MTU尺寸是1.5千字節，無線網絡的MTU尺寸是100字節。可見要適用于無線網絡的H.264必須采用數據分割技術使得片的長度小于MTU尺寸。TCP傳輸控制協議能夠解決網絡擁塞引起的分組丟失問題，而在無線網絡中，分組丟失是由于鏈路層錯誤引起的，TCP并非很好的解決辦法，要采用差錯控制協議。
　　2. H.264使用的協議環境
　　對話應用和流媒體應用使用同一協議組，下面進行討論。
　　網絡層協議：使用IP(網際協議)。每個IP分組單獨從發方出發，經過一系列的路由器到達收方。IP將大于MTU尺寸的分組進行數據分割、重組。每個分組的傳輸時間都有所不同。IP頭20個字節由校驗碼來保證，但數據沒有保護。IP分組最大值為64千字節，但由于MTU尺寸的限制，一般沒有這么大。
　　傳輸層協議：主要有兩個協議，TCP和UDP。TCP提供面向字節的可靠傳輸服務，以重傳和超時等機制作為差錯控制的基礎。由于對時延的不可預測，并不適用于實時通信傳輸。UDP提供不可靠的數據報傳輸業務。UDP頭包含的校驗數(8字節)可以發現和去掉含有比特錯誤的分組。UDP允許分組傳輸過程中出現丟失、復制、改序等。使用UDP協議時，高層必須使用錯誤恢復協議。
　　應用層傳輸協議：使用RTP(實時傳輸協議)。該協議和IP/UDP結合使用，是面向會話的協議。每個RTP分組包含RTP頭標，載荷頭標(可選)和載荷本身。RTP頭標的內容見圖1，基本選項占用12字節，標記位標記有同一時間戳的一組分組的結束。RTP協議使發送方將數據分為大小合理的分組，并將解碼方觀察到的網絡特征反饋給發送方，使發送方可以動態調整比特率和抗誤碼機制。RTP分組和RTP載荷規范在第四部分討論。
應用層控制協議：有H.245協議、SIP和SDP，或RTSP。這些協議可以實現流媒體的控制，收發方的協商和控制動態會話層。
三、H.264的錯誤恢復工具
　　錯誤恢復的工具隨著視頻壓縮編碼技術的提高在不斷改進。舊的標準(H.261、H263、MPEG-2的第二部分)中，使用片和宏塊組的劃分、幀內編碼宏塊、幀內編碼片和幀內編碼圖像來防止錯誤的擴散。之后改進的標準(H.263+、MPEG-4)中，使用多幀參考和數據分割技術來恢復錯誤。H.264標準在以前的基礎上提出了三種關鍵技術：(1)參數集合，(2) 靈活的宏塊次序(FMO)，(3)冗余片(RS)來進行錯誤的恢復。
　　1. 幀內編碼
　　H.264中幀內編碼的技術和以前標準一樣，值得注意的是：
　　(1)H.264中的幀內預測編碼宏塊的參考宏塊可以是幀間編碼宏塊，幀內預測宏塊并不像H.263中的幀內編碼一樣，而采用預測的幀內編碼比非預測的幀內編碼有更好的編碼效率，但減少了幀內編碼的重同步性能，可以通過設置限制幀內預測標記來恢復這一性能。
　　(2)只包含幀內宏塊的片有兩種，一種是幀內片(Islice)，一種是立即刷新片(IDRslice)，立即刷新片必存在于立即刷新圖像(IDRpicture)中。與短期參考圖像相比，立即刷新圖像有更強壯的重同步性能。
　　在無線IP網絡環境下，為了提高幀內圖像的重同步性能，要采用率失真優化編碼和設置限制幀內預測標記。
　　2. 圖像的分割
　　H.264支持一幅圖像劃分成片，片中宏塊的數目是任意的。在非FMO模式下，片中的宏塊次序是同光柵掃描順序，FMO模式下比較特殊。片的劃分可以適配不同的MTU尺寸，也可以用來交織分組打包。
　　3. 參考圖像選擇
　　參考圖像數據選擇，不論是基于宏塊、基于片，還是基于幀，都是錯誤恢復的有效工具。對于有反饋的系統，編碼器獲得傳輸中丟失圖像區域的信息后，參考圖像可以選擇解碼已經正確接收的圖像對應的原圖像區域作參考。在沒有反饋的系統中，將會使用冗余的編碼來增加錯誤恢復性能。
　　4. 數據的劃分
　　通常情況下，一個宏塊的數據是存放在一起而組成片的，數據劃分使得一個片中的宏塊數據重新組合，把宏塊語義相關的數據組成一個劃分，由劃分來組裝片。在H.264中有三種不同的數據劃分。 (1)頭信息劃分：包含片中宏塊的類型，量化參數和運動矢量，是片中最重要的信息。 (2)幀內信息劃分：包含幀內CBPs和幀內系數，幀內信息可以阻止錯誤的蔓延。 (3)幀間信息劃分：包含幀間CBPs和幀間系數，通常比前兩個劃分要大得多。
　　幀內信息劃分結合頭信息解出幀內宏塊，幀間信息劃分結合頭信息解出幀間宏塊。幀間信息劃分的重要性最低，對重同步沒有貢獻。當使用數據劃分時，片中的數據根據其類型被保存到不同的緩存，同時片的大小也要調整，使得片中最大的劃分小于MTU尺寸。
　　解碼端若獲得所有的劃分，就可以完整重構片；解碼端若發現幀內信息或幀間信息劃分丟失，可用的頭信息仍然有很好的錯誤恢復性能。這是因為宏塊類型和宏塊的運動矢量含有宏塊的基本特征。
　　5. 參數集的使用
　　序列的參數集(SPS)包括了一個圖像序列的所有信息，圖像的參數集(PPS)包括了一個圖像所有片的信息。多個不同的序列和圖像參數集經排序存放在解碼器。編碼器參考序列參數集設置圖像參數集，依據每一個已編碼片的片頭的存儲地址選擇合適的圖像參數集來使用。對序列的參數和圖像的參數進行重點保護才能很好地增強H.264錯誤恢復性能。
　　在差錯信道中使用參數集的關鍵是保證參數集及時、可靠地到達解碼端。例如，在實時信道中，編碼器用可靠控制協議及早將他們以帶外傳輸的方式發送，使控制協議能夠在引用新參數的第一個片到達之前把它們發給解碼器；另外一個辦法就是使用應用層保護，重發多個備份文件，確保至少有一個備份數據到達解碼端；第三個辦法就是在編解碼器的硬件中固化參數集設置。
　　6. 靈活的宏塊次序(FMO)
　　靈活的宏塊次序是H.264的一大特色，通過設置宏塊次序映射表(MBAmap)來任意地指配宏塊到不同的片組，FMO模式打亂了原宏塊順序，降低了編碼效率，增加了時延，但增強了抗誤碼性能。FMO模式劃分圖像的模式各種各樣，重要的有棋盤模式、矩形模式等。當然FMO模式也可以使一幀中的宏塊順序分割，使得分割后的片的大小小于無線網絡的MTU尺寸。經過FMO模式分割后的圖像數據分開進行傳輸，以棋盤模式為例，當一個片組的數據丟失時可用另一個片組的數據(包含丟失宏塊的相鄰宏塊信息)進行錯誤掩蓋。實驗數據顯示，當丟失率為(視頻會議應用時)10%時，經錯誤掩蓋后的圖像仍然有很高的質量。
　　7. 冗余片方法
前邊提到了當使用無反饋的系統時，就不能使用參考幀選擇的方法來進行錯誤恢復，應該在編碼時增加冗余的片來增強抗誤碼性能。要注意的是這些冗余片的編碼參數與非冗余片的編碼參數不同，也就是用一個模糊的冗余片附加在一個清晰的片之后。在解碼時先解清晰的片，如果其可用就丟棄冗余片；否則使用冗余模糊片來重構圖像。
?
四、H.264中實時傳輸協議(RTP)
　　1. RTP載荷規范
　　在第二部分已經對H.264的網絡協議環境作了闡述，這里要詳細討論RTP的載荷規范和抗誤碼性能。RTP通過發送冗余信息來減少接收端的丟包率，會增加時延，與冗余片不同的是它增加的冗余信息是個別重點信息的備份，適合于應用層的非等重保護。下邊闡述與多媒體傳輸有關的3個規范。
　　(1)分組復制多次重發，發送端對最重要的比特信息分組進行復制重發，使得保證接收端能至少正確接收到一次，同時接收端要丟棄已經正確接收的分組的多余備份。
　　(2)基于分組的前向糾錯，對被保護的分組進行異或運算，將運算結果作為冗余信息發送到接收方。由于時延，不用于對話型應用，可用于流媒體。
　　(3)音頻冗余編碼，可保護包括視頻在內的任何數據流。每個分組由頭標、載荷以及前一分組的載荷組成，H.264中可與數據分割一起使用。
　　2. H.264 NAL單元的概念
　　H.264 NAL單元對編碼數據進行打包，NAL單元由1字節的頭，3個定長的字段和一個字節數不定的編碼段組成。
　　頭標的語法：NALU類型(5bit)、重要性指示位(2bit)、禁止位(1bit)。
　　NALU類型：1～12由H.264使用，24～31由H.264以外的應用使用。
　　重要性指示：標志該NAL單元用于重建時的重要性，值越大，越重要。
　　禁止位：網絡發現NAL單元有比特錯誤時可設置該比特為1，以便接收方丟掉該單元。
　　3. 分組打包的規則
　　(1)額外開銷要少，使MTU尺寸在100～64k字節范圍都可以；
　　(2)不用對分組內的數據解碼就可以判別該分組的重要性；
　　(3)載荷規范應當保證不用解碼就可識別由于其他的比特丟失而造成的分組不可解碼；
　　(4)支持將NALU分割成多個RTP分組；
　　(5)支持將多個NALU匯集在一個RTP分組中。
　　RTP的頭標可以是NALU的頭標，并可以實現以上的打包規則。
　　4. 簡單打包
　　一個RTP分組里放入一個NALU，將NALU(包括同時作為載荷頭標的NALU頭)放入RTP的載荷中，設置RTP頭標值。為了避免IP層對大分組的再一次分割，片分組的大小一般都要小于MTU尺寸。由于包傳送的路徑不同，解碼端要重新對片分組排序，RTP包含的次序信息可以用來解決這一問題。
　　5. NALU分割
　　對于預先已經編碼的內容，NALU可能大于MTU尺寸的限制。雖然IP層的分割可以使數據塊小于64千字節，但無法在應用層實現保護，從而降低了非等重保護方案的效果。由于UDP數據包小于64千字節，而且一個片的長度對某些應用場合來說太小，所以應用層打包是RTP打包方案的一部分。
　　新的討論方案(IETF)應當符合以下特征：
　　(1)NALU的分塊以按RTP次序號升序傳輸；
　　(2)能夠標記第一個和最后一個NALU分塊；
　　(3)可以檢測丟失的分塊。
　　6. NALU合并
　　一些NALU如SEI、參數集等非常小，將它們合并在一起有利于減少頭標開銷。已有兩種集合分組：
　　(1)單一時間集合分組(STAP)，按時間戳進行組合；
(2)多時間集合分組(MTAP)，不同時間戳也可以組合。
五、結束語
　　本文重點講述了在IP網絡的限制條件下H.264進行錯誤恢復的幾種有力工具，但在不同的IP網絡中要組合使用各種工具才能實現高效率編碼和傳輸。因為目前無線網絡對MTU尺寸和時延的限制，所以錯誤恢復工具可以結合使用圖像的分割、數據的劃分和RTP分組技術，避免使用冗余信息和反饋來提高錯誤恢復性能；另外高效率的FMO編碼模式可以大大提高編碼的抗分組丟失性能。

本文來自CSDN博客，轉載請標明出處：http://blog.csdn.net/fengyv/archive/2006/05/09/714972.aspx

基于IP的H.264關鍵技術

相關文章

“光伏進社區” 應及早謀劃布局

python中的裝飾器和抽象類

eigen庫安裝_OpenCV+Eigen上位機程序移植（七十一）

【實戰操作】使用FFmpeg將一個視頻文件中音頻合成到另一個視頻中只需三秒

蘋果依舊強大物聯網領域舉足輕重

linux之SQL語句簡明教程---SUBSTRING

H.264/AVC技術進展及其務實發展策略思考

python中錯誤和異常處理

listview 每行后面的小箭頭_主臥帶小衣帽裝修，這幾個裝修方案，你喜歡哪個？...

【養成好習慣】使用pipreqs導出本項目使用的環境

開放醫療交通大數據技術服務于公共便民領域

Nagios_在不同平臺下的安裝

python中的模塊和包

2005年全球H.264編解碼器薈萃

【Tensorflow】基于卷積神經網絡實現車牌的識別

腳本啟動顯示查詢頻繁被服務器防御_面對CC攻擊，該如何進行防御

面對SDN/NFV部署挑戰網絡廠商能做什么？

python中的tkinter模塊

PAT甲題題解-1011. World Cup Betting (20)-誤導人的水題。。。

【Django】文件上傳以及celery的使用