音視頻學習（五十一）：AAC編碼器

什么是AAC編碼器？

高級音頻編碼（Advanced Audio Coding，簡稱AAC） 是一種有損音頻壓縮技術，旨在作為MP3的下一代標準而開發。它的主要目標是在比MP3更低的比特率下提供更好的音質，同時具備更強的靈活性和功能性。AAC編碼器是實現這一技術的關鍵，它將未壓縮的音頻（如PCM）轉換成壓縮后的AAC格式數據流。

核心技術

AAC編碼器的核心在于其高效的壓縮算法，主要依賴以下幾個關鍵技術：

改進的離散余弦變換（MDCT）

MDCT是AAC的“大腦”，它負責將時域（聲音隨時間變化的波形）的音頻信號轉換到頻域（聲音由哪些頻率組成）。這個轉換過程非常關鍵，因為它為后續的心理聲學處理提供了基礎。

更長的窗長，更高的頻率分辨率：AAC使用了比MP3更長的MDCT窗長（1024或960點），這使得它在分析音頻信號時能夠將頻率劃分得更細致。更高的頻率分辨率意味著編碼器可以更精確地識別并量化每個頻率分量，特別是在處理平穩的音樂信號（如持續的和弦）時，能夠更好地利用心理聲學模型，去除人耳不易察覺的冗余信息，從而實現更高的壓縮效率和更好的音質。
動態的窗長切換，應對瞬態信號：然而，如果一直使用長窗，在處理突發性的瞬態信號（如鼓點的敲擊、鈸的撞擊）時，就會出現一個問題：預回聲（pre-echo）。這是因為長窗將瞬態信號的時間信息模糊化了，導致量化噪聲在瞬態信號之前就出現了，人耳很容易察覺到這種“提前”的噪聲，從而降低音質。為了解決這個問題，AAC編碼器會動態地將窗長切換到較短的尺寸（128或120點）。短窗提供了更好的時間分辨率，能夠更準確地捕捉瞬態信號的起始，有效避免了預回聲的產生。

心理聲學模型

AAC的心理聲學模型是其“耳朵”，它模擬了人耳的聽覺特性，決定哪些信息可以被丟棄或粗糙量化，哪些信息必須被精確保留。

聽覺掩蔽效應的精細利用：AAC的心理聲學模型不僅利用了同時掩蔽（一個強音信號掩蓋了同時出現的弱音信號），還能夠利用異時掩蔽（一個強音信號結束后，其掩蔽效應還會持續一小段時間）。通過更復雜的模型，AAC能夠更準確地計算出每個頻段的聽覺閾值，即人耳能夠察覺到的最小聲音響度。任何低于這個閾值的信號，都可以被安全地丟棄。
比特分配的優化：基于心理聲學模型計算出的聽覺閾值，AAC編碼器會進行一個復雜的比特分配過程。它會將有限的比特資源分配給那些對人耳更重要的頻率分量，而對那些掩蔽效應強的部分，則分配較少的比特。這是一種“好鋼用在刀刃上”的策略，確保在相同的比特率下，盡可能地保留最關鍵的聽覺信息。
時間噪聲整形（TNS）：為了進一步優化瞬態信號的編碼，AAC還引入了TNS技術。它通過對量化噪聲進行頻譜整形，使其在時域上集中在被掩蔽的區域內，從而減少量化噪聲對音質的負面影響。這進一步增強了AAC在處理復雜音樂時的表現。

高效的立體聲與多聲道編碼

AAC在處理多聲道音頻時，采用了更智能的策略來減少數據冗余。

聯合立體聲（Joint Stereo）：與MP3的“強度立體聲”相比，AAC的聯合立體聲技術更為先進。它不僅可以利用左右聲道之間的相似性，將它們編碼成一個“和信號”和一個“差信號”，只對差信號進行少量編碼，還可以通過**參數化立體聲（PS）**技術實現更極致的壓縮。
參數化立體聲 (PS)：這項技術主要應用于HE-AAC v2中，針對極低比特率的流媒體場景。PS編碼器不再傳輸完整的兩個聲道，而是將它們合并成一個單聲道，并附帶少量描述空間位置和寬度的參數。解碼器收到這些參數后，會在解碼端“重建”出立體聲效果。雖然這種方式會損失一些空間感和定位精度，但在帶寬受限的情況下，它能夠以極小的代價提供可接受的立體聲體驗。

頻段復制技術 (SBR)

頻段復制（SBR） 是HE-AAC的核心技術，它專門為低比特率流媒體而設計，是AAC與AAC+（HE-AAC）的主要區別。

工作原理：SBR的工作原理非常巧妙。在編碼時，它只對音頻信號的低頻部分進行完整的AAC-LC編碼，而將高頻部分（人耳聽覺的另一關鍵部分）的能量包絡和少量參數信息提取出來，作為“元數據”進行傳輸。解碼器收到數據后，會根據低頻信號重構出高頻部分，并用元數據對這個重構的高頻信號進行調整。
優勢：這種方法極大地節省了比特率。例如，一個原本需要96 kbps的完整AAC文件，通過SBR技術，可能只需要64 kbps甚至更低，就能實現幾乎相同的聽感。這使得HE-AAC在網絡廣播和移動流媒體等低帶寬場景中具有無可比擬的優勢。

主要類型

AAC標準由Fraunhofer IIS、杜比實驗室、AT&T、索尼和諾基亞等多家公司共同開發，并被國際標準化組織（ISO）和國際電工委員會（IEC）采納為MPEG-2和MPEG-4標準的一部分。隨著技術的發展，AAC編碼器也演變出了多個不同的配置和版本，以適應不同的應用需求。

AAC-LC (Low Complexity)：這是最基礎和最常見的AAC配置，在多數消費電子產品中被廣泛使用，比如iTunes、YouTube和大多數藍牙音頻設備。它在音質和編碼效率之間取得了很好的平衡。
HE-AAC (High-Efficiency AAC)：又稱AAC+，它是在AAC-LC的基礎上加入了**SBR（Spectral Band Replication，頻段復制）**技術。SBR編碼器在低比特率下只傳輸低頻信息，而高頻信息則在解碼端通過算法重構出來，這使得HE-AAC在極低的比特率下（如64 kbps以下）依然能保持較好的音質，非常適合流媒體和廣播應用。
HE-AAC v2 (Extended HE-AAC)：在HE-AAC的基礎上，又增加了**PS（Parametric Stereo，參數化立體聲）**技術。PS編碼器不再編碼完整的左右聲道，而是將它們混合成一個單聲道，并附加少量參數信息來描述立體聲效果。這進一步提升了在極低比特率下的壓縮效率，但可能會損失一些空間感。
xHE-AAC (Extended High-Efficiency AAC)：這是最新的AAC版本，集成了SBR和PS技術，并加入了USAC（Unified Spee

主流AAC編碼器

不同的廠商和開發者都推出了自己的AAC編碼器實現。盡管都遵循AAC標準，但它們在編碼效率、音質、速度和功能上存在差異。以下是幾個主流的AAC編碼器：

Fraunhofer FDK AAC：這是由Fraunhofer IIS（AAC的主要開發者之一）提供的開源編碼器，被認為是目前性能最好的AAC編碼器之一。它在音質和壓縮效率方面表現出色，被廣泛集成到Android等操作系統中。
Apple AAC (CoreAudio)：蘋果公司自己的AAC編碼器，以其在編碼速度和音質上的優異表現而聞名。iTunes、QuickTime和所有蘋果設備都使用它進行編碼和解碼。
Nero AAC Encoder：曾被認為是音質最好的AAC編碼器之一，尤其是在中高比特率下。雖然現在更新較少，但在音頻愛好者中仍有很高的聲望。
libfaac：一個較老的、免費的AAC編碼器，在早期曾被廣泛使用，但其編碼質量和效率已不如FDK AAC等新一代編碼器。
FFmpeg 內置的AAC編碼器：FFmpeg項目包含了多種AAC編碼器，但其內置的FFmpeg AAC（或稱為libavcodec）編碼質量相對一般，通常推薦使用它集成的FDK AAC編碼器。

優勢與應用場景

AAC編碼器相比MP3具有多方面的優勢：

更高的編碼效率和更好的音質

在相同的比特率下，AAC的音質通常優于MP3。這得益于其更復雜的心理聲學模型、更長的MDCT窗長以及更靈活的聲道處理方式。例如，在96 kbps的立體聲編碼下，AAC的音質普遍被認為優于128 kbps的MP3。

更強的靈活性

采樣率范圍廣：AAC支持從8 kHz到96 kHz的多種采樣率，而MP3的范圍較窄。
聲道數支持多：AAC支持多達48個聲道，遠超MP3的5.1聲道限制，使其在環繞聲電影、電視廣播等領域有更廣闊的應用。

廣泛的兼容性

雖然MP3的普及度更高，但AAC在現代設備和平臺中已經得到了廣泛支持。它被蘋果的iTunes/Apple Music、YouTube、任天堂、索尼游戲機、以及大多數智能手機和藍牙設備作為默認或主要音頻格式。

應用場景

流媒體服務：Netflix、YouTube等視頻網站廣泛使用AAC來壓縮音軌，以提供高音質的同時節省帶寬。
數字廣播：數字音頻廣播（DAB）和移動電視標準（如DVB-H）都將HE-AAC作為其音頻編碼標準。
無線音頻：藍牙設備（如AirPods）通常使用AAC編碼來傳輸音頻，特別是在與蘋果設備連接時。
移動應用：iOS和Android系統都原生支持AAC，這使其成為移動應用開發中的常用音頻格式。

總結

總的來說，AAC編碼器通過結合先進的心理聲學模型和時頻變換技術，成功地在音質、壓縮效率和功能性上超越了其前身MP3。它的多樣化配置（LC, HE, xHE）使其能夠適應從高品質音樂到極低比特率流媒體的各種場景。盡管MP3由于其歷史悠久而擁有廣泛的兼容性，但AAC編碼器憑借其卓越的性能，已成為現代數字音頻領域的主流和首選。