視頻中的“幀”是指一張圖片,那么在音頻中,“幀”的含義就完全不同了。理解音頻中的“幀”概念,對做音視頻處理、流媒體開發非常關鍵。
一、聲音是怎么采集的?
音頻采集是指通過麥克風等設備捕捉周圍環境中的聲波,并將其轉換為電信號,再通過模數轉換器(ADC)將這些模擬電信號轉換為數字信號的過程。這樣,計算機就能對音頻數據進行處理、存儲或傳輸。
簡單理解下:
1、聲音的產生
麥克風是采集到周圍環境中的聲音。那聲音是怎么產生的?實際上,聲音是由振動產生的。人說話是通過聲帶產生了對周圍的空氣的振動;走路等運動也會根據幅度等因素產生不同等級的振動;各種振動混合造成了我們周圍的聲音。
2、聲音數據怎么傳輸和存儲
麥克風獲取到周圍的聲音后,通過電信號的方式來標識采集到的數據。為了將數據在網絡中進行傳輸,需要借助模數轉化器,將模擬信號轉化為數字信號,這樣就可以在網絡中傳輸了。
3、聲音的存儲
此時接收端收到的音頻數據就是123456…這樣的數字。實際上是一個非常大的浮點數組,對這些數據進行不同格式編碼(wav,mp3等),在保存到磁盤上。
4、聲音數據播放
存儲的音頻文件通過數模轉換器(DAC)轉換回模擬信號。在將模擬信號放大并通過揚聲器或耳機等設備轉換成聲波,人耳就可以聽到了。
二、采樣率是什么?
采樣率指的是每秒鐘從連續信號中提取并組成離散信號的樣本數量,通常以赫茲(Hz)為單位表示。例如,44.1kHz意味著每秒采集44,100個樣本。
根據奈奎斯特定理,為了準確地重建原始音頻信號而不產生混疊失真,采樣率至少需要是最高音頻頻率的兩倍。對于人類聽覺范圍(大約20Hz到20kHz),常用的CD質量音頻采樣率為44.1kHz。
三、音頻中的幀是什么?
在音頻處理中,“幀”通常指的是一組樣本集合,這些樣本可能來自單聲道或多聲道。幀的概念主要用于編碼和解碼過程中,作為最小處理單元。它不像視頻幀那樣是“圖像”,而是一段短時間內的聲音數據。
公式:
- 一個音頻幀 = 所有聲道在一個時間點上的采樣值。
- 每個音頻幀包含:- 采樣數(samples per frame)- 聲道數(channels)
假設你有一個立體聲(2聲道)音頻,每個音頻幀包含1024個采樣點:
- 那么這個幀中就有:1024 × 2 = 2048個采樣值
- 左右聲道各 1024 個采樣
幀的作用:
不同的音頻編碼格式可能有不同的幀大小。幀不僅包含音頻樣本數據,還可能包括用于同步、錯誤檢測等功能的額外信息。
擴展一下:
位深度(Bit Depth)是什么?
位深度決定了每次采樣所用的數據位數,直接影響到音頻動態范圍的大小。常見的位深度有16位、24位等。較大的位深度允許更大的動態范圍和更低的噪音底。
比特率是什么?
比特率指的是每秒鐘音頻數據的傳輸速率。對于未壓縮音頻格式,比如WAV,比特率由采樣率、位深度和通道數決定。例如,CD質量的音頻具有44.1kHz的采樣率、16位的位深度和2個聲道(立體聲),其比特率為 44100×16×2=1411.2 kbps。
公式:
比特率 = 采樣率 × 位深度 × 聲道數
提高任意一個參數(比特率、采樣率或位深度)都可以提升音頻的質量,但這也會增加文件的大小。
簡單來說,比特率越高,音質也就越好。
四、音頻幀和時間的關系
音頻幀并不是以“每秒多少幀”來衡量的(像視頻那樣),而是通過采樣率(Sample Rate)和每幀的采樣數(Samples Per Frame)來計算它的持續時間。
計算公式:
示例:
- 采樣率 = 48000 Hz(即每秒采集48000個樣本)
- 每幀采樣數 = 1024
那么一幀音頻的時長為:
也就是說,每一幀音頻大約持續21ms。
簡單理解下:
假如你用麥克風采集了10秒的音頻數據,采樣率是48000Hz,幀的大小為1024。
那么這10秒內,每秒采集48000個采樣值,10秒共采集480000個采樣值。每秒包含48000/1024≈46.8個幀。音頻的處理通常都是按照幀的大小來處理的。
五、常見音頻幀大小(采樣數)
不同編碼格式或協議中,每幀的采樣數可能不同:
六、音頻幀的重要性?
1、同步音視頻:
- 視頻通常是以固定幀率(如25 FPS)播放;
- 音頻則按幀的時間長度進行對齊,才能與視頻同步。
2、網絡傳輸:
- 在RTMP、RTP等流媒體協議中,音頻是以幀為單位打包發送的;
- 每幀對應一定時間的聲音,便于控制延遲和緩沖。
3、音頻編碼/解碼:
- 多數音頻編碼器(如FFmpeg中的aac, opus)都要求輸入的是完整的音頻幀;
- 如果數據不夠一幀,就不能編碼。
七、類比理解(視頻 vs 音頻)
八、總結
音頻采集是一個將聲波轉換為數字信號的過程,其中采樣率決定了信號的質量,而幀則是在編碼和解碼過程中使用的結構化數據單元。要播放采集的數據,需先通過DAC將數字信號轉回模擬信號,再通過物理設備如揚聲器播放出來。理解幀和采樣率的作用有助于更好在聲音領域的相關研發。
向陽而生,Dare To Be!!!