音頻中采樣率和幀是什么？怎么理解？

視頻中的“幀”是指一張圖片，那么在音頻中，“幀”的含義就完全不同了。理解音頻中的“幀”概念，對做音視頻處理、流媒體開發非常關鍵。

一、聲音是怎么采集的？

音頻采集是指通過麥克風等設備捕捉周圍環境中的聲波，并將其轉換為電信號，再通過模數轉換器（ADC）將這些模擬電信號轉換為數字信號的過程。這樣，計算機就能對音頻數據進行處理、存儲或傳輸。

簡單理解下：
1、聲音的產生
麥克風是采集到周圍環境中的聲音。那聲音是怎么產生的？實際上，聲音是由振動產生的。人說話是通過聲帶產生了對周圍的空氣的振動；走路等運動也會根據幅度等因素產生不同等級的振動；各種振動混合造成了我們周圍的聲音。
2、聲音數據怎么傳輸和存儲
麥克風獲取到周圍的聲音后，通過電信號的方式來標識采集到的數據。為了將數據在網絡中進行傳輸，需要借助模數轉化器，將模擬信號轉化為數字信號，這樣就可以在網絡中傳輸了。
3、聲音的存儲
此時接收端收到的音頻數據就是123456…這樣的數字。實際上是一個非常大的浮點數組，對這些數據進行不同格式編碼（wav,mp3等），在保存到磁盤上。
4、聲音數據播放
存儲的音頻文件通過數模轉換器（DAC）轉換回模擬信號。在將模擬信號放大并通過揚聲器或耳機等設備轉換成聲波，人耳就可以聽到了。

二、采樣率是什么？

采樣率指的是每秒鐘從連續信號中提取并組成離散信號的樣本數量，通常以赫茲（Hz）為單位表示。例如，44.1kHz意味著每秒采集44,100個樣本。
根據奈奎斯特定理，為了準確地重建原始音頻信號而不產生混疊失真，采樣率至少需要是最高音頻頻率的兩倍。對于人類聽覺范圍（大約20Hz到20kHz），常用的CD質量音頻采樣率為44.1kHz。

三、音頻中的幀是什么？

在音頻處理中，“幀”通常指的是一組樣本集合，這些樣本可能來自單聲道或多聲道。幀的概念主要用于編碼和解碼過程中，作為最小處理單元。它不像視頻幀那樣是“圖像”，而是一段短時間內的聲音數據。

公式：

- 一個音頻幀 = 所有聲道在一個時間點上的采樣值。
- 每個音頻幀包含：- 采樣數（samples per frame）- 聲道數（channels）

假設你有一個立體聲（2聲道）音頻，每個音頻幀包含1024個采樣點：

那么這個幀中就有：1024 × 2 = 2048個采樣值
左右聲道各 1024 個采樣

幀的作用：
不同的音頻編碼格式可能有不同的幀大小。幀不僅包含音頻樣本數據，還可能包括用于同步、錯誤檢測等功能的額外信息。

擴展一下：
位深度（Bit Depth）是什么？
位深度決定了每次采樣所用的數據位數，直接影響到音頻動態范圍的大小。常見的位深度有16位、24位等。較大的位深度允許更大的動態范圍和更低的噪音底。
比特率是什么？
比特率指的是每秒鐘音頻數據的傳輸速率。對于未壓縮音頻格式，比如WAV，比特率由采樣率、位深度和通道數決定。例如，CD質量的音頻具有44.1kHz的采樣率、16位的位深度和2個聲道（立體聲），其比特率為 44100×16×2=1411.2 kbps。
公式：
比特率 = 采樣率 × 位深度 × 聲道數
提高任意一個參數（比特率、采樣率或位深度）都可以提升音頻的質量，但這也會增加文件的大小。
簡單來說，比特率越高，音質也就越好。

四、音頻幀和時間的關系

音頻幀并不是以“每秒多少幀”來衡量的（像視頻那樣），而是通過采樣率（Sample Rate）和每幀的采樣數（Samples Per Frame）來計算它的持續時間。

計算公式：
在這里插入圖片描述
示例：

采樣率 = 48000 Hz（即每秒采集48000個樣本）
每幀采樣數 = 1024

那么一幀音頻的時長為：
在這里插入圖片描述
也就是說，每一幀音頻大約持續21ms。

簡單理解下：
假如你用麥克風采集了10秒的音頻數據，采樣率是48000Hz，幀的大小為1024。
那么這10秒內，每秒采集48000個采樣值，10秒共采集480000個采樣值。每秒包含48000/1024≈46.8個幀。音頻的處理通常都是按照幀的大小來處理的。

五、常見音頻幀大小（采樣數）

不同編碼格式或協議中，每幀的采樣數可能不同：
在這里插入圖片描述

六、音頻幀的重要性？

1、同步音視頻：

視頻通常是以固定幀率（如25 FPS）播放；
音頻則按幀的時間長度進行對齊，才能與視頻同步。

2、網絡傳輸：

在RTMP、RTP等流媒體協議中，音頻是以幀為單位打包發送的；
每幀對應一定時間的聲音，便于控制延遲和緩沖。

3、音頻編碼/解碼：

多數音頻編碼器（如FFmpeg中的aac, opus）都要求輸入的是完整的音頻幀；
如果數據不夠一幀，就不能編碼。

七、類比理解（視頻 vs 音頻）

在這里插入圖片描述

八、總結

音頻采集是一個將聲波轉換為數字信號的過程，其中采樣率決定了信號的質量，而幀則是在編碼和解碼過程中使用的結構化數據單元。要播放采集的數據，需先通過DAC將數字信號轉回模擬信號，再通過物理設備如揚聲器播放出來。理解幀和采樣率的作用有助于更好在聲音領域的相關研發。

向陽而生，Dare To Be！！！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/87742.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/87742.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/87742.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！