什么是音頻?

引言:聲音的本質

什么是音頻?振動與感知

音頻,在其最核心的層面,即是我們通常所說的聲音。它起源于物體的振動。這些振動擾動了其周圍的介質(例如空氣或水),在介質中產生了微小的壓力變化,這些壓力變化以波的形式傳播開來。當這些壓力波到達我們的耳朵時,耳內的復雜機制會探測到這些變化,并將其轉換成神經信號,我們的大腦隨后將這些信號解讀為聲音。正如一段簡練的描述所言:“普遍物體的振動形成聲波,即聲音”。

這種對音頻物理基礎的理解至關重要,因為它揭示了音頻并非一個抽象概念,而是一種可觸可感的物理現象。所有我們聽到的聲音,本質上都是空氣(或其他介質)的壓力變化以不同的速率撞擊我們的耳朵。這一基本原理構成了所有音頻技術的基礎。無論是麥克風的設計(旨在捕捉這些壓力變化),還是揚聲器的構造(旨在重現這些變化),乃至各種音頻存儲方法(如模擬唱片的凹槽、磁帶上的磁性圖案,或數字文件中的采樣數據),都是對這一物理現實進行操控或再現的嘗試。因此,音頻技術的整個領域,從根本上說,是建立在對這種物理過程的理解和互動之上的。它不僅僅關乎抽象的信號處理,更是對真實世界物理事件的精確表達與重塑。這意味著,在捕捉或再現這些物理事件過程中的任何局限性,例如麥克風的靈敏度不足或揚聲器的頻率響應范圍有限,都會直接影響最終感知到的音頻質量。

聲音的物理特性

image.png

聲波:傳播的能量

聲音以聲波的形式傳播,這是一種能量的傳播方式。聲波屬于縱向波,意味著介質中的粒子(如空氣分子)的振動方向與波的傳播方向平行。聲波由一系列的壓縮區(高壓區)和稀疏區(低壓區)組成,交替向前推進。理解聲音是作為波傳播的能量,有助于解釋波長、聲速等概念,以及聲音如何與環境相互作用(如反射、吸收)。

核心要素

聲音的特性可以通過幾個核心物理要素來描述,它們共同決定了我們聽到的聲音的特性。

頻率 (Frequency) 與 音調 (Pitch)

頻率是指聲壓波每秒鐘重復振動的次數,其單位是赫茲 (Hz)。我們感知到的頻率即為音調的高低;頻率越高,音調越高,反之,頻率越低,音調則越低沉。例如,鼓聲的頻率遠低于哨聲。更具體地說,“聲波的頻率越高(音調越高),我們聽起來的聲音就越高音”。頻率是描述聲音的一個基本參數,直接影響我們對音樂和環境聲音的感知,并且是音頻處理(如均衡器調整)中的一個關鍵參數。

振幅 (Amplitude) 與 響度 (Loudness)

振幅是指聲波的相對強度或波動幅度,我們將其感知為聲音的響度或音量。振幅通常用分貝 (dB) 來衡量。聲波的振幅越大,我們感知到的聲音就越大。例如,用力撥動吉他弦會使其振動幅度更大,從而產生更大的振幅和更響亮的聲音。值得注意的是,分貝是一個對數標度,這意味著響度的感知變化與聲能的絕對變化不成線性關系。振幅決定了聲音的感知強度,這對于從日常交流到音樂動態表現乃至聽力保護都至關重要。

波長 (Wavelength) 與 聲速 (Velocity)

波長是指一個完整的波形(例如,從一個壓縮區中心到下一個壓縮區中心)所傳播的距離。聲速則是聲波在特定介質中每秒傳播的距離,它會因介質的種類和狀態(如溫度、密度)而變化。這三個物理量之間存在固定的關系:聲速等于頻率乘以波長。波長在聲學中非常重要,它影響聲音如何與物體和空間相互作用,例如,長波長的低頻聲音更容易繞過障礙物。

相位 (Phase)

相位描述了一個聲波相對于另一個聲波在時間上的起始位置或同步狀態。這是一個非常關鍵的概念,因為當多個聲波相遇時,它們的相位關系會決定它們是相互增強(同相疊加)還是相互抵消(反相疊加)。例如,如果兩個麥克風從不同距離拾取同一個聲源,它們接收到的信號可能會因相位差異而導致某些頻率成分的抵消,從而改變最終錄制的聲音效果。在多麥克風錄音、揚聲器擺位以及某些音頻效果(如移相器)的應用中,對相位的理解和控制至關重要。

這些聲波的物理特性——頻率、振幅、波長和相位——并非孤立存在,而是內在關聯并共同定義了一個聲音事件。更重要的是,每一個物理特性都有其直接且通常直觀的感知對應物:頻率對應音調,振幅對應響度。在更復雜的場景中,例如我們感知聲音的空間位置,很大程度上依賴于聲音到達雙耳時的微小相位差異。同樣,當不同相位的聲波疊加時,它們會發生相長干涉(聲音變大)或相消干涉(聲音變小甚至消失)。因此,對“音頻”的完整理解不僅需要掌握單個屬性,還需要理解它們如何物理地相互作用,以及這些互動如何塑造我們的聽覺感知。

雖然頻率主要決定音調,振幅主要決定響度,但聲音獨特的“質感”或“色彩”,即音色(Timbre),則源于基頻及其一系列泛音(諧波)的復雜組合,包括這些泛音的相對振幅和相位關系。這就是為什么鋼琴和小提琴以相同的音高和響度演奏同一個音符時,我們依然能夠輕易區分它們。一個單一頻率的聲音被稱為純音,例如音叉發出的聲音。然而,現實世界中的大多數聲音,尤其是樂器的聲音,都是由一個基準頻率(決定了音符的音高)和一系列頻率更高、振幅各異的泛音疊加而成的復雜波形。正是這些泛音的特定組合及其相對強度和相位,構成了特定樂器或人聲獨特的波形結構,從而產生了其特有的音色。因此,音色并非單一的物理屬性,而是整體波形結構(由多種頻率、振幅和相位關系構成)所產生的感知結果。這也解釋了為何音色常被認為由聲源的材料和結構決定,因為這些物理特性直接影響了物體可能的振動模式,進而決定了其泛音的構成。

人耳的聆聽:我們如何感知聲音

聽覺范圍:赫茲與分貝

人類的聽覺系統對聲音的感知有一定的范圍限制。在頻率方面,聽力正常的人通常可以聽到大約 20 Hz 到 20,000 Hz (即 20 kHz) 范圍內的聲音。低于 20 Hz 的聲音被稱為次聲波 (Infrasound),而高于 20,000 Hz 的聲音則被稱為超聲波 (Ultrasound)。有趣的是,嬰兒的聽覺上限可以略高于 20 kHz,但這種能力通常會隨著年齡的增長而下降。

在響度方面,人類聽覺的動態范圍通常從 0 dB(可聽閾,即人耳能察覺到的最微弱聲音的水平)開始,一直延伸到大約 120-130 dB(痛閾,超過此水平的聲音會引起不適甚至疼痛)。了解這些聽覺極限對于音頻工程(例如,設計能夠再現可聽頻率范圍的設備)、心理聲學(例如,為音頻壓縮建立聽覺模型)以及聽力保護都至關重要。

響度感知與聲音安全

分貝標度是一個對數標度,這意味著聲強增加十倍,感知到的響度大約增加一倍(約增加 10 dB)。一般而言,持續暴露在 70 dB 或以下的聲音環境中被認為是安全的。然而,長時間暴露在 85 dB 以上的聲音中則可能導致聽力損傷。例如,美國環境保護署 (EPA) 和世界衛生組織 (WHO) 均建議,為避免聽力受損,應將 24 小時內的平均噪音暴露量控制在 70 dBA 以下;而 85 dBA 則被認為是職業噪音暴露 8 小時的上限閾值。每當聲音強度增加 3 dB,其能量就增加一倍,相應的安全暴露時間則減半。這些知識對于公共衛生、職業安全以及培養健康的個人聆聽習慣以預防噪音性聽力損失至關重要。

盡管音頻技術力求實現標準化的測量和再現(例如,統一的頻率響應曲線、分貝等級),但人類的實際聽覺感知卻具有主觀性,并且因年齡、健康狀況和個體差異而顯著不同。例如,“正常”的人類聽覺頻率范圍是 20 Hz 到 20 kHz,但這個上限會隨著年齡增長而降低,也會受到噪音暴露的影響。聽力測試通常關注 250 Hz 到 8000 Hz 的頻率范圍,因為這個范圍對理解語音至關重要。音頻設備通常被設計為覆蓋 20 Hz 到 20 kHz 的范圍,音頻內容也基于這些通用能力進行混音和母帶處理。然而,一位年長者可能無法感知到年輕人或音頻工程師刻意營造的 14 kHz 以上的高頻“空氣感”。這揭示了音頻的客觀技術規格與其主觀接收之間可能存在的差異,并強調了聽力保護的重要性,以維持感知預期音頻的能力。

采用對數標度的分貝 (dB) 來衡量聲音強度并非偶然,它深刻反映了人類感官(包括聽覺)感知刺激強度的方式。我們對響度變化的感知更接近對數關系而非線性關系。這意味著,在高聲壓級時,需要聲功率有更大的變化才能產生與低聲壓級時相同的感知響度增量。例如,從 10 dB 增加到 20 dB 所感知到的響度變化,遠比從 100 dB 增加到 110 dB 所感知到的變化更為顯著,盡管后者的絕對聲功率增量要大得多。這種特性與心理物理學中的韋伯-費希納定律或史蒂文斯冪定律所描述的人類感官特性相符。因此,分貝標度是一種實用且與感知高度相關的量化聲音級別的方法,它使測量系統與我們的實際響度體驗相一致,這對于音頻工程師進行有意義的音量和動態調整至關重要。

音頻的記錄與再現:從模擬到數字

聲音的捕獲和重放技術經歷了從模擬到數字的重大變革,每種方式都有其獨特的原理和特點。

模擬音頻:連續的信號

模擬錄音技術將聲音作為連續變化的波形記錄在物理介質上。這些信號被直接存儲在介質之中或其表面,例如,黑膠唱片上刻錄的物理凹槽,或是磁帶上磁場強度的波動。因此,模擬信號是聲波的一種連續、平滑的物理表征。

模擬磁帶錄音在第二次世界大戰后隨著德國磁帶錄音機 (Magnetophon) 的出現而興起,并迅速成為主流。它相較于當時的醋酸鹽盤錄音,提供了更長的錄音時間(超過30分鐘)和前所未有的編輯能力,首次使得音頻可以被后期處理和操控。吉他手萊斯·保羅 (Les Paul) 在此基礎上進一步推動了多軌錄音技術的發展,使得錄音從最初的雙軌逐步發展到 24 軌甚至更多,并在 20 世紀 70 年代和 80 年代成為專業錄音棚的標準配置。模擬錄音過程通常涉及磁頭將音頻電信號轉換為變化的磁場,從而磁化涂覆在聚酯薄膜帶基上的氧化鐵顆粒,以此“捕獲”聲音信號。模擬音頻因其特有的“溫暖感”而受到一些人的喜愛,但這通常與其固有的非線性和失真特性有關,同時也易受物理磨損和環境因素影響而發生信號衰減。

數字音頻:離散的表達

與模擬音頻的連續性不同,數字音頻通過采樣 (Sampling) 和量化 (Quantization) 這兩個核心過程,將連續的聲音信號轉換成離散的數值數據,通常以二進制的0和1來表示。它不再是連續的波形,而是代表原始音頻波形在特定時間點上的一系列離散數值。這種從連續到離散的轉變是數字音頻的根本特征,也是理解后續如采樣率、位深度等關鍵概念的基礎。

數模轉換 (ADC) 與模數轉換 (DAC)

在數字音頻系統中,模擬到數字轉換器 (Analog-to-Digital Converter, ADC) 和數字到模擬轉換器 (Digital-to-Analog Converter, DAC) 扮演著至關重要的角色。ADC 負責將來自麥克風或其他聲源的連續模擬聲波,通過在規律的時間間隔內進行“采樣”(測量),轉換成離散的數字數據流。反之,DAC 則執行相反的過程,它將存儲或處理后的數字音頻數據轉換回連續的模擬電信號,這個信號隨后可以被放大并驅動揚聲器或耳機,從而重放出聲音。ADC 和 DAC 是連接真實世界的模擬聲音與虛擬世界的數字處理和存儲之間的關鍵橋梁,它們的性能好壞直接影響最終音頻的保真度。

關鍵概念
  • 采樣率 (Sampling Rate) 采樣率是指在一秒鐘內對模擬音頻信號進行采樣(即測量)的次數,單位是赫茲 (Hz)。采樣率越高,意味著對原始聲波的捕捉越頻繁,從而能夠更精確地記錄音頻波形,尤其是高頻部分的信息。常見的采樣率包括 44.1 kHz(CD 音質標準)、48 kHz(常用于數字視頻和專業音頻制作)以及 96 kHz 或更高(用于高解析度音頻)。

    根據奈奎斯特定理(Nyquist Theorem),為了無失真地再現某一特定頻率的聲音,采樣率必須至少是該頻率的兩倍。因此,一個采樣系統能夠記錄的最高音頻頻率(稱為奈奎斯特頻率)是其采樣率的一半。例如,44.1 kHz 的采樣率能夠記錄最高約 22.05 kHz 的音頻,這恰好覆蓋了人類的平均聽覺上限。

    如果在采樣過程中,輸入信號中包含了高于奈奎斯特頻率的成分,這些高頻成分會被錯誤地表現為原始信號中不存在的較低頻率,這種現象被稱為混疊 (Aliasing)。混疊會產生聽得見的失真,聽起來像是奇怪的、非音樂性的諧波。為防止混疊,ADC 在采樣前通常會使用抗混疊濾波器(一種低通濾波器)來濾除高于奈奎斯特頻率的信號成分。采樣率的選擇直接決定了數字音頻系統能夠捕捉的最高頻率,而奈奎斯特定理是數字音頻領域的一塊基石。

  • 位深度 (Bit Depth) 位深度是指用多少個二進制位 (bit) 來表示每一個音頻樣本的振幅值,它決定了聲音記錄的精度或“分辨率”。位深度直接影響了數字音頻的動態范圍(即最輕柔聲音和最響亮聲音之間的差距)以及本底噪聲(即系統固有的背景噪聲水平)。每增加一個比特的位深度,理論上動態范圍大約增加 6 dB。例如,16 位位深度可以表示 216(即 65,536)個不同的振幅級別,其理論動態范圍約為 96 dB。常見的位深度有 16 位(CD 音質標準)、24 位(廣泛用于專業音頻錄制和處理,提供約 144 dB 的動態范圍)和 32 位浮點(用于需要極高精度和極大動態范圍的場合)。更高的位深度意味著對每個樣本振幅的描述更精確,能夠記錄更細微的響度變化,并擁有更低的噪聲基底。

  • 比特率 (Bit Rate) 比特率是指每秒鐘處理或傳輸的數據量(比特數),通常以千比特每秒 (kbps) 或兆比特每秒 (Mbps) 為單位。對于未經壓縮的數字音頻(如 PCM 編碼的 WAV 文件),比特率可以通過以下公式計算得出:采樣率 × 位深度 × 聲道數。例如,一個雙聲道、采樣率為 44.1 kHz、位深度為 16 位的 CD 音質音頻,其比特率約為 1411.2 kbps。而對于經過壓縮的音頻格式(尤其是有損壓縮格式如 MP3),比特率則表示壓縮后的數據流速率,是衡量其音質的一個重要指標,比特率越高通常意味著保留的原始信息越多,音質越好。比特率對于理解音頻文件的大小以及在線流媒體的帶寬需求至關重要。

關于模擬音頻與數字音頻孰優孰劣的爭論由來已久,但這個問題往往被過度簡化。兩者各有其理論上的優勢和實際應用中的局限性。高質量的數字音頻能夠實現極其精確的聲音再現,而模擬音頻則常因其“溫暖”的特質受到贊譽,這種“溫暖感”部分源于其固有的非線性特性和一些聽者認為悅耳的失真(例如磁帶飽和)。數字音頻提供了精確性、便捷的編輯能力以及播放時無信號衰減的優點。然而,早期或質量欠佳的數字音頻系統可能會引入可聞的失真,如量化噪聲或混疊效應。實際上,“聲音本身是模擬的。模擬和數字聲音之間沒有本質區別,只有正確和不正確的聲音之分。數字聲音可以被正確地再現,而模擬聲音則帶有錄音介質的局限性”。最終的選擇往往取決于工作流程的需求、期望的音色美學以及所用設備的具體質量,而非某種格式固有的絕對優越性。現代數字技術甚至可以模擬出模擬設備的特性。

數字音頻參數(如采樣率和位深度)的選擇并非隨意的,它們代表了在保真度與數據量之間,依據人類感知極限所做出的權衡。例如,CD 音質采用 44.1 kHz 的采樣率和 16 位的位深度,這是經過精心設計的工程折衷:44.1 kHz 的采樣率根據奈奎斯特定理,足以捕捉高達約 22.05 kHz 的頻率,略高于人類的平均聽覺上限(約 20 kHz)。16 位的位深度提供了約 96 dB 的理論動態范圍,這能夠覆蓋大多數音樂的動態起伏,并且在許多聆聽環境下其本底噪聲也低于環境噪聲。更高的參數,如 96 kHz 采樣率和 24 位位深度,雖然在理論上能提供更高的保真度(例如,捕捉超聲波頻率,進一步降低混疊失真,提供更大的動態范圍和更低的噪聲基底),但也帶來了顯著增加的數據存儲和傳輸開銷。對于普通聽眾在典型條件下,這些更高參數所帶來的感知益處可能并不明顯,但在專業錄音和混音過程中,它們能提供更大的處理裕度和更精細的細節捕捉能力。因此,“CD 音質”是在其時代技術條件下,為滿足多數人聽覺需求并兼顧數據管理可行性而取得的平衡點。而“高解析度音頻”則進一步提升這些參數,追求潛在的更高保真度,但伴隨著更高的數據成本。

音頻格式:存儲與傳輸的藝術

數字音頻在被存儲或傳輸之前,通常會被編碼成特定的文件格式。這些格式可以大致分為三類:無壓縮格式、無損壓縮格式和有損壓縮格式。

無壓縮格式 (如 WAV, AIFF)

無壓縮音頻格式直接存儲原始的數字音頻數據,通常是脈沖編碼調制 (Pulse Code Modulation, PCM) 數據,不經過任何壓縮處理。這使得它們能夠提供最高的音頻保真度,完全保留了錄制時的所有細節。然而,代價是文件體積非常龐大。WAV (Waveform Audio File Format) 是在 Windows 平臺上非常常見的無壓縮格式,而 AIFF (Audio Interchange File Format) 則多用于 macOS 系統。AIFF 格式采用分塊結構,能支持更豐富的元數據(如音軌名稱、版權信息等),而 WAV 結構相對簡單,但兼容性更廣。由于其高保真特性,無壓縮格式是專業音頻制作流程中(如錄音、編輯、母帶處理)的首選,以確保在最終壓縮輸出前保留最佳音質。

無損壓縮格式 (如 FLAC, ALAC)

無損壓縮格式通過特定的算法減小音頻文件的體積,但與有損壓縮不同的是,它們在壓縮過程中不會丟棄任何原始的音頻信息。這意味著解壓縮后得到的音頻數據與壓縮前完全一致,音質沒有任何損失。FLAC (Free Lossless Audio Codec) 是一種開源的無損壓縮格式,因其高效的壓縮率(通常能將文件大小縮減至原始無壓縮文件的一半左右,同時保持音質不變)和廣泛的平臺支持而備受歡迎。ALAC (Apple Lossless Audio Codec) 則是蘋果公司開發的無損壓縮格式,主要用于其自家的生態系統(如 iTunes、iOS 設備)。盡管 FLAC 在壓縮效率和跨平臺兼容性上略優于 ALAC,但兩者在音質上是等同的。無損壓縮格式為那些既關注音質又希望節省存儲空間的音樂愛好者和檔案管理者提供了一個理想的平衡點。

有損壓縮格式 (如 MP3, AAC) 與心理聲學

有損壓縮格式通過永久性地移除一部分音頻數據來顯著減小文件體積。這種數據移除并非隨機進行,而是基于心理聲學 (Psychoacoustics) 模型。心理聲學研究人類聽覺系統感知聲音的方式和局限性,例如頻率掩蔽(一個響亮的聲音會使得其附近頻率的較輕聲音難以被察覺)和時間掩蔽(一個強音之后緊接著的弱音可能聽不見)等現象。有損壓縮算法利用這些原理,優先去除那些被認為人耳最不敏感或最不容易察覺的聲音成分,從而在盡可能保持可接受音質的前提下,最大限度地壓縮文件。

MP3 (MPEG-1 Audio Layer III) 是最早普及也是最為人熟知的有損壓縮格式,它徹底改變了音樂的存儲和分發方式。AAC (Advanced Audio Coding) 是作為 MP3 的后繼者而被設計的,通常在相同的比特率下能提供比 MP3 更好的音質,因此被蘋果公司以及許多流媒體服務所采用。有損壓縮格式因其極小的文件體積,極大地推動了便攜式音樂播放器和在線音樂流媒體的發展。

這三種主要的音頻格式類型——無壓縮、無損壓縮和有損壓縮——并非偶然形成,而是代表了在音頻保真度、存儲/傳輸效率以及感知影響這三個關鍵因素之間進行工程妥協后產生的一系列解決方案。無壓縮格式(如 WAV、AIFF)將絕對保真度置于首位,完整保存所有原始數據,但文件體積巨大。無損壓縮格式(如 FLAC、ALAC)則試圖在不損失任何音頻信息的前提下減小文件體積,實現了中等程度的壓縮。而有損壓縮格式(如 MP3、AAC)則以犧牲部分(理論上人耳不敏感的)數據為代價,優先追求文件體積的顯著減小,這不可避免地會帶來一定程度的音質損失,盡管在較高比特率下這種損失可能難以察覺。MP3 的出現正是為了滿足當時互聯網帶寬有限、便攜設備存儲空間小等技術瓶頸下的需求。專業音頻制作依然依賴無壓縮格式進行母帶處理,而音樂歸檔常采用無損格式,流媒體服務則主要使用有損格式。這清晰地表明,每種格式類型都是針對特定約束條件和目標的特定解決方案,不存在適用于所有情況的“最佳”格式,選擇總是在這些因素間進行權衡。

音頻格式的演變與存儲技術、處理器能力和互聯網帶寬等使能技術的進步緊密相連。從模擬錄音到數字化的無壓縮 PCM(如 CD),再到為適應早期互聯網和便攜設備限制而生的有損壓縮 MP3,每一步都反映了當時的技術水平。隨著存儲成本大幅下降、處理器速度飛快提升以及互聯網帶寬日益充裕,曾經迫使人們廣泛采用高強度有損壓縮的限制逐漸緩解。這使得對更高保真度格式的需求得以滿足,無損格式(如 FLAC)在發燒友中流行起來,流媒體服務也開始提供更高質量的有損編碼(如 AAC)乃至無損/高解析度音頻選項。這一歷程顯示,盡管心理聲學為有損壓縮提供了理論基礎,但其廣泛應用的需求是由當時的技術局限性驅動的。當這些局限性減弱時,人們對更高音質(更少或沒有“損失”)的偏好便能得到更廣泛的實現。

建議表格:常見音頻格式對比

為了更直觀地比較這些常見的音頻格式,下表總結了它們的主要特性:

特性 (Feature)WAVAIFFFLACALACMP3AAC
壓縮類型 (Compression Type)無壓縮 (Uncompressed)無壓縮 (Uncompressed)無損壓縮 (Lossless)無損壓縮 (Lossless)有損壓縮 (Lossy)有損壓縮 (Lossy)
音質 (Sound Quality)極佳 (Excellent)極佳 (Excellent)極佳 (Excellent)極佳 (Excellent)好/尚可 (Good/Fair)較好/好 (Better/Good)
文件大小 (File Size)非常大 (Very Large)非常大 (Very Large)中等/較大 (Medium/Large)中等/較大 (Medium/Large)小 (Small)小/較小 (Small/Smaller than MP3 at same quality)
主要用途 (Primary Use)專業制作、母帶 (Pro Production, Mastering)專業制作、母帶 (Pro Production, Mastering) (Apple生態)音樂存檔、高保真聆聽 (Archiving, Hi-Fi Listening)音樂存檔、高保真聆聽 (Archiving, Hi-Fi Listening) (Apple生態)便攜播放、流媒體 (Portable, Streaming)流媒體、Apple設備 (Streaming, Apple Devices)
元數據支持 (Metadata)有限 (Limited)較好 (Better than WAV)良好 (Good)良好 (Good)良好 (ID3 tags)良好 (Good)
兼容性 (Compatibility)廣泛 (Windows)較好 (macOS)廣泛 (Broad)Apple生態系統 (Apple Ecosystem)非常廣泛 (Very Broad)廣泛 (Broad, esp. Apple)

體驗音頻:聲道與沉浸感

我們體驗音頻的方式也隨著技術的發展而不斷演進,從單一的聲源感知到被聲音完全包圍的沉浸式體驗。

單聲道 (Mono) 與 立體聲 (Stereo)

單聲道 (Monophonic) 音頻使用單一的音頻通道進行錄制和播放。無論有多少個揚聲器,所有聲音聽起來都像是從同一個點發出的。這在早期的錄音和某些特定應用(如電話通話、某些公共廣播)中很常見。

立體聲 (Stereophonic) 音頻則使用兩個獨立的音頻通道(左聲道和右聲道)來錄制和播放聲音。通過這兩個通道傳送不同的聲音信息,并在兩個揚聲器(或耳機的左右單元)上播放,可以營造出聲音在聽者面前形成一定寬度和空間分布的感覺,聽者可以大致辨別出不同聲源的左右位置。因為人類擁有雙耳,立體聲能夠更好地模擬我們日常生活中感知聲音的方式,提供比單聲道更自然、更具空間感的聆聽體驗,因此已成為音樂聆聽的主流標準。

image.png

環繞聲 (Surround Sound) (如 5.1, 7.1 聲道)

傳統的環繞聲系統,如 5.1 聲道和 7.1 聲道,通過在聽者周圍布置多個揚聲器,進一步擴展了聲音的空間表現力。

  • 5.1 聲道 系統通常包含六個聲道:三個前置揚聲器(左前、中置、右前),兩個后置或側置環繞揚聲器(左環繞、右環繞),以及一個專門用于播放低頻效果 (Low-Frequency Effects, LFE) 的超低音揚聲器(即“.1”聲道)。中置聲道主要負責人聲對白,而環繞聲道則用于營造環境氛圍和表現來自側面或后方的聲音效果。

63050395108267403__zh-CHS__Original.jpg

  • 7.1 聲道 系統在 5.1 的基礎上增加了兩個額外的環繞聲道(通常是側環繞或后中置環繞),從而能夠提供更精確的聲音定位和更平滑的聲像移動,進一步增強包圍感。

54043199303969803__zh-CHS__Original.jpg

環繞聲技術極大地提升了電影、游戲等視聽娛樂的沉浸感,讓聽眾感覺仿佛置身于場景之中。

空間音頻與基于對象的音頻簡介 (如 Dolby Atmos, DTS:X)

空間音頻 (Spatial Audio) 和基于對象的音頻 (Object-Based Audio) 技術,如杜比全景聲 (Dolby Atmos) 和 DTS:X,是沉浸式音頻領域的最新進展,它們超越了傳統基于聲道的環繞聲概念。與預先將聲音混合到固定數量的聲道中不同,基于對象的音頻將每一個獨立的聲音元素(如一個人的腳步聲、一架飛機的轟鳴聲)視為一個“音頻對象”。這些對象攜帶著自身的音頻數據以及描述其在三維空間中精確位置和運動軌跡的元數據。在播放時,支持這些格式的音頻系統(如接收器或條形音箱)會實時解讀這些元數據,并根據實際可用的揚聲器配置(包括頂部揚聲器以實現高度感)來動態渲染這些音頻對象,從而在聽者周圍營造出一個包含高度信息的三維聲場。

從單聲道到立體聲,再到基于聲道的環繞聲,直至今日基于對象的空間音頻,音頻通道和播放方式的演進清晰地反映了人類對提升聽覺感知真實感和沉浸感的不懈追求。單聲道僅提供一個點聲源,這與我們擁有雙耳、能夠感知聲音空間方位的生理特性相去甚遠。立體聲的出現是一個重大進步,它通過兩個聲道在聽者面前構建了一個具有寬度和一定定位感的聲場,更好地模擬了我們的雙耳聽覺。基于聲道的環繞聲(如5.1、7.1)則將聲場擴展至聽者周圍的二維平面,增加了前后和側向的聲音線索,顯著增強了(尤其是在影院和家庭影院中)的包圍感。而基于對象的空間音頻(如杜比全景聲、DTS:X)則通過引入高度維度,并將聲音視為可在三維空間中任意定位和移動的獨立“對象”,將沉浸式體驗推向了新的高度。這一系列發展,其核心驅動力在于更有效地“欺騙”我們的大腦,使其將錄制的聲音環境感知為真實的物理空間。每一步都增加了更多的空間信息,從而帶來了更具包圍感和可信度的聽覺體驗,最終目標是讓聽者完全融入所聽內容之中。

基于對象的音頻技術代表了一種從依賴特定揚聲器布局到由內容定義空間體驗的范式轉變。傳統的基于聲道的音頻(如杜比數字、DTS),其混音結果與特定的揚聲器配置(例如,5.1聲道的混音針對5.1系統)緊密綁定。如果在揚聲器數量較少的系統上播放,需要進行“下混”;如果揚聲器數量更多,則可能無法充分利用所有揚聲器,或需要進行“上混”。相比之下,基于對象的音頻格式(如杜比全景聲、DTS:X)將聲音定義為包含三維位置元數據的“對象”。播放系統會實時“解碼”這些元數據,“以使其空間定位適應所部署的特定揚聲器陣列”。這意味著,無論聽眾擁有的是一套完整的 7.1.4 杜比全景聲系統,還是一臺支持該格式的普通條形音箱,創作者的藝術意圖(例如,直升機從頭頂飛過)都能得到保留和恰當的呈現。雖然不同配置下的精確度和沉浸感會有所不同,但核心的空間信息得到了有效的轉換。這標志著一個根本性的轉變:混音不再僅僅是一組揚聲器信號,而是對聲場景的描述,由播放系統根據自身能力進行解讀和再現,為內容創作者提供了更大的靈活性,也為消費者帶來了更具適應性的體驗。

結論:音頻的旅程

音頻的旅程,是從最基本的物理振動開始,通過人類巧妙的感知系統被賦予意義,再經由不斷發展的技術手段被捕捉、記錄、處理、存儲、傳輸和再現。我們已經探討了聲音作為壓力波的物理特性,如頻率、振幅、波長和相位,以及它們如何分別對應于我們感知到的音調、響度和音色。我們了解了人類聽覺的范圍和局限性,以及響度感知與聽力安全的重要性。

技術的發展引領我們從模擬時代邁入數字時代。模擬音頻以連續信號的形式記錄聲音,而數字音頻則通過采樣和量化將聲音轉換為離散的數字信息,其核心參數——采樣率和位深度——直接決定了數字音頻的保真度。為了有效地存儲和傳輸這些數字信息,各種音頻格式應運而生,從無壓縮的 WAV、AIFF,到無損壓縮的 FLAC、ALAC,再到廣泛應用的基于心理聲學模型的有損壓縮格式 MP3 和 AAC,它們在音質、文件大小和應用場景之間做出了不同的權衡。

最終,我們通過不同的聲道配置來體驗音頻,從簡單的單聲道、普遍的立體聲,到影院級的環繞聲,乃至當前最前沿的、能夠營造三維沉浸式聲場的空間音頻技術,如杜比全景聲和 DTS:X。

音頻在我們的生活中無處不在,它不僅是溝通交流的基礎,也是藝術表達、娛樂體驗和技術創新的重要載體。展望未來,音頻技術仍在不斷演進。人工智能 (AI) 正在音頻處理領域展現出巨大潛力,例如用于智能降噪、自動均衡、音源分離、音頻修復乃至音樂創作與生成。同時,空間音頻技術也在持續完善,致力于為用戶帶來更加逼真和個性化的沉浸式聽覺盛宴。

從最初對聲音物理本質的探索,到發展出能夠精確復制和創造性地操控聲音的復雜數字算法和沉浸式播放系統,整個音頻技術領域的發展歷程,是人類智慧在捕捉、處理和重塑一種基本感官體驗方面不懈追求的生動證明。這種持續的創新,源于人類利用和增強聲音體驗以服務于溝通、藝術和娛樂的內在驅動力,彰顯了音頻技術作為人類重要創造領域的核心價值。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/83584.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/83584.shtml
英文地址,請注明出處:http://en.pswp.cn/web/83584.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

接口 RESTful 中的超媒體:REST 架構的靈魂驅動

在 RESTful 架構中,** 超媒體(Hypermedia)** 是一個核心概念,它體現了 REST 的 “表述性狀態轉移(Representational State Transfer)” 的本質,也是區分 “真 RESTful API” 與 “偽 RESTful AP…

centos clamav 掃描及告警配置

centos clamav 掃描及告警配置 1 下載1.1官網下載1.2 在線下載2 配置3 掃描3.1 更新病毒庫3.2 掃描4 告警4.1 安裝 Postfix4.2 安裝mail郵件工具4.3 配置4.4 發送告警郵箱信息5 定時配置(cronie)5.1 定時更新病毒庫5.2 定時掃描1 下載 1.1官網下載 官網下載地址,下載rpm包…

華為WLAN概述知識點及案例試題

目錄 📘 華為WLAN概述知識點及案例總結? 一、WLAN技術背景📌 為什么需要WLAN?📌 應用趨勢: ? 二、WLAN基本概念📌 WLAN定義📋 IEEE 802.11與Wi-Fi標準演進📋 發展趨勢(…

MultiTalk 是一種音頻驅動的多人對話視頻生成模型

TL;DR:MultiTalk 是一種音頻驅動的多人對話視頻生成。它支持多人對話💬、唱🎤歌、交互控制和👬卡通🙊的視頻創建。 視頻演示 001.mp4 004.mp4 003.mp4 002.mp4 005.mp4 006.mp4 003.mp4 002.mp4…

實現無縫連接:EtherNet/IP轉CANopen網關助力汽車制造智能化未來

在如今這個高度自動化的汽車制造行業,設備之間的互操作性變得越來越重要,在一條自動化裝配線上,貝加萊的PLC和CANopen伺服驅動器以及通過EtherNet/IP轉CANopen網關(穩聯技術的WL-EIP-COP)緊密合作,帶來了精…

音視頻之H.264的句法和語義

系列文章: 1、音視頻之視頻壓縮技術及數字視頻綜述 2、音視頻之視頻壓縮編碼的基本原理 3、音視頻之H.264/AVC編碼器原理 4、音視頻之H.264的句法和語義 在編碼器輸出的碼流中,數據的基本單位是句法元素。每個句法元素由若干比特組成,它表…

M - 中位數

Description 給定一個長度為 NN 的非負整數序列 AA,對于前奇數項求中位數。 Input 第一行一個正整數 NN。 第二行 NN 個正整數 A1…NA1…N?。 Output 共 ?N12??2N1?? 行,第 ii 行為 A1…2i?1A1…2i?1? 的中位數。 Sample 1 InputcopyOu…

醫療耗材領域LCS4110R加密芯片應用

醫療器械和醫美器械應用廣泛,需求增加,發展迅速。醫療器械和醫美器械的使用關系到人民群眾的健康安全,以至于生命安全。假冒偽劣器械產品的混入導致對患者的健康危害,同時也損害了設備廠商的利益。防復制加密認證芯片LCS4110R應用…

數據結構與算法:貪心(一)

前言 有一說一貪心的題目真的ex,想不到就是想不到…… 一、貪心 貪心就是通過在過程中每次達到局部最優,從而在最后實現整體最優。貪心的題目經常要用到排序和堆。 越打cf越能感受到貪心的奇妙,很吃狀態和靈感。解題的過程中往往依賴舉大量例子,然后進行總結和歸納,然…

5、Spring AI(MCPServer+MCPClient+Ollama)開發環境搭建_第一篇

前言: 該開發環境是在 3、后端持久化(SpringBoot3.5.0MybatisPlus3.5.5mysql8.4.0)環境搭建 上進行改造的,用到了后端持久化,主要改造的地方為數據庫把email字段改為height(身高),…

個典型的 Java 泛型在反序列化場景下“類型擦除 + 無法推斷具體類型”導致的隱性 Bug

今天遇到一個問題:一個典型的 Java 泛型在反序列化場景下“類型擦除 無法推斷具體類型”導致的隱性 Bug,尤其是在 RPC(如 Dubbo、Feign 等)和 本地 JVM 內直連調用共存時,這種問題會顯現得非常明顯。 A 服務暴露了一…

開發指南121-微服務的彈性伸縮

平臺的后臺服務表現形式就是各種各樣的微服務。微服務可以部署在不同的機器上。單一服務的伸縮很簡單: 部署在不同機器上,直接啟動關閉即可。 部署在同一機器上,可以復制為多個不同目錄,其中jar包,啟動文件是完全一樣…

【C++特殊工具與技術】優化內存分配(六):運行時類型識別

目錄 一、RTTI 的核心機制與設計背景 1.1 RTTI 的設計目標 1.2 RTTI 的啟動條件 二、dynamic_cast:動態類型轉換 2.1 語法與核心特性 2.2 轉換場景詳解 2.3 引用類型轉換與異常處理 2.4 性能注意事項 三、typeid:類型信息查詢 3.1 語法與核心特…

USB串口通信、握手協議、深度學習等技術要點

基于OpenMV的智能車牌識別系統:從硬件到算法的完整實現 前言 本文將詳細介紹一個基于OpenMV微控制器的智能車牌識別系統的設計與實現。該系統集成了嵌入式視覺處理、串口通信協議、深度學習OCR識別等多種技術,實現了從圖像采集到車牌識別的完整流程。 …

獵板PCB:手機主板pcb需要做哪些可靠性測試

在智能手機高度普及的今天,一塊指甲蓋大小的主板承載著通信、計算、影像等核心功能。當消費者為新機性能歡呼時,鮮少有人關注到主板PCB(印刷電路板)在幕后經歷的嚴苛考驗。這些隱藏在金屬外殼下的精密線路,需要經過多輪…

Java并發編程實戰 Day 21:分布式并發控制

【Java并發編程實戰 Day 21】分布式并發控制 文章簡述: 在高并發和分布式系統中,傳統的線程級鎖已無法滿足跨節點的同步需求。本文深入講解了分布式并發控制的核心概念與技術方案,包括分布式鎖、一致性算法(如Paxos、Raft&#x…

C語言文件操作與預處理詳解

目錄 文件操作文件基本概念文件指針文件打開模式文件讀取操作字符讀取字符串讀取格式化讀取二進制讀取 文件寫入操作字符寫入字符串寫入格式化寫入二進制寫入 文件定位操作文件錯誤處理 預處理預處理基本概念常見預處理指令文件包含指令宏定義簡單宏帶參數的宏字符串化操作符(#…

水庫大壩安全監測之滲流監測

水庫大壩的滲流狀況直接關系到其結構穩定性與安全運行。滲流可能引發壩體內部土體的滲透變形,如管涌、流土等現象,削弱壩體強度,嚴重時甚至導致大壩垮塌,威脅下游人民生命財產安全。通過滲流監測,能夠實時掌握壩體及壩…

windows使用命令行查看進程信息

在 Windows 操作系統中,您可以使用多種命令行工具來查看進程信息。以下是幾種常用方法: 1. 使用 tasklist 命令(最常用) 查看所有進程的基本信息: tasklist輸出示例: 映像名稱 PID…

【C#】多級緩存與多核CPU

多級緩存(如CPU的L1/L2/L3緩存)與多核處理器之間存在緊密的協同與競爭關系,直接影響系統性能。以下是關鍵影響及優化策略: 一、緩存層級與多核的協作機制 緩存結構 L1緩存 私有緩存:每個CPU核心獨享,容量小…