? ? ? ? ?
1、聲音的相關概念
模擬聲音信號:聲波在時間和幅度上都是連續的模擬信號。
1.1 聲音的組成
幅度:聲波的振幅。計量單位是分貝(dB)
頻率:聲波每秒變化的次數,用Hz表示。人耳能聽到的聲音信號的頻率范圍20Hz~20KHz。該范圍內的信號稱為音頻信號。小于20Hz稱為亞音信號。高于20KHz稱為超聲波。根據聲音包含的頻率成分的構成特征可以分為音樂和噪音。
2、聲音信號的數字化
聲音信號屬于模擬信號,計算機需要把它轉換為數字信號才能進行處理。需要用二進制數字的編碼形式來表示聲音。聲音信號數字化要經歷:采樣、量化、編碼三個步驟。
采樣:就是把時間連續的模擬信號在時間軸上離散化的過程。在某些特定時刻獲取聲音信號幅值稱為采樣。
量化:量化處理就是把在幅度上連續取值(模擬量)的每一個樣本轉換為離散值(數字量)來表示。量化后的數據使用二進制的數來表示的,二進制數位數的多少反映了度量聲音波形幅度的精度,稱為量化精度或者量化分辨率。量化精度越高,聲音質量越高,占用的存儲空間也就越大。
編碼:為了便于計算機的存儲、傳輸、處理,需要按照一定的格式進行數據編碼,再按照某種規定的格式將數據組織成文件。也可以采用方法對數據進行壓縮,減少對存儲空間的占用。
3、數字聲音的主要參數
采樣頻率:表示每秒的采樣數。3個標準頻率為:44.1kHz、22.05kHz、11.05kHz。
量化位數:聲音波形幅度的精度,一般是8位、12位、6位。
聲道數組:單聲道、雙聲道。
數據率:每秒數據量,一般用bps為單位。
壓縮比:單位時間內的未壓縮音頻數據量與壓縮后的數據量之比。
4、波形聲音
4.1 波形聲音介紹
波形聲音是對聲音信號直接采用的數據。
數據傳輸速率(bps)=采樣頻率(Hz)*量化位數(bit)*聲道數
聲音信號數據量(Byte)=數據傳輸速率(bps)*持續時間(s)/8
聲音波形的數據量非常大。在編碼的時候常常要進行壓縮從而減少存儲空間的占用和傳輸速率。
4.2 波形編碼技術
可以直接對波形采樣數據進行壓縮的處理方法。常用的有差分脈沖編碼調制(DPCM)、自適應差分脈沖編碼調制(ADPCM)和子帶編碼(SBC)等。
波形編碼特點:通用性強,對所有波形表示的數字聲音都有效、聲音質量很高、但很難有高壓縮比。
4.3 感知聲音編碼
感知聲音編碼也是一種常用的編碼技術,它利用波形本身的相關性和人類的聽覺系統特性來 達到壓縮聲音的目的。MPEG系列的音頻壓縮編碼就是典型的感知編碼。
5、聲音合成
5.1 語音合成
目前主要是針對文本轉語音的合成。
流程:文本→文本分析→韻律處理→語音合成→波形聲音
常用的合成技術:發音參數合成、聲道模型參數合成、波形編輯合成
5.2 ?音樂合成
音樂是用樂譜進行描述而由樂器演奏而成的。樂譜基本組成單元是音符。現代音樂體系中基本音階7個音組成、常用音符88個、電子樂器支持128個。
數字音樂合成方法:數字調頻(FM)合成法、波表法。目前電子音樂合成基本都采用波表法。
6、MIDI
MIDI 是指樂器數字接口國際標準。
7、常用的聲音文件格式
1、Wave 文件 (wav):“微軟操作系統標準音頻格式屬于波形文件。質量非常高,文件數據量很大。
2、Sound文件(.snd):NeXT Computer公司推出的數字聲音格式,支持壓縮。
3、Audio文件(.au):用于UNIX系統的數字聲音文件格式。
4、AIFF文件(.aif):MAC OS 標準的音頻文件格式。
5、Voice文件(.voc):Creative公司的波形音頻文件格式。
6、MP3:最常用的聲音文件格式
7、RealAudio(.ra):具有較高壓縮比。
8、MIDI文件(.mid .rmi):用于存儲和交換MIDI消息的一種數字音樂文件,.rmi格式是Windows中對MIDI文件格式的簡單擴展格式。