直接使用語音編碼,是什么形式,和文本的區別
直接使用語音編碼的形式
語音編碼是將模擬語音信號轉換為數字信號的技術,其核心是對語音的聲學特征進行數字化表征,直接承載語音的物理聲學信息。其形式可分為以下幾類:
1. 基于波形的編碼(保留原始波形特征)
- 脈沖編碼調制(PCM):最基礎的語音編碼形式,通過“采樣-量化-編碼”三步將連續語音波形離散化為數字信號。例如電話系統早期使用的G.711編碼(8kHz采樣,8bit量化),直接保存語音波形的振幅、頻率等物理參數。
- 自適應差分脈沖編碼(ADPCM):通過記錄相鄰采樣點的差值(而非絕對值)實現壓縮,減少數據量(如G.726編碼),但仍以波形還原為核心。
2. 基于參數的編碼(提取語音特征參數)
不直接保存波形,而是提取語音的關鍵聲學參數(如基頻、共振峰等),通過參數重建語音。例如:
- 線性預測編碼(LPC):通過預測器模擬 vocal tract(聲道)的共振特性,提取線性預測系數(LPC系數),僅保存殘差信號和基頻(F0),適用于低比特率場景(如衛星通信)。
- 碼激勵線性預測(CELP):結合L