引言:從LLM到深度語義
在大型語言模型(LLM)驅動的語音交互時代,神經語音編解碼器 (Neural Speech Codec) 扮演著至關重要的角色。它如同 LLM 的“耳朵”和“嘴巴”,負責將連續的語音波形轉換為離散的、可供模型處理的 token,并將模型生成的 token 還原為自然的人聲。
一個理想的語音編解碼器,需要同時實現兩個看似矛盾的目標:
- 高保真重建 (High-fidelity Reconstruction):生成的語音要清晰、自然,盡可能保留原始語音的音質。
- 語義解耦 (Semantic Disentanglement):編碼出的 token 需要能夠清晰地分離語義信息(說了什么)和副語言信息(怎么說的,如音色、情感、韻律等)。
傳統的聲學編解碼器(如 Encodec, SoundStream),通過多碼本的殘差向量量化 (RVQ) 實現了極高的重建質量,但其生成的聲學 token 耦合了所有信息,直接用于 LLM 建模會非常復雜。
而語義解耦編解碼器(如 FACodec, SpeechTokenizer, MimiCodec)雖然嘗試分離語義,但大多存在以下問題:
- 解耦不徹底:依賴于從自監督模型(如 HuBERT, WavLM)蒸餾的表示,這些表示本