從VALL-E到SparkTTS,如何解決音色保真與清晰度的矛盾?
- 引言
- 語音克隆技術發展史
- YourTTS:深入剖析架構與技術
- VALL-E:揭秘神經編解碼語言模型
- MaskGCT
- SparkTTS:利用 LLM 實現高效且可控的語音合成
- 特征解耦+生成式模型
- 特征解耦技術實現
- 生成式模型優化策略
- 效果對比分析:性能與評估
- 未來展望:小樣本和零樣本語音克隆的未來
引言
語音克隆在娛樂、無障礙輔助、內容創作和個性化應用等領域展現出巨大的潛力 。然而,長久以來,如何才能在精確復制說話者音色的同時,確保合成語音的清晰度和自然度,一直是該領域面臨的核心挑戰。傳統的語音克隆方法往往難以在這兩者之間取得理想的平衡 。
小樣本和零樣本學習技術的出現,為解決這一難題帶來了革命性的進展 。這些先進的技術僅需極少量的目標說話人音頻數據,甚至在沒有任何目標說話人訓練數據的情況下,就能實現高質量的語音克隆 。這為克隆那些錄音資料匱乏的聲音提供了可能 。
本文將深入探討小樣本和零樣本語音克隆領域的幾項關鍵突破,重點介紹并分析三種具有代表性的模型:YourTTS、VALL-E 和 SparkTTS。
語音克隆技術發展史
1998 年,加州大學伯克利分校的研究人員發布了首個語音克隆軟件 。2010 年,基于深度學習的語音克隆系統進一步推動了該技術的發展 。2016 年,谷歌 DeepMind 推出的 WaveNet 模型是首批由人工智能驅動的新一代語音克隆軟件之一,為后來的語音克隆技術奠定了基礎 。大約在 2020 年,語音克隆技術首次實現商業化 。
早期的語音克隆系統通常需要大量的目標說話人錄音數據 。為了克服這一限制,研究人員開始探索更高效的數據利用方法。2020 年,麻省理工學院的一位研究人員展示了一種數據高效的音頻深度偽造生成方法,僅需 15 秒的訓練數據 。零樣本語音克隆的概念隨之出現,旨在僅使用目標說話人的簡短音頻樣本(幾秒鐘)就能復制其聲音 。
YourTTS、VALL-E 和 SparkTTS 等模型正是這一發展趨勢下的代表性成果,它們能夠在極少數據甚至零數據的情況下,實現高質量的語音克隆 。語音克隆技術的發展歷程清晰地表明,研究方向正朝著減少數據依賴性和提高合成語音的自然度和相似度邁進。
早期技術的局限性促使人們不斷創新,最終催生了如今先進的深度學習和小樣本/零樣本學習方法。即從“數據驅動”到“特征解耦+生成式模型”,突破傳統數據依賴瓶頸。這種演變反映了人工智能領域更廣泛的趨勢,即開發能夠在數據稀疏的情況下有效學習和泛化的模型,這對于許多實際應用至關重要。
YourTTS:深入剖析架構與技術
YourTTS 模型建立在 VITS(Variational Inference for Text-to-Speech)框架之上,并進行了多項創新性的修改,使其具備了多說話人和多語言處理能力 。其核心架構包括一個文本編碼器、一個基于流的解碼器、一個 HiFi-GAN 聲碼器以及一個后驗編碼器 。
與以往的一些工作不同,YourTTS 直接以原始文本作為輸入,而非音素,這使得它更適用于那些缺乏高質量字音轉換器的低資源語言 。在多語言訓練方面,YourTTS 將 4 維可訓練的語言嵌入向量連接到每個輸入字符的嵌入向量中 。
YourTTS 實現零樣本語音克隆和語音轉換的關鍵在于對說話人嵌入向量的使用 。模型利用預訓練的說話人編碼器提取說話人嵌入向量,從而能夠合成訓練時未見過說話人的聲音 。僅需幾秒鐘的參考音頻,YourTTS 就能提取目標說話人的獨特聲學特征并生成相應的嵌入向量 。
YourTTS 支持零樣本多說話人文本到語音合成和零樣本語音轉換等任務 。此外,通過微調,僅需約一分鐘的音頻數據,YourTTS 就能在聲音相似度方面取得優異的表現 。
在平衡聲音相似度和發音清晰度方面,YourTTS 做出了一些獨特的設計選擇。例如,直接使用原始文本輸入簡化了流程,但也可能在發音方面帶來一些挑戰 。有用戶報告稱,即使經過大量步驟的訓練,YourTTS 仍然可能出現一些發音錯誤 。
為了提高生成語音的質量,YourTTS 對 VITS 架構進行了修改,例如增加了文本編碼器的規模 。模型還采用了說話人一致性損失(SCL),旨在微調過程中提升聲音的相似度 。然而,需要注意的是,原始論文中存在一個實現錯誤,導致 SCL 在部分實驗中的效果受到影響 。
YourTTS 的訓練過程是一個逐步進行的過程,首先在英語數據集(LJSpeech、VCTK)上進行訓練,然后逐步加入葡萄牙語和法語數據集 。在多語言訓練中,采用了加權隨機抽樣以確保每個語言的批次平衡 。
YourTTS 的設計理念在于利用多語言訓練的優勢,提升模型在零樣本多說話人文本到語音合成和語音轉換方面的性能,并降低對大量數據的依賴,尤其是在低資源語言的場景下。直接使用原始文本輸入是一個重要的設計決策,旨在提高模型的適用性,使其能夠處理更廣泛的語言,而無需依賴于可能不存在或質量不高的外部音素資源。
VALL-E:揭秘神經編解碼語言模型
VALL-E 是一種新穎的 TTS 框架,其核心是一個神經編解碼語言模型 。它將 TTS 視為一個條件語言建模任務,使用來自神經音頻編解碼器(EnCodec)的離散代碼作為中間表示,而不是傳統的梅爾頻譜圖 。
VALL-E 的架構包含一個自回歸(AR)的僅解碼器語言模型和一個非自回歸(NAR)的僅解碼器語言模型 。該模型基于 Transformer 架構,Transformer 在自然語言處理任務中已被證明非常有效 。
VALL-E 的核心技術包括使用來自 EnCodec 的離散音頻代碼作為中間表示 。AR 模型預測第一級編解碼器代碼,而 NAR 模型預測后續代碼 。Transformer 中的自注意力機制允許模型在處理每個元素時考慮整個輸入序列 。VALL-E 展現出強大的上下文學習能力 。
VALL-E 僅需目標說話人 3 秒鐘的錄音作為聲學提示,就能實現音色與風格遷移 。在語音自然度和說話人相似度方面,它顯著優于以往的零樣本 TTS 系統 。VALL-E 還能保留說話人的情感和聲學環境 。
VALL-E 2 引入了重復感知采樣和分組代碼建模技術,以提高魯棒性和效率 。在某些數據集上,VALL-E 2 實現了零樣本 TTS 的人類水平性能 。音素提示有助于生成內容,而音頻提示則有助于保持說話人相似度 。
VALL-E 使用**預訓練的音頻編解碼器(EnCodec)**是一個關鍵的設計選擇,它展示了利用現有模型來增強新模型性能的強大能力。將 TTS 視為對離散音頻標記的語言建模任務,代表了該領域的一種范式轉變,借鑒了語言模型在 NLP 中的成功經驗,并可能為跨不同模態的生成式 AI 提供更統一的方法。
VALL-E 在一個龐大的數據集(60,000 小時)上進行訓練,該數據集來自 LibriLight 語料庫 。由于原始 LibriLight 數據僅包含音頻,研究人員使用了一個語音識別模型來生成文本轉錄 。VALL-E 采用了混合訓練方法,結合了監督學習和無監督學習 。
MaskGCT
MaskGCT(Masked Generative Cross-Transformer)是由Amphion團隊提出的零樣本語音克隆模型,其核心目標是解決音色保真度與發音清晰度之間的矛盾,同時支持多語言跨語種語音合成。與VALL-E、SparkTTS等模型相比,MaskGCT通過多級編解碼與非自回歸掩碼生成,在音色遷移的穩定性與跨語言適應性上表現突出。
MaskGCT采用雙階段編解碼架構,將語音生成分解為 語義編碼 與 聲學編碼 兩個獨立階段,實現內容與音色的解耦:
(1) 語義編解碼器(Semantic Encoder-Decoder)
- 輸入:原始語音波形 → 預處理(降噪、標準化)。
- 編碼:使用 VQ-VAE(Vector Quantized Variational Autoencoder),將語音轉換為離散語義標記(Discrete Tokens),捕捉語言內容(如音素、詞匯)。
- 解碼:語義標記通過 Vocos 聲碼器 重建為中間語義表示,保留語音的文本內容但剝離音色特征。
(2) 聲學編解碼器(Acoustic Encoder-Decoder)
- 編碼:采用 殘差向量量化(RVQ, Residual Vector Quantization),將語音波形壓縮為 多層聲學標記(如4層),分別編碼音色、韻律、情感等特征。
- 解碼:聲學標記輸入 非自回歸Transformer,結合語義編碼生成目標語音波形。
技術優勢:
- 解耦徹底:語義編碼專注“說了什么”,聲學編碼專注“如何說”(音色、語調)。
- 抗噪性強:RVQ的多層量化有效抑制輸入音頻中的噪聲干擾。
非自回歸掩碼生成
MaskGCT的核心創新在于其生成階段的 掩碼預測機制,與傳統自回歸模型(逐幀生成)不同,它通過 并行生成 提升效率:
(1) 掩碼生成流程
-
輸入:文本 → 文本編碼器 → 文本特征向量。
-
語義標記預測:
- 使用 Masked Transformer 隨機遮蔽部分語義標記(如遮蔽率30%)。
- 模型基于上下文預測被遮蔽的標記,無需依賴文本-語音強制對齊。
-
聲學標記生成:
- 以語義標記為條件,通過 Cross-Transformer 生成多層聲學標記序列。
- 每層聲學標記獨立生成,避免自回歸模型的誤差累積。
(2) 優化策略
- 動態掩碼比例:根據訓練進度調整遮蔽率,提升模型泛化能力。
- 多任務學習:聯合優化語義標記預測與聲學標記生成,增強跨語言遷移穩定性。
SparkTTS:利用 LLM 實現高效且可控的語音合成
SparkTTS 是一種高效的、基于大型語言模型(LLM)的文本到語音合成模型 。其架構的核心是 BiCodec,一種獨特的單流編解碼器,它將語音分解為語義標記(語言內容)和全局標記(說話人屬性)兩種互補的標記類型 。
SparkTTS 集成了 Qwen2.5 大型語言模型作為其骨干 。該架構支持直接從 LLM 預測的代碼重建音頻,無需額外的聲學特征生成模型 。
SparkTTS 能夠實現高效的零樣本中英文跨語言語音克隆,而無需針對目標說話人的特定訓練數據 。它通過一種鏈式思考(CoT)的方法,提供粗粒度(性別、說話風格)和細粒度(音高、語速)的屬性控制 。解耦的語音標記使得語音的表示和操作更加有效 。
SparkTTS 還支持跨語言和代碼切換合成 。單流架構與解耦標記的結合,簡化了傳統的 TTS 系統,并可能增強了生成語音中語言內容和說話人屬性之間的一致性。
SparkTTS 在 VoxBox 數據集上進行訓練,該數據集包含 100,000 小時的帶有各種屬性標注的音頻數據 。BiCodec 采用端到端的方式,使用生成對抗網絡(GANs)進行訓練 。訓練過程分為兩個階段:首先訓練語音標記器,然后訓練 TTS 模型 。
集成像 Qwen2.5 這樣強大的 LLM,可能是 SparkTTS 能夠實現強大的零樣本語音克隆能力的關鍵因素,使其能夠在最少參考數據的情況下有效地處理內容和風格。SparkTTS 表明,大型語言模型在各種語音合成任務中發揮著越來越重要的作用,這預示著一個趨勢,即利用 LLM 強大的語義理解和生成能力來開發更先進和可控的語音克隆技術。
特征解耦+生成式模型
特征解耦技術實現
- VALL-E:分層離散編碼與上下文建模
-
音色與內容解耦:
VALL-E 使用 EnCodec 神經編解碼器,將語音波形壓縮為多層離散聲學 token(8層量化器)。其中,低層 token 編碼全局音色和說話人特征,高層 token 編碼細節聲學信息(如情感、環境)。通過分層 token 結構,模型將音色與內容解耦。 -
上下文條件控制:
在推理時,輸入音素序列(內容)和 3 秒參考音頻的聲學 token(音色),通過 自回歸(AR)與非自回歸(NAR)語言模型 結合生成目標語音。AR 模型預測內容相關的低層 token,NAR 模型并行生成高層 token,兼顧生成速度與質量。
- SparkTTS:單流解耦與LLM驅動
-
BiCodec 雙編碼器:
將語音分解為 語義編碼(記錄“說了什么”)和 全局編碼(包含音色、語調),通過向量量化(VQ)實現語義與風格的解耦。語義編碼由 LLM(Qwen2.5)預測,全局編碼從參考音頻提取。 -
大語言模型融合:
直接利用 Qwen2.5 的文本理解能力生成語義編碼,省去傳統 TTS 的梅爾頻譜生成步驟。LLM 輸出的編碼直接輸入 BiCodec 解碼器生成語音,實現端到端高效合成。
- MaskGCT:掩碼生成與多級編解碼
-
語義-聲學雙階段解耦:
- 語音語義編解碼器:通過 VQ-VAE 將語音轉換為語義標記,捕捉語言內容;
- 語音聲學編解碼器:使用殘差向量量化(RVQ)將波形壓縮為多層聲學標記,保留音色和韻律細節。
-
非自回歸掩碼生成:
文本到語義階段,利用掩碼生成 Transformer 預測語義標記,無需文本-語音對齊;語義到聲學階段,以語義標記為條件生成聲學標記序列,通過 Vocos 解碼器重建波形。
- YourTTS:
- 說話人編碼器與自適應:
通過預訓練的說話人編碼器(如 ECAPA-TDNN)提取音色嵌入,與文本編碼結合輸入 Tacotron 生成梅爾頻譜,再通過 WaveGlow 聲碼器合成語音。依賴少量樣本微調以實現個性化克隆。
生成式模型優化策略
- 分層生成與采樣優化
- VALL-E:采用 AR+NAR 分層生成,AR 模型逐幀生成低層 token 確保內容連貫性,NAR 模型并行生成高層 token 提升效率。通過溫度采樣控制生成多樣性6。
- MaskGCT:使用 非自回歸掩碼生成 Transformer,通過隨機掩碼預測缺失 token,減少對對齊信息的依賴,提升跨語言合成的魯棒性1。
- 數據驅動與模型預訓練
- VALL-E:在 60K 小時英語語音(LibriLight)上預訓練,增強對噪聲和多樣說話人的泛化能力6。
- SparkTTS:基于 VoxBox 數據集(10萬小時中英文語音),標注性別、音高等屬性,優化風格遷移的細粒度控制7。
- MaskGCT:使用 Emilia 多語言數據集,覆蓋六種語言的高質量語音,支持跨語種音色遷移4。
- 效率與可控性增強
- SparkTTS:通過 單流解耦架構(BiCodec + LLM)簡化流程,推理速度比傳統模型快 3 倍,支持實時語音生成9。
- VALL-E:利用 上下文學習(In-context Learning),僅需 3 秒參考音頻即可克隆音色,無需微調2。
- MaskGCT:提供 語音控制接口,允許用戶編輯文本直接調整生成語音的長度、語速和情感,保持音色一致性10。
模型 | 特征解耦方法 | 生成式模型架構 | 核心優化策略 |
---|---|---|---|
VALL-E | EnCodec分層離散編碼 | AR+NAR分層語言模型 | 大規模數據預訓練、上下文學習 |
SparkTTS | BiCodec單流解耦 | LLM直接生成語音編碼 | LLM驅動、高效單流程 |
MaskGCT | VQ-VAE+RVQ多級編解碼 | 非自回歸掩碼生成Transformer | 掩碼預測、多語言支持 |
YourTTS | 說話人編碼器+文本編碼融合 Tacotron+WaveGlow級聯生成 | 小樣本微調、說話人自適應 |
效果對比分析:性能與評估
評估語音克隆模型的性能通常采用一系列指標,包括主觀評估和客觀評估。常見的主觀評估指標包括相似性平均意見得分(SMOS)、平均意見得分(MOS)和比較平均意見得分(CMOS)。SMOS 衡量生成音頻與參考說話人的相似度,MOS 評估合成語音的整體質量或自然度,而 CMOS 則用于比較兩個不同 TTS 系統的質量。
客觀評估指標則包括詞錯誤率(WER)和客觀說話人相似度(SIM)。WER 衡量語音識別合成語音時的錯誤率,SIM 則通過計算說話人嵌入向量之間的余弦相似度來評估說話人相似度。
根據 KALL-E 論文中的比較 :
指標 | KALL-E | YourTTS | VALL-E | SparkTTS |
---|---|---|---|---|
自然度 (MOS) | 3.87 ± 0.12 | 3.08 ± 0.14 | 3.12 ± 0.19 | |
說話人相似度 (SMOS) | 3.91 ± 0.07 | 3.17 ± 0.08 | 3.36 ± 0.12 | |
情感克隆 (CMOS) | 0.00 | -0.23 | -0.09 | |
口音克隆 (CMOS) | 0.00 | -0.18 | -0.12 | |
詞錯誤率 (WER) | 8.5% | 7.1% | 9.6% | 5.8% |
客觀說話人相似度 (SIM) | 0.67 | 0.45 | 0.52 |
注:SparkTTS 未包含在此比較中,為額外添加。
其他研究表明,VALL-E 在自然度和說話人相似度方面優于 YourTTS 。SparkTTS 據報告在韻律和情感方面表現出色 ,并且在零樣本場景下實現了高可懂度 ,同時還具有較高的效率,目前屬于開源上最先進中文效果也是最好的語音克隆模型 。YourTTS 在使用有限的音頻進行微調時,可以實現較高的相似度 。
未來展望:小樣本和零樣本語音克隆的未來
小樣本和零樣本語音克隆技術正朝著更高的自然度、更強的魯棒性、更廣泛的多語言支持和更低的計算需求方向發展 。持續的研究致力于提升合成語音的自然性和表現力 。擴展對更多語言的支持是未來的一個重要發展方向 。
人們也在努力實現高質量、低延遲的語音轉換,以滿足實時應用的需求 。神經聲碼器的進步正在提高計算效率 。更強大的說話人編碼器的開發對于實現更好的語音克隆至關重要 。未來的研究可能會探索混合方法,以在效率和質量之間取得更好的平衡 。語音克隆的未來將持續朝著提升模型質量和效率的方向發展,并更加注重技術的普及性和跨語言的通用性。