語音合成之十韻律之美：TTS如何模擬語音的節奏和語調

韻律之美：TTS如何模擬語音的節奏和語調

1. 引言：韻律在語音合成中的重要性
- 1.1 追求自然的TTS：超越可懂度
- 1.2 定義韻律：語音的音樂
- 1.3 韻律為何重要：傳遞意義、情感與自然度
2. TTS韻律建模的基礎技術
- 2.1 利用文本：語言學特征作為韻律線索
- 2.2 預測聲學關聯物： $F_0$ 、時長和能量估計
- 2.3 深度學習的角色：從RNN到Transformer和VAE
- 2.4 整合韻律：聲學模型/聲碼器中的顯式與隱式控制
3. 韻律建模實踐：開源TTS架構剖析
- 3.1 顯式預測模型
- - 3.1.1 FastSpeech 2
- 3.2 隱式與端到端模型
- - 3.2.1 Tacotron 2
  - 3.2.2 VITS (Variational Inference for TTS)
  - 3.2.3 Piper
- 3.3 高級克隆與高保真模型
- - 3.3.1 Tortoise TTS
  - 3.3.2 Coqui XTTS
- 3.4 TTS的LLM時代
- - 3.4.1 SparkTTS
  - 3.4.2 CosyVoice / CosyVoice 2
4. 增強表現力：高級韻律控制技術
- 4.1 風格遷移：學習和應用風格嵌入
- 4.2 參考音頻編碼：帶韻律遷移的語音克隆
- 4.3 直接參數操縱：細粒度的韻律調整
- 4.4 自然語言提示：LLM驅動的風格控制
5. 評估合成韻律：指標與方法
- 5.1 客觀評估：量化聲學準確性
- 5.2 主觀評估：聽眾對自然度與表現力的感知
- 5.3 局限性與上下文評估的需求
6. 總結：合成富有表現力的語音

1. 引言：韻律在語音合成中的重要性

1.1 追求自然的TTS：超越可懂度

早期的文本轉語音（Text-to-Speech, TTS）系統主要關注生成可懂的語音，但這往往導致輸出聽起來生硬、缺乏生氣，帶有明顯的“機器”感。隨著技術的進步，現代TTS系統不再僅僅滿足于讓機器“說話”，而是追求生成既自然又富有表現力的語音，這使得韻律（Prosody）建模成為了核心議題。韻律賦予語音以“音樂感”或“旋律感”，使其聽起來更接近人類，更具吸引力。缺乏適當韻律的合成語音聽感單調、不自然，甚至機械化，嚴重影響用戶體驗和信息傳達效果。
在這里插入圖片描述

1.2 定義韻律：語音的音樂

韻律，也稱為超音段特征（Suprasegmentals），是指語音中超越單個音素（元音和輔音）層面，通常應用于音節、詞語、短語乃至整個句子序列的語音特征。它是語音的“調”與“節奏”的研究，關注這些特征如何貢獻于意義的表達。韻律的主要構成要素包括：

音高/語調 (Pitch / Intonation): 指聲音感知的基頻（Fundamental Frequency, $F_0$ ）高低變化。語調是音高在短語或句子范圍內的變化模式，對于區分陳述句和疑問句、標示焦點或重音、傳達情感以及在聲調語言（如漢語普通話）中區分詞匯意義至關重要。例如，英語中句末語調上升通常表示疑問。
時長/節奏/語速 (Duration / Rhythm / Tempo): 指語音中各單元（音素、音節）的持續時間長度以及重讀和非重讀音節的模式。音節和音素的時長是構成節奏的基礎。語速（Tempo）是指整體的說話速率。時長變化可以標示重音和詞語或短語的邊界（如句末延長）。
音量/強度/重音 (Loudness / Intensity / Stress): 指聲音感知的響度或能量大小（聲學強度）。音量變化可用于強調特定詞語、標示信息重要性或反映情感狀態（如憤怒時音量增大）。重音（Stress）是指某些音節或詞語在發音時更加突出，通常通過更高的音高、更大的音量和更長的時長的組合來實現。重音可以區分詞義（如英語中的 ‘record’ 名詞與動詞）或標示焦點。
停頓 (Pauses): 指話語內部或之間的靜默片段。停頓可以用于分隔意群或句法單元、提供聽者處理時間、強調重點或進行呼吸。停頓時長也可能暗示語言單元間邊界的強度。
(注：音色/音質 (Timbre/Voice Quality) 有時也被納入韻律范疇，但在TTS建模中常與核心韻律特征（音高、時長、音量）分開處理)。

1.3 韻律為何重要：傳遞意義、情感與自然度

韻律在口語交流中扮演著至關重要的角色，其作用遠超詞匯本身：

傳遞意義: 韻律有助于消除句法歧義（如“老張和老李的女兒”，是指老李的女兒還是兩人的女兒？），區分疑問句與陳述句，標示焦點和對比，表達諷刺或挖苦等言外之意，以及在特定語言中區分詞匯意義（如聲調語言中的聲調，重音語言中的詞重音）。韻律如同一個并行的信息通道，傳遞著無法單從詞匯層面推斷的信息。
表達情感: 韻律的聲學關聯物（音高、音量、語速、節奏）也是表達說話人情感狀態（如快樂、悲傷、憤怒、恐懼等）的關鍵載體。例如，更寬的音高范圍和更快的語速可能與興奮相關，而較低的音高和較慢的語速可能暗示悲傷。情感韻律與語言學韻律既有區別又相互交織。
提升自然度: 合適的韻律是使合成語音聽起來自然、流暢、像人類說話的關鍵因素。母語者對不同交際情境下的韻律模式有著直覺性的理解。不恰當或缺失的韻律會使語音聽起來單調、生硬，甚至令人困惑。韻律的節奏模式、重音位置和語調曲線共同構成了口語的流動性和音樂性，有助于聽者的理解和信息處理。

1.4 核心挑戰：模擬人類表達的精妙之處
盡管韻律至關重要，但在TTS系統中精確地建模和生成自然韻律面臨巨大挑戰：

“一對多”映射問題 (One-to-Many Mapping): 這是TTS韻律建模中最核心的難題。同一段文本，根據不同的語境、說話人意圖和情感狀態，可以有多種合理且自然的韻律表達方式。傳統的基于回歸的目標函數（如均方誤差MSE）難以捕捉這種固有的多模態特性，往往傾向于生成平均化、缺乏變化的“平淡”韻律。這種現象促使TTS架構向能夠建模概率分布的生成模型（如VAE、Flow、Diffusion、LLM）演進，以更好地處理韻律的內在模糊性和多樣性。
上下文依賴性 (Context Dependency): 韻律的實現高度依賴于廣泛的上下文信息，包括語言學上下文（詞匯、句法）、語篇上下文（信息結構、話題）以及情景上下文（說話人態度、情緒、交際場景）。讓模型充分理解并利用這些復雜的上下文信息來預測恰當的韻律是一個巨大的挑戰，尤其是對于長文本或對話場景。視覺信息等其他模態的上下文也可能影響韻律。
精妙性與復雜性 (Subtlety and Complexity): 人類韻律涉及多個聲學特征（音高、時長、強度等）之間微妙、復雜且相互作用的變化。這些特征同時編碼語言結構、副語言信息（如態度）甚至非語言信息（如生理狀態、情緒），使得干凈地分離和建模各個因素的貢獻變得異常困難。準確模擬這些復雜的相互作用對模型提出了很高的要求。
數據稀疏性 (Data Sparsity): 要捕捉人類語音表達的全部范圍，需要大規模、多樣化、高質量且標注豐富的語料庫。然而，獲取覆蓋各種說話風格、情感、語言和場景的數據，特別是帶有精確韻律標注的數據，成本高昂且充滿挑戰。數據稀疏性限制了模型學習韻律多樣性的能力。

2. TTS韻律建模的基礎技術

為了應對上述挑戰并生成具有自然韻律的語音，TTS系統采用了多種技術手段，主要涉及從文本中提取韻律線索和利用深度學習模型預測聲學特征。

2.1 利用文本：語言學特征作為韻律線索

許多TTS系統，特別是在端到端模型普及之前以及作為現代模型的一部分，會進行深入的文本分析，提取各種語言學特征，以預測后續的韻律模式。這些特征為模型提供了關于文本結構和潛在韻律模式的重要線索：

音素/音節特征 (Phonetic/Phonological Features): 包括當前音素及其上下文音素的身份、音節結構（如CV, CVC）、音節在詞語或短語中的位置、以及詞匯重音（lexical stress）信息。這些底層特征直接影響音素的時長和基頻（ $F_0$ ）的局部變化。
詞匯特征 (Lexical Features): 涉及詞語本身、詞性（Part-of-Speech, POS）標簽（如名詞、動詞、形容詞）及其上下文詞性。詞性有助于預測詞語的相對重要性（prominence）和可能的短語邊界。
句法特征 (Syntactic Features): 分析句子的結構，如短語邊界（如名詞短語、動詞短語）、從句類型、句子類型（陳述句、疑問句、感嘆句）等。句法結構是預測停頓位置、語調邊界（intonational phrase boundaries）和句末語調（如升調或降調）的關鍵依據。
語義/語篇特征 (Semantic/Discourse Features): 關注更高層次的意義和信息結構，例如焦點（focus）標示、新信息與舊信息的區分、主題結構等。這些特征對于預測重音（pitch accent）的位置和強度至關重要。隨著大型語言模型（LLM）的引入，TTS系統能夠利用更深層次的語義理解來指導韻律生成。
ToBI (Tones and Break Indices): 一種成熟的韻律標注體系，包含音高重音（pitch accents）、短語重音（phrase accents）、邊界調（boundary tones）和中斷指數（break indices）等標簽。可以通過訓練模型從文本預測ToBI標簽，然后利用這些標簽來顯式地指導語音合成中的語調、重音和停頓。

2.2 預測聲學關聯物： $F_0$ 、時長和能量估計

許多現代TTS模型，尤其是非自回歸模型，采用顯式預測韻律相關的聲學特征作為中間步驟。這些預測器通常以文本編碼器輸出的隱藏狀態和/或提取的語言學特征為輸入。

時長預測 (Duration Prediction): 預測每個輸入單元（通常是音素）對應的輸出聲學幀數。這是控制語音節奏和語速的核心。時長通常在對數域進行預測以簡化建模。訓練目標時長可以來自基于注意力的對齊（如Tacotron ）或外部強制對齊工具（如Montreal Forced Aligner (MFA)，用于FastSpeech 2 ）。為了解決“一對多”問題并模擬節奏變化，一些模型如VITS采用了隨機時長預測器（Stochastic Duration Predictor），它不預測單一時長值，而是預測一個時長分布，允許在推理時采樣不同的時長序列。準確的文本-語音對齊對于時長預測至關重要，無論是隱式學習（注意力）還是顯式提供（強制對齊）。對齊失敗會直接導致錯誤的節奏和語速。
音高 ( $F_0$ ) 預測 (Pitch Prediction): 估計語音的基頻輪廓，對語調和情感表達至關重要。直接預測 $F_0$ 值面臨挑戰，因為 $F_0$ 提取本身可能存在誤差（如倍頻/半頻錯誤），且 $F_0$ 輪廓變化劇烈且具有多模態特性，直接回歸容易導致預測結果過于平滑。常用技術包括：預測對數 $F_0(\log F_0)$ ；使用連續小波變換（Continuous Wavelet Transform, CWT）將 $F_0$ 輪廓轉換為音高譜圖（pitch spectrogram），在頻域進行預測，這有助于捕捉不同時間尺度的變化并緩解平滑問題；或者通過隱式方法建模音高，例如在VAE的潛在空間中表示。
能量/音量預測 (Energy/Loudness Prediction): 估計每個聲學幀的能量或強度，影響感知的音量和重音。能量通常與音高和時長一起預測，作為TTS模型的條件輸入。預測值通常基于短時傅里葉變換（STFT）幀的幅度計算（如L2范數）。

這些預測器的特征表示也經歷了演變。早期依賴手工設計的語言學特征，后續發展到更復雜的聲學表征（如CWT音高譜圖），以及直接從數據中學習的潛在表征（如VAE 或自監督學習模型如HuBERT/WavLM提取的特征）。后者旨在繞過可能有問題的傳統特征提取（如 $F_0$ 估計），并學習到對說話人和內容更魯棒的韻律表征。

2.3 深度學習的角色：從RNN到Transformer和VAE

深度學習模型是現代TTS系統實現韻律建模的核心驅動力，不同的架構各有側重：

循環神經網絡 (RNNs/LSTMs/GRUs): 由于語音和文本的序列特性，RNN及其變體（如LSTM、GRU）在早期神經TTS中被廣泛用于建模時間依賴關系。例如，Tacotron 2在其編碼器和解碼器中使用了LSTM 。LSTM也可用于構建韻律預測器。最近，基于RNN思想的RWKV架構也被應用于LLM-TTS 。
卷積神經網絡 (CNNs): CNN擅長提取局部模式，并可通過堆疊或使用空洞卷積來捕捉不同范圍的依賴關系，且易于并行計算。它們常被用于編碼器、解碼器、聲碼器以及時長/音高/能量預測器中。例如，FastSpeech 2的預測器就包含CNN層。早期的DeepVoice系列模型也大量使用了CNN 。
Transformer: 基于自注意力（Self-Attention）機制，Transformer能夠有效建模長距離依賴關系，并且具有高度并行性，已成為許多現代TTS模型（包括編碼器、解碼器、預測器）的基礎架構。FastSpeech 2和VITS的文本編碼器都采用了Transformer 。基于LLM的TTS系統通常也使用Transformer作為其骨干網絡。
變分自編碼器 (VAEs): VAE是一種強大的生成模型，特別適用于學習數據的潛在表示（latent representation）并建模其分布。在TTS中，VAEs被廣泛用于在無監督或半監督的方式下學習韻律或說話風格的潛在空間。通過在推理時從這個潛在空間采樣，可以生成具有不同韻律變化的語音，有效應對“一對多”映射問題。VITS就是一個典型的基于VAE的TTS模型。向量量化VAE（VQ-VAE）也被用于學習離散的潛在表示。
流模型 (Flow-based Models): 如歸一化流（Normalizing Flows），能夠將簡單的概率分布（如高斯分布）可逆地轉換為復雜的數據分布。它們常被用于增強VAE潛在空間的表達能力（如VITS的先驗編碼器和隨機時長預測器），或直接用于生成任務。流匹配（Flow Matching）是另一種流模型技術，被用于CosyVoice 2等模型中。
擴散模型 (Diffusion Models): 作為近年來在圖像和音頻生成領域取得顯著成功的生成模型，擴散模型也開始被應用于TTS，用于韻律預測、聲學特征生成或細化。它們擅長建模復雜數據分布，有望生成高保真度和多樣性的韻律。

2.4 整合韻律：聲學模型/聲碼器中的顯式與隱式控制

預測出的韻律信息（無論是顯式的聲學特征還是隱式的潛在表示）最終需要被整合到聲學模型（Acoustic Model，通常指生成梅爾頻譜圖等聲學特征的模型）或聲碼器（Vocoder，將聲學特征轉換為波形）中，以控制最終輸出語音的韻律表現。主要有兩種整合方式：

顯式控制 (Explicit Control): 將預測出的具體韻律特征值（如每個音素的時長、每幀的 $F_0$ 值、每幀的能量值）作為額外的條件輸入，送入聲學模型或聲碼器。FastSpeech 2是這種方法的典型代表，其Variance Adaptor輸出的顯式時長、音高和能量信息會與音素隱藏表示結合，共同輸入到梅爾頻譜解碼器。這種方式的優點是韻律參數（語速、音高、音量）可解釋性強，并且允許在推理階段直接進行修改以實現細粒度控制。然而，其效果受限于韻律預測器的準確性，預測誤差或過平滑會直接影響最終韻律質量。
隱式控制 (Implicit Control): 不直接預測和使用具體的聲學特征值，而是讓韻律信息蘊含在模型的內部表示（如潛在變量、注意力權重、風格嵌入等）中，并通過這些表示來隱式地引導聲學特征或波形的生成。例如，Tacotron 2通過其基于注意力的解碼器隱式地學習文本與語音的對齊（決定時長和節奏），并通過自回歸過程生成帶有特定語調模式的梅爾頻譜。VITS則通過VAE學習的潛在變量和隨機時長預測器來隱式控制音高和節奏變化。控制通常通過間接方式實現，如提供參考音頻以提取風格/韻律嵌入，或在潛在空間進行操作。基于LLM的模型通常也采用隱式建模，通過預測聲學或語義令牌序列來生成包含韻律信息的語音。隱式控制可能更容易捕捉到聲學特征間自然的協同變化，生成更自然的韻律，但直接、精確地控制特定韻律參數（如將某個詞的音高提高20Hz）則比較困難。

這兩種方式的選擇反映了TTS領域在可控性與自然度之間的持續探索。顯式控制提供了更強的可解釋性和直接操控能力，但可能犧牲部分自然度；隱式控制則可能生成更自然的整體韻律，但犧牲了細粒度的直接控制能力。現代系統有時也會結合兩者，例如使用隱式方法學習全局風格，同時允許對某些顯式參數進行微調。

3. 韻律建模實踐：開源TTS架構剖析

本節將深入探討幾個主流的開源TTS模型，分析它們在架構上如何具體實現韻律的建模和生成，涵蓋經典模型和最新的基于LLM的模型。

3.1 顯式預測模型

3.1.1 FastSpeech 2

FastSpeech 2 是一個廣泛使用的非自回歸TTS模型，以其快速的推理速度和魯棒性著稱。

架構: 核心包括一個基于Transformer的音素編碼器、一個關鍵的Variance Adaptor模塊，以及一個梅爾頻譜解碼器。編碼器將輸入的音素序列轉換為隱藏表示。Variance Adaptor接收編碼器的輸出，并對其進行擴展和調整，以匹配目標梅爾頻譜的長度和韻律特征。最后，解碼器將經過調整的隱藏序列并行地轉換為梅爾頻譜圖。
韻律建模 (Variance Adaptor): 這是FastSpeech 2進行顯式韻律建模的核心。它包含三個獨立的預測器：
- 時長預測器 (Duration Predictor): 預測每個音素對應的梅爾頻譜幀數。訓練時，使用外部工具（如Montreal Forced Aligner, MFA）提取的真實音素時長作為監督信號。預測出的時長用于通過“長度調節器”（Length Regulator）擴展音素隱藏序列，使其長度與目標梅爾頻譜對齊。
- 音高預測器 (Pitch Predictor): 預測幀級別的音高信息。為了更好地建模音高變化，FastSpeech 2通常采用連續小波變換（CWT）將基頻（ $F_0$ ）輪廓轉換為音高譜圖，并以此作為預測目標。預測出的音高信息（通常量化后轉換為嵌入）被加到擴展后的隱藏序列上。
- 能量預測器 (Energy Predictor): 預測幀級別的能量值（通常是STFT幅度的L2范數）。與音高類似，預測的能量信息（量化并嵌入后）也被添加到隱藏序列中。
控制: 由于韻律特征是顯式預測的，FastSpeech 2允許在推理階段直接修改這些預測值。例如，可以通過縮放時長預測值來控制語速，或修改音高預測值來改變語調輪廓。
優缺點: 推理速度快，生成穩定，韻律可控性強。但韻律質量依賴于預測器的準確性，可能出現韻律平淡或預測錯誤的問題。訓練需要額外的對齊工具獲取時長標簽。

3.2 隱式與端到端模型

3.2.1 Tacotron 2

Tacotron 2 是一個里程碑式的自回歸TTS模型，以生成高質量、自然的語音而聞名。

架構: 基于帶有注意力機制的Sequence-to-Sequence框架。通常包含一個基于CNN和Bi-LSTM的編碼器，用于處理輸入字符或音素序列；一個基于注意力機制的自回歸解碼器（通常使用LSTM），逐幀生成梅爾頻譜；以及一個后處理網絡。生成的梅爾頻譜通常輸入到一個單獨訓練的神經聲碼器（如WaveNet 或 WaveGlow ）中合成最終波形。
韻律建模: Tacotron 2采用隱式的方式建模韻律。
- 節奏/時長: 主要由注意力機制隱式決定。注意力機制在解碼過程中學習將輸入文本單元（字符/音素）與輸出梅爾頻譜幀對齊。這種對齊關系決定了每個文本單元發音的持續時間，從而影響節奏和語速。
- 語調/音高: 由自回歸解碼器在生成梅爾頻譜時隱式學習。解碼器根據編碼器輸出的文本表示、注意力上下文以及先前生成的梅爾頻譜幀來預測當前幀，從而捕捉訓練數據中存在的語調模式和音高變化。模型能學習到一些基本的韻律規則，例如疑問句末尾的升調。
控制: 直接控制韻律比較困難。可以通過引入外部模塊，如參考編碼器（Reference Encoder）和全局風格令牌（Global Style Tokens, GST），從參考音頻中提取風格嵌入來影響生成的韻律和風格。也可以通過修改注意力機制來間接影響節奏。
優缺點: 能夠生成非常自然、高質量的語音。但自回歸的生成方式導致推理速度較慢，并且注意力機制可能失敗，導致漏字、重復等魯棒性問題。韻律控制不直接，生成的韻律可能是訓練數據的平均表現。

3.2.2 VITS (Variational Inference for TTS)

VITS 是一個端到端的并行TTS模型，結合了變分自編碼器（VAE）、歸一化流（Normalizing Flows）和生成對抗網絡（GANs）。

架構: VITS的核心是一個條件VAE（Conditional VAE）。它包括：一個后驗編碼器（Posterior Encoder），從目標語音頻譜中提取潛在變量z的后驗分布；一個先驗編碼器（Prior Encoder），由文本編碼器（Text Encoder，基于Transformer）和歸一化流組成，用于預測給定文本的潛在變量z的先驗分布；一個解碼器（Decoder，基于HiFi-GAN結構），從潛在變量z生成原始波形；一個隨機時長預測器（Stochastic Duration Predictor），預測音素時長分布；以及一個判別器（Discriminator）用于對抗訓練。訓練中使用了單調對齊搜索（Monotonic Alignment Search, MAS）來尋找文本和語音之間的最佳對齊路徑。
韻律建模: VITS通過其生成框架隱式地建模韻律的多樣性。
- 節奏/時長: 由隨機時長預測器建模。該預測器學習音素時長的概率分布，而不是單一的確定性值。在推理時，可以從該分布中采樣不同的時長序列，從而生成具有不同節奏和語速的語音，更好地體現了“一對多”關系。
- 語調/音高及其他變化: 主要由VAE的潛在變量z 和歸一化流建模。VAE的潛在空間捕捉了語音中除了文本內容之外的變化信息，包括音高、能量、說話風格等韻律相關特征。歸一化流增強了先驗分布的表達能力，使得模型能夠生成更復雜、更多樣的潛在變量，進而產生具有不同音高輪廓和表現力的語音。
控制: 韻律控制是隱式的，主要通過改變隨機種子來實現。不同的種子會從時長預測器和先驗分布中采樣得到不同的時長和潛在變量，從而產生韻律不同的語音。對于多說話人或風格遷移任務，可以通過條件化（如輸入說話人嵌入或參考音頻嵌入）來控制輸出的聲音特性和風格。
優缺點: 端到端生成波形，質量高，自然度和表現力好，能有效建模韻律多樣性。并行生成，推理速度快于自回歸模型。架構相對復雜。韻律控制是隨機的，難以進行精確的、確定性的調整。

3.2.3 Piper

Piper 是一個專注于效率和本地部署的TTS系統。

架構: Piper基于VITS架構進行訓練和優化。它將訓練好的VITS模型導出為ONNX格式，以便使用onnxruntime進行高效推理。其目標是為樹莓派、Home Assistant等資源受限的平臺提供快速的本地TTS服務。提供不同質量等級的模型（如low, medium, high），對應不同的采樣率和模型參數量。
韻律建模: 由于Piper基于VITS，其韻律建模方式繼承自VITS，即通過VAE潛在空間和隨機時長預測器進行隱式建模 (推斷)。Piper的主要貢獻在于VITS模型的優化和部署，而非韻律建模方法上的創新。
控制: 控制方式也應與VITS類似，主要通過隨機種子產生變化。支持多說話人模型，可以通過指定說話人ID來切換聲音。雖然提到可以定制音高、速度等，但具體實現細節和控制精度未在提供的信息中詳述，可能依賴于VITS本身的能力或額外的參數調整。
優缺點: 推理速度快，資源占用低，非常適合嵌入式設備和本地應用。提供了多種語言和質量等級的預訓練模型。語音質量和韻律表現力取決于所使用的VITS基礎模型和質量等級，可能略遜于頂級的、計算密集型的VITS實現。

3.3 高級克隆與高保真模型

3.3.1 Tortoise TTS

Tortoise TTS 以其高度逼真的語音質量和強大的（零樣本）語音克隆能力而聞名。

架構: 這是一個復雜的多階段模型。它通常包括：
1.一個自回歸（AR）解碼器（類似GPT），根據文本和從參考音頻中提取的條件潛向量（conditioning latents）來預測離散的語音編碼（可能是VQ-VAE code或類似表示）。
2.一個擴散（Diffusion）解碼器，接收AR解碼器輸出的離散編碼和條件潛向量，生成梅爾頻譜圖的潛在表示。
3.一個聲碼器（Vocoder），將擴散模型生成的頻譜表示轉換為最終的波形。參考音頻片段（通常幾秒鐘）對于提供目標說話人的聲音特征和韻律風格至關重要。
韻律建模: Tortoise的韻律建模是隱式的，并且強依賴于參考音頻。模型的核心目標是盡可能真實地復制參考音頻中的韻律、語調和整體說話風格。條件潛向量（conditioning latents）被設計用來捕獲這些說話人特有的韻律和音色信息。AR解碼器和擴散解碼器在生成過程中，會根據這些潛向量來調整輸出的語音編碼和頻譜，以匹配參考音頻的韻律特征。
控制: 主要通過選擇不同的參考音頻片段來實現韻律和風格的控制。使用同一個人的不同說話風格的參考音頻，可以生成不同風格的語音。也可以通過調整AR和擴散模型的采樣參數（如temperature）來引入一些隨機性。有實驗性的情感控制功能。
優缺點: 生成的語音極其逼真，語音克隆效果和韻律遷移能力非常強。但由于同時使用了AR模型和擴散模型，其推理速度極其緩慢。對于過長的句子，生成質量可能會下降。

3.3.2 Coqui XTTS

Coqui XTTS 是一個基于Tortoise TTS，但針對多語言語音克隆和效率進行了改進的模型。

架構: XTTS建立在Tortoise的基礎之上，并進行了多項修改以支持多語言訓練、改進零樣本語音克隆（ZS-TTS）能力，并提升訓練和推理速度。它可能保留了Tortoise的核心組件，如AR模型、擴散模型（或替代的生成模塊）和聲碼器，但具體實現細節有所調整，例如使用了自定義的BPE文本分詞器和改進的說話人條件編碼器（可能使用Perceiver Resampler）。它同樣依賴于短（3-6秒）參考音頻進行語音克隆。XTTS v2版本在架構上做了改進，支持多參考音頻和說話人插值，并且支持流式推理。
韻律建模: 與Tortoise類似，XTTS的韻律建模也是隱式的，并由參考音頻驅動。其設計目標之一是實現跨語言的韻律遷移，即能夠將源語言參考音頻中的說話風格和韻律應用到目標語言的合成語音中。XTTS v2版本聲稱在韻律和音頻質量方面有全面提升，表明其韻律處理能力有所增強。
控制: 主要通過選擇參考音頻來控制聲音和風格。提供了一些推理參數（如temperature, length_penalty, repetition_penalty, top_k, top_p, speed）用于調整生成過程。提到了情感和風格遷移能力。支持模型微調以適應特定需求。
優缺點: 強大的跨語言零樣本語音克隆能力，僅需很短的參考音頻。相比Tortoise，速度有所提升，并支持流式推理。支持多種語言。語音質量和韻律表現仍然依賴于參考音頻的質量。模型結構依然復雜。

3.4 TTS的LLM時代

大型語言模型（LLMs）因其強大的文本理解、上下文推理和生成能力，正被越來越多地集成到TTS系統中，開創了新的韻律建模和控制范式。

核心趨勢:

離散語音表征 (Discrete Speech Tokens): LLM-TTS通常不直接生成梅爾頻譜，而是預測離散的語音單元（tokens），這些單元可以是聲學編碼器（如SoundStream, EnCodec）產生的聲學令牌（acoustic tokens），也可以是包含更多語義信息的語義令牌（semantic tokens）。LLM負責將文本序列映射到這些離散的語音令牌序列。
上下文學習 (In-Context Learning, ICL): 利用LLM的ICL能力，通過在輸入中提供簡短的參考音頻（通常也轉換為令牌形式）作為提示（prompt），實現零樣本語音克隆（ZS-TTS）。模型從提示中學習目標說話人的音色和韻律風格。
隱式韻律建模: 韻律通常由LLM在預測令牌序列時隱式建模。LLM利用其對文本上下文和（如果提供了）參考音頻提示的理解來生成包含適當韻律信息的令牌序列。

3.4.1 SparkTTS

SparkTTS 是出門問問提出的一個基于LLM的高效TTS系統。

架構: 核心是其定制的BiCodec語音編解碼器和一個LLM骨干（如Qwen2.5）。BiCodec的特點在于它將語音分解為單一流中的兩種互補令牌：低比特率的語義令牌（semantic tokens）捕獲語言內容，以及固定長度的全局令牌（global tokens）捕獲說話人屬性（如音色、風格）。這種解耦的表示旨在分離內容和說話人特征。生成過程據稱使用了思維鏈（Chain-of-Thought, CoT）方法，可能指LLM在生成最終令牌前會生成中間的控制或韻律規劃步驟。
韻律建模: 隱式建模。LLM根據輸入的文本和全局令牌（以及可能的CoT指令）來預測語義令牌序列。韻律信息主要由LLM基于上下文理解生成，并通過語義令牌體現。全局令牌主要控制說話人身份和整體風格，而語義令牌承載內容和具體的發音細節（包括韻律）。
控制: SparkTTS的設計目標是實現靈活的控制。
- 粗粒度控制: 通過操縱全局令牌或提供不同的參考音頻（影響全局令牌提取）來控制性別、整體說話風格等。
- 細粒度控制: 通過CoT方法或直接的指令（prompting）來調整具體的韻律參數，如精確的音高值或語速。這使得生成高度定制化的語音成為可能，超越了簡單的參考音頻克隆。
優缺點: 高效的單流編解碼器。提供靈活的粗粒度和細粒度控制能力。實現了先進的零樣本語音克隆效果。依賴于大規模標注數據集（如其發布的VoxBox）進行訓練。CoT在韻律控制中的具體機制需要更詳細的公開信息。

3.4.2 CosyVoice / CosyVoice 2

CosyVoice系列是另一個代表性的基于LLM的TTS系統，特別強調可擴展性和流式合成能力。

架構 (CosyVoice 2): 采用兩階段流水線：
- 文本-語音語言模型 (Text-Speech LM): 接收文本輸入（直接使用BPE分詞，無需G2P ），并自回歸地預測監督語義語音令牌 (Supervised Semantic Speech Tokens)。該LM可以直接使用預訓練的LLM（如Qwen2 ，或RWKV ）作為骨干，移除了獨立的文本編碼器和說話人嵌入。語義令牌通過S3Tokenizer（基于有限標量量化Finite Scalar Quantization, FSQ）從語音中提取，旨在捕獲語義內容。
- 塊感知因果流匹配模型 (Chunk-aware Causal Flow Matching): 將LM生成的語義令牌轉換為梅爾頻譜圖。該模型接收上采樣的語義令牌，并可以條件化于說話人嵌入或參考語音（用于ICL）。其“塊感知”和“因果”設計使其能夠支持流式合成，即在接收到部分輸入令牌后就能開始生成音頻，延遲較低。
韻律建模: 隱式建模。韻律主要由Text-Speech LM在預測語義令牌時根據文本上下文和（在ICL場景下）參考音頻提示來決定。S3Tokenizer專注于語義，可能有助于將韻律/風格信息與內容分離，這些信息隨后在Flow Matching階段結合說話人/參考信息進行聲學實現。
控制: 主要通過參考音頻提示進行零樣本語音克隆，包括音色、韻律和風格的遷移。CosyVoice 2還支持指令TTS (Instructed TTS)，允許用戶通過自然語言指令來控制生成的語音特征（如情感、說話風格）。
優缺點: 實現了高質量的零樣本語音克隆和流式合成，延遲低。統一了流式和非流式模型。利用預訓練LLM增強了上下文理解能力。支持指令控制。仍然是一個相對復雜的兩階段系統。有研究指出當前音頻分詞方法可能無法完全保留韻律細節。

下表總結了上述討論的關鍵開源TTS系統在韻律建模方面的主要特點：

模型名稱	架構類型	韻律建模方式	關鍵韻律組件/方法	韻律控制方式	主要優缺點 (韻律相關)
Tacotron 2	自回歸 Seq2Seq (RNN/LSTM + Attention)	隱式	注意力機制 (時長/節奏), 自回歸解碼 (音高/語調)	間接 (參考嵌入/GST, 注意力修改)	自然度高；控制不直接，易產生平均韻律；可能存在注意力對齊錯誤影響節奏
FastSpeech 2	非自回歸Transformer	顯式	Variance Adaptor (時長、音高(CWT譜)、能量預測器)	直接修改預測值 (時長、音高、能量)	控制性強，可解釋；韻律質量依賴預測精度，易過平滑；需外部對齊
VITS	端到端并行 (VAE + Flow + GAN)	隱式	VAE潛在空間 (音高/風格), 隨機時長預測器 (節奏), 歸一化流	隨機 (通過種子改變采樣), 條件化 (說話人/風格嵌入)	自然度/表現力好，建模多樣性強；控制是隨機/間接的，難精確調整
Piper	端到端并行 (基于VITS, ONNX優化)	隱式	繼承VITS (VAE潛在空間, 隨機時長預測器)	隨機 (種子), 說話人ID選擇	高效，適合邊緣設備；韻律能力依賴VITS基礎模型和質量等級
Tortoise TTS	多階段 (AR + Diffusion + Vocoder)	隱式 (參考驅動)	條件潛向量 (Conditioning Latents from Reference Audio)	參考音頻選擇，采樣參數調整	極高真實感，強韻律/風格克隆；推理極慢，長句可能失效
Coqui XTTS	多階段 (基于Tortoise, 多語言/流式優化)	隱式 (參考驅動)	參考音頻條件化，改進的說話人編碼	參考音頻選擇，推理參數，微調，(情感/風格遷移)	強跨語言克隆，支持流式；韻律依賴參考音頻，模型復雜
SparkTTS	LLM-based (Qwen2.5 + BiCodec)	隱式	LLM預測語義令牌，BiCodec全局令牌 (風格)，CoT	粗粒度 (全局令牌/參考)，細粒度 (指令/CoT)	靈活控制 (粗+細)，高效單流；依賴LLM和大數據，CoT細節不明
CosyVoice 2	LLM-based (LLM + S3Tokenizer + Flow Matching)	隱式	LLM預測語義令牌 (S3Tokenizer)，Flow Matching (聲學實現)，參考音頻/指令條件化	參考音頻提示 (ICL)，自然語言指令	高質量零樣本克隆，流式低延遲，指令控制；兩階段系統，音頻分詞可能損失信息
表1: 開源TTS系統韻律建模對比分析

開源TTS模型在韻律建模上展現了顯著的架構多樣性，從顯式預測到隱式生成，再到最新的LLM驅動范式。這一演變反映了領域內對于如何最好地平衡控制性、自然度、效率以及如何解決核心的“一對多”映射問題的持續探索。特別是，VITS代表的端到端生成和LLM驅動的離散令牌預測是當前的重要趨勢，它們傾向于通過強大的生成能力和大規模數據學習來隱式地捕捉自然的韻律模式，同時通過參考音頻或指令提供控制接口。零樣本語音克隆能力的普遍強調也表明，個性化和韻律風格遷移是當前TTS發展的重要方向，而這高度依賴于模型有效解耦和傳遞韻律信息的能力。

4. 增強表現力：高級韻律控制技術

除了基礎的韻律建模，研究人員還開發了多種高級技術來進一步增強合成語音的表現力，允許更靈活或更精細地控制韻律風格。

4.1 風格遷移：學習和應用風格嵌入

風格遷移（Style Transfer）旨在將源語音的說話風格（如情感、語調模式、節奏特點）遷移到目標文本的合成語音上，通常用于跨說話人場景。

參考編碼器 (Reference Encoder): 這是最常見的方法之一。一個獨立的編碼器網絡被訓練用來從一段參考音頻中提取一個固定維度的向量，稱為風格嵌入（style embedding）或韻律嵌入（prosody embedding）。這個嵌入向量隨后被用作TTS主模型（如Tacotron或其變體）的條件輸入，通常是與文本編碼器的輸出相加或拼接，或者注入到解碼器中，以引導合成語音具有參考音頻的風格。這種方法允許使用任意（通常是文本不相關的）參考音頻來控制風格。
全局風格令牌 (Global Style Tokens, GSTs): GST 是一種在訓練過程中無監督地學習一組（通常是有限個數）可解釋的風格基向量（style tokens）的方法。每個token可能對應一種特定的說話風格（如語速快、音調高、表達興奮等）。同時訓練一個參考編碼器，用于預測給定參考音頻時，這些基本風格token的組合權重。推理時，可以通過指定不同的權重組合來生成不同風格的語音，或者使用參考編碼器從參考音頻中推斷權重。
基于VAE的風格建模 (VAE-based Style Modeling): 利用VAE學習一個連續的潛在風格空間。參考編碼器（VAE的編碼器部分）將參考音頻映射到這個潛在空間中的一個點（通常是均值和方差）。推理時，可以從這個潛在空間采樣，或者使用參考編碼器得到特定參考音頻的潛在表示，然后將其作為條件輸入到TTS解碼器中。VITS 就內在地使用了VAE來建模包括風格在內的語音變化。一些工作如ControlVAE 嘗試使這個VAE潛在空間更具可解釋性。
多模態提示 (Multi-modal Prompts): 最近的研究開始探索使用文本描述或甚至面部表情圖像作為風格提示。這需要一個跨模態編碼器將不同模態的輸入映射到一個統一的風格嵌入空間。例如，MM-TTS 旨在構建一個能接受語音、圖像或文本描述作為風格輸入的統一框架。

風格遷移的主要挑戰在于解耦 (disentanglement) 。需要確保提取的風格嵌入只包含風格/韻律信息，而不含說話人身份或文本內容信息，否則在遷移時會導致聲音身份泄露或內容不匹配的問題。許多架構設計（如VAE的瓶頸結構、對抗訓練、梯度反轉等）都是為了促進更好的解耦。

4.2 參考音頻編碼：帶韻律遷移的語音克隆

語音克隆（Voice Cloning），特別是零樣本語音克隆（Zero-Shot TTS），與風格遷移密切相關，但其目標通常是更完整地復制一個（通常是未見過的）說話人的聲音，包括其獨特的音色和韻律風格，通常只需要幾秒鐘的參考音頻。韻律的成功遷移是實現高質量語音克隆的關鍵。

機制: 大多數零樣本TTS系統都包含一個參考編碼器，用于從輸入的短參考音頻中提取一個或多個嵌入向量，這些嵌入向量捕獲了說話人的音色和說話風格（包括韻律）。這些嵌入隨后被注入到TTS模型的不同部分（如編碼器、解碼器、時長/音高預測器或聲碼器）作為條件，以生成具有目標說話人聲音特征的語音。先進的模型可能會使用更復雜的編碼器，如基于Perceiver的架構或基于自監督學習（SSL）模型（如WavLM）的編碼器，以提取更魯棒和信息豐富的表示。
跨語言克隆與韻律遷移 (Cross-Lingual Cloning & Prosody Transfer): 一個更具挑戰性的任務是跨語言語音克隆，即使用一種語言的參考音頻來合成另一種語言的語音，同時保留說話人的音色，并生成目標語言的自然韻律。這要求模型不僅能克隆音色，還能理解源韻律的風格特征，并將其適應性地應用到目標語言的韻律規則上。XTTS 和 VIPT 是專注于此方向的模型。
細粒度韻律遷移 (Fine-grained Prosody Transfer): 傳統的參考編碼器通常提取一個全局的（utterance-level）風格嵌入。然而，韻律在話語中是動態變化的。因此，一些研究嘗試實現更細粒度的韻律遷移，例如在短語（phrase）、詞（word）或音素（phoneme）層面提取和應用韻律信息。這有望更精確地復制參考語音的局部韻律變化，但實現起來更復雜，需要解決對齊等問題。例如，CopyCat2 學習詞級別的說話人無關韻律表示。
基于LLM的上下文學習 (LLM-based In-Context Learning): LLM的出現為零樣本語音克隆提供了新的途徑。通過將參考音頻（通常先編碼為離散令牌）作為輸入提示的一部分，LLM可以在“上下文”中學習說話人的聲音特征（包括韻律），并將其應用于新文本的生成。這種方法將語音克隆問題轉化為一個大規模序列建模問題。
同樣，解耦是語音克隆成功的關鍵。模型需要能夠區分并分別控制音色、韻律和內容。參考音頻的質量和內容也會顯著影響克隆效果。

4.3 直接參數操縱：細粒度的韻律調整

對于那些具有顯式韻律預測模塊的模型（如FastSpeech 2），存在一種更直接的控制方式：在推理階段直接修改預測出的韻律參數值。

方法: 在模型預測出每個音素的時長、每幀的音高和能量后，但在這些值被送入后續的聲學模型（如梅爾頻譜解碼器）之前，可以對它們進行人為的調整。例如，可以將所有音素的時長乘以一個系數來全局改變語速，或者選擇性地增加某個詞對應音素的時長和音高來實現強調。
應用實例:
- PRESENT框架: 提出了一種無需重新訓練即可在預訓練的FastSpeech 2類模型上實現韻律編輯的方法。它通過解析用戶輸入的文本標記（例如，在詞語周圍加上特殊符號表示強調）來指導對相應位置的時長、音高、能量（Duration, Pitch, Energy - DPE）預測值進行修改。
- 人機交互調優 (Human-in-the-Loop, HitL): 一些研究探索了讓用戶通過圖形界面直接調整預測出的 $F_0$ 、能量和時長曲線，以迭代地改善合成語音的韻律。研究表明，雖然音素級別的控制可能過于復雜，但在詞語或句子級別進行調整是可行的，并且能夠提高韻律的適切性。
  挑戰: 這種方法的優點是控制非常直接和精確。然而，隨意的修改可能破壞韻律參數之間自然的協同變化關系（例如，通常時長增加伴隨著音高的變化），導致最終語音聽起來不自然。用戶需要具備一定的韻律知識才能有效地使用這種控制方式。

4.4 自然語言提示：LLM驅動的風格控制

利用LLM強大的自然語言理解能力，一種新興的控制方式是通過自然語言提示（prompt）來指導TTS系統生成具有特定風格或情感的語音。

方法: 用戶不再需要提供參考音頻或調整底層參數，而是直接用自然語言描述期望的輸出效果，例如“用悲傷的語氣說”、“這句話要讀得快一點”、“強調最后三個字”等。
實現: 這通常需要一個基于LLM的TTS架構。實現方式可能包括：
- 提示到嵌入 (Prompt-to-Embedding): 使用一個（可能是跨模態的）編碼器將自然語言提示轉換為風格嵌入向量，然后將其作為條件輸入到TTS模型中（如PromptStyle ）。
- 直接指令遵循 (Direct Instruction Following): LLM本身直接理解并執行指令。例如，CosyVoice 2的Instruct模型可以接收指令來控制說話人身份、情感等。EmoVoice 專注于通過自由格式的文本提示實現細粒度的情感控制。
- 思維鏈/中間表示 (Chain-of-Thought / Intermediate Representation): LLM可能首先根據指令生成一個中間的韻律規劃或參數表示，然后再生成最終的語音令牌（SparkTTS可能采用類似方式）。
潛力與挑戰: 這種方式提供了極其直觀和靈活的控制界面。用戶可以用自己習慣的方式描述需求。然而，其效果高度依賴于LLM對自然語言指令（尤其是涉及韻律這種抽象概念的指令）的理解能力，以及將這種理解準確映射到聲學特征上的能力。如何確保LLM生成的韻律既符合指令又保持自然度是一個關鍵挑戰。

這些高級控制技術共同推動了TTS向更具表現力、更個性化、更易于控制的方向發展。參考音頻驅動的克隆技術在個性化方面表現突出，而直接參數操縱和自然語言提示則在提供更靈活、細致的控制方面展現潛力。然而，所有這些技術都面臨著如何在增強控制的同時保持或提升語音自然度的核心挑戰，以及如何有效解耦語音中的各種信息（內容、說話人、風格、韻律）的問題。

5. 評估合成韻律：指標與方法

評估TTS系統生成的韻律質量對于模型改進和比較至關重要。評估方法主要分為客觀指標和主觀聽力測試兩大類。

5.1 客觀評估：量化聲學準確性

客觀評估通過計算合成語音的聲學特征與參考（通常是真人錄音）語音之間的差異來進行。這需要有與合成文本內容相同的、具有目標韻律的參考錄音，并且通常需要進行時間對齊（如使用動態時間規整DTW ）。

音高 ( $F_0$ ) 相關指標: $F_0$ ) 均方根誤差 ( $F_0$ )RMSE): 計算預測 $F_0$ )輪廓與參考 $F_0$ )輪廓之間的均方根誤差，通常在對數域（ $Log F_0$ RMSE）進行計算以符合人類聽覺感知。值越低表示預測越接近參考。
總音高誤差 (Gross Pitch Error, GPE): 指預測為有聲但實際無聲（或反之），或者預測的有聲幀 $F_0$ )誤差超過一定閾值（如20%）的幀所占的百分比。反映了在基頻估計和清濁音判斷上的較大錯誤。
清濁音決策誤差 (Voicing Decision Error, VDE): 預測的清音/濁音（Voiced/Unvoiced）標簽與參考標簽不一致的幀所占的比例。
$F_0$ 相關系數 ( $F_0$ )CORR): 計算預測 $F_0$ 輪廓與參考 $F_0$ 輪廓之間的相關系數。值越接近1表示兩者變化趨勢越一致。
時長相關指標:
- 時長預測誤差 (Duration Prediction Error): 通常使用均方誤差（MSE）或平均絕對誤差（MAE）來衡量預測的音素時長與真實時長（通常來自強制對齊）之間的差異 (隱含在FastSpeech 2論文中)。需要準確的真實時長標注。
  其他聲學指標:
- 梅爾倒譜失真 (Mel Cepstral Distortion, MCD): 衡量合成語音梅爾倒譜系數（MFCCs或MCEPs）與參考語音之間的距離，反映整體頻譜結構的相似度，常用于評估整體音質。值越低越好。
- 能量均方根誤差 (Energy RMSE): 類似于 $F_0$ )RMSE，可以用來評估預測能量與參考能量之間的差異。
局限性: 客觀指標的主要問題在于它們與人類主觀感知的相關性并不完美。例如，一個 $F_0$ RMSE很低的合成語音可能聽起來仍然非常平淡（過平滑），而一個在客觀指標上稍差但韻律變化更豐富的語音可能聽起來更自然。此外，客觀評估依賴于高質量的、嚴格對齊的參考錄音，這在某些場景下難以獲得。

5.2 主觀評估：聽眾對自然度與表現力的感知

主觀評估依賴于人類聽眾對合成語音進行打分或比較，被認為是評估感知質量的黃金標準。

平均意見分 (Mean Opinion Score, MOS): 最常用的主觀評估方法。聽眾被要求對合成語音樣本的某個方面（如自然度、表現力、整體質量）在預定義的等級（通常是1到5分，分數越高越好）上打分。自然度MOS是衡量合成語音質量的一個主要驅動指標。
比較平均意見分 (Comparative Mean Opinion Score, CMOS): 聽眾直接比較兩個不同系統（如系統A和系統B）生成的同一句話，并給出偏好得分（如從-3到+3）。這種方法可以減少個體聽眾打分標準不一帶來的偏差。
AB/ABX 測試: 在AB測試中，聽眾選擇兩個樣本（A或B）中哪個更好。在ABX測試中，聽眾判斷樣本X與樣本A或樣本B哪個更相似或相同。常用于比較兩個系統或判斷合成語音與真實語音的相似度。
MUSHRA (MUltiple Stimuli with Hidden Reference and Anchor): 一種更復雜的測試方法，聽眾同時對多個（包括隱藏的參考樣本和低質量錨點樣本在內）待測系統的輸出進行評分（通常在0-100分之間）。適用于評估細微的質量差異。
特定屬性評分: 除了整體評價，還可以要求聽眾針對特定的韻律屬性進行評分，例如語調是否恰當、節奏是否自然、重音是否準確等。這有助于更深入地了解模型在韻律方面的具體表現。
局限性: 主觀評估成本高、耗時長，需要招募和培訓聽眾，并進行仔細的實驗設計以確保結果的可靠性。聽眾的背景、疲勞度以及測試環境都可能影響結果。特別是，傳統的在孤立句子上進行的MOS測試可能無法反映模型在真實語篇或對話環境中的韻律表現是否恰當。

5.3 局限性與上下文評估的需求

當前的評估方法存在明顯的不足。客觀指標雖然方便快捷，但與感知的韻律質量（自然度、表現力、適切性）之間存在差距。主觀測試雖然更接近人類感知，但成本高昂，且傳統的孤立句評估模式忽略了韻律的上下文依賴性。韻律的功能（如標示語篇結構、表達情感、區分焦點）往往需要在特定的語境中才能體現其恰當性。

因此，未來的評估方法需要更加關注上下文。這可能包括：

在更長的語篇（段落、故事）或對話場景中進行主觀評估。
設計評估任務來考察韻律的適切性（appropriateness），即生成的韻律是否符合給定的語境、情感或說話意圖。
開發新的、與人類感知更相關的自動化客觀指標，例如基于深度學習的MOS預測器或利用自監督學習特征的指標（如SpeechBERTScore ）。
構建更全面的評估框架，整合多種客觀和主觀指標，并提供上下文信息，如ATTEST框架的嘗試。
準確、全面地評估合成韻律仍然是一個開放的研究領域，對于推動TTS技術向更高表現力發展至關重要。

6. 總結：合成富有表現力的語音

TTS系統模擬語音韻律的技術路徑已經從早期的基于規則和統計參數的方法，發展到當前由深度學習主導的時代。核心挑戰始終圍繞著如何有效處理文本到韻律的“一對多”映射問題，以及如何捕捉和生成依賴于復雜上下文的、微妙而自然的韻律變化。

大型語言模型的引入是當前TTS領域，特別是韻律建模和控制方面，最顯著的進展。LLM增強了模型對文本上下文和語義的理解，使得生成更恰當、更自然的韻律成為可能。離散語音令牌和上下文學習（ICL）范式極大地提升了零樣本語音克隆的能力，使得個性化TTS更加便捷。自然語言指令控制則為用戶提供了更直觀、靈活的交互方式。同時，流式合成技術的發展解決了LLM-TTS在交互應用中的延遲問題。

盡管取得了巨大進步，但合成完全自然且富有表現力的韻律仍然面臨挑戰。未來的研究方向可能包括：