語音合成之十五語音合成（TTS）分句生成拼接時的響度一致性問題：現狀、成因與對策

語音合成（TTS）分句生成拼接時的響度一致性問題：現狀、成因與對策

引言：分段式文本轉語音中的響度一致性挑戰
業界對響度差異問題的認知
拼接語音片段中響度變化的根本原因
- 分段拼接的固有挑戰
- 各片段預測韻律特征的差異
- 文本特征和模型行為的影響
緩解響度不一致的主流解決方案
- 后處理歸一化技術
- 基于模型的響度與韻律控制
- 數據準備與生成策略
解決方案的原理與關鍵考量
- 后處理歸一化
- 基于模型的控制
- 數據準備與生成策略
先進技術與未來方向
- 面向長時連貫性的上下文感知TTS模型
- 分段變體碼本（SVCs）
- 旨在實現固有韻律一致性的端到端模型
- 響度一致性的客觀與主觀評估
- 響度不連續性檢測與量化研究
結論與建議
- 對從業者的建議

現代文本轉語音（Text-to-Speech, TTS）系統，特別是基于深度神經網絡（DNN）的系統，在語音自然度和可懂度方面取得了顯著進展。這些系統通常通過將文本處理成較小的單元（例如句子、短語），然后將這些單元合成為音頻片段，最終拼接成更長的語音。這種分段生成方法在管理計算資源、實現流式播報以及處理長篇文本方面非常普遍。

從基于拼接合成（依賴預先錄制的語音單元）到統計參數語音合成（SPSS），再到如今的端到端神經模型（如Tacotron、FastSpeech、VITS、Cosyvoice），標志著TTS技術的巨大進步。然而，這些先進方法也帶來了新的挑戰，特別是在維持獨立生成片段之間的一致性方面。

引言：分段式文本轉語音中的響度一致性挑戰

響度不一致性指的是當獨立合成的語音片段被拼接在一起時，在音量或感知響度上出現的可察覺的差異。這可能表現為在片段邊界（例如句子之間）處響度的突然跳躍或下降。此問題不同于對完整音頻文件的整體響度歸一化；它特指在旨在形成連續語音流的拼接部分之間，相對響度的差異。用戶的反饋，例如關于GPT-4o-mini-tts的報告，明確將此描述為“單一敘述中不一致的響度”，聽起來像是敘述者反復靠近又遠離麥克風。這突顯了該問題的感知影響。

一致的響度對于自然且愉悅的聽覺體驗至關重要。突然的響度變化可能會讓聽者感到刺耳、分心，并降低合成語音的感知質量和專業性。對于有聲讀物、虛擬助手和電子學習等通常包含長篇內容的應用而言，保持一致的響度對于聽眾的參與度和理解力至關重要。不一致的響度可能使語音聽起來不自然，甚至暗示說話人或錄音條件發生了變化，從而破壞了實現無縫、類人語音合成的目標。

盡管人類語音雖然動態多變，但在特定語境下通常保持連貫的響度水平，其變化服務于韻律目的。TTS在片段間產生突兀的、語境不當的響度變化，這并非自然人類語音的典型特征，除非是為了特定強調或由外部因素（如麥克風移動）引起。當TTS產生此類變化時，它偏離了預期的自然度，可能導致語音聽起來“怪異”或“中斷”，盡管單個片段的質量可能很高。

此外，響度變化可能會加劇其他拼接瑕疵（例如音色或語速的輕微變化），使得片段邊界更加明顯。響度是一個高度顯著的感知特征。如果一個片段邊界已經存在細微的頻譜或韻律差異，同時發生的響度急劇變化將更容易引起對該邊界的注意，從而使拼接點更加明顯，整體語音流暢性降低，因為多種線索都指向了一個“接縫”。

業界對響度差異問題的認知

商業和開源TTS系統的用戶正積極報告此問題。例如，GPT-4o-mini-tts的用戶注意到“影響所有新語音的音量波動”，其中“GPT-4o-mini-tts中引入的每個新語音在單一敘述中頻繁表現出不一致的響度” 。這被描述為敘述者聽起來像是在相對麥克風移動。這些報告通常強調，此類問題與先前模型相比是一種倒退，或影響了在生產環境中的可用性。這表明，隨著TTS模型變得更加復雜或旨在實現更大的表現力，像響度一致性這樣的新挑戰可能會出現或變得更加突出。

該問題具體表現為句子或短語之間音量的可聽“跳躍”或“驟降”，聽者感覺“說話人”似乎在靠近或遠離麥克風，以及在理想情況下應具有相似韻律特征的片段之間能量水平不一致。在多說話人TTS中，或在不同說話風格或情感之間切換時，如果處理不當，這些問題可能會更加明顯。

端到端神經TTS模型學習從文本到聲學特征或波形的復雜映射。**當通過分塊生成長音頻時，模型可能會將每個塊視為某種程度上獨立的語句。如果沒有明確的塊間連貫性機制，模型可能會根據當前的文本和學習到的模式，為每個塊的韻律參數（包括能量/響度）設定略微不同的局部最優值。**這可能導致如GPT-4o-mini-tts中報告的意外變化，這些變化可能并非明確“設計”出來的，而是在分段生成條件下模型行為的產物。

此外，追求更具表現力和類人化的TTS（例如，情感語音、多樣的說話風格）可能會無意中增加響度不一致的風險，如果這些表現力特征的控制機制在片段邊界處沒有得到完美的協調。表現力TTS旨在通過改變韻律（音高、時長、能量/響度）來傳達情感或風格。如果片段以不同的目標情感或細微的風格差異（即使是無意的，源于模型對文本的解釋）生成，它們固有的響度水平可能會有所不同。在沒有平滑處理或全局歸一化的情況下拼接這些片段，會導致明顯的響度跳變。因此，模型在每個片段中用于表現力的自由度越大，如果管理不當，片段間不一致的可能性就越高。

拼接語音片段中響度變化的根本原因

分段拼接的固有挑戰

邊界處的頻譜失配：
傳統拼接合成面臨的問題是，相鄰單元的頻譜特性（如共振峰、頻譜傾斜度）無法完美對齊，導致可聞的不連續性。盡管現代神經TTS生成的是特征而非拼接固定單元，但如果一個片段末尾和下一個片段開頭的預測頻譜特征不連貫，類似問題仍可能出現。Chappell和Hansen指出，突然的頻譜變化可能被感知為說話人的改變，這突顯了此類不連續性的感知影響。頻譜特性本身也會影響感知響度。
相位失配：
拼接點處的相位不連續也可能導致瑕疵，盡管這更直接關系到波形平滑度而非整體響度感知。
缺乏片段間上下文感知：
當TTS模型獨立生成片段（例如逐句生成）時，每個片段的合成可能沒有充分意識到前面或后面片段的韻律上下文。增量式TTS（iTTS）系統尤其受此影響，因為未來上下文嚴重影響韻律，包括能量/響度。缺乏前瞻性可能導致次優的韻律選擇，在片段連接時表現為響度變化。

各片段預測韻律特征的差異

現代TTS模型通常會為每個音素或幀預測韻律特征，如音高、時長和能量（與響度密切相關）。如果這些預測是針對每個片段獨立進行的，那么輸入文本、學習到的偏差或模型中的隨機因素的微小差異都可能導致片段間的平均能量水平不同。例如，FastSpeech 2在其方差適配器中包含一個能量預測器，用于建模幀級幅度。如果該預測器為一個句子產生的平均值持續高于下一個句子，則在拼接時會發生響度跳變。SR-TTS在其節奏協調器中也具有能量預測器，旨在實現平滑的能量變化，但如果沒有 overarching 的一致性機制，獨立的片段生成仍可能帶來挑戰。

文本特征和模型行為的影響

文本線索：
標點符號、句子結構和語義重音都會影響片段的預測韻律。如果這些線索導致相鄰片段的能量分布顯著不同，則可能發生響度變化。例如，一個感嘆句的合成能量可能整體高于前面的陳述句。
模型敏感性和穩定性：
某些模型可能對輸入文本或內部狀態的微小變化更為敏感，導致每個片段輸出響度的可變性更大。能量預測在不同但相似的輸入下的穩定性至關重要。
情感TTS：
在情感TTS中，不同的情感本身就具有不同的能量分布。如果試圖傳達細微的情感轉變（或者模型將中性文本誤解為帶有情感暗示）在不同片段中發生的方式不同，響度就會發生變化。

獨立片段生成在每個邊界處可能會產生一種“韻律重置”效應。模型可能會孤立地優化每個片段的韻律（包括響度），而沒有對前一個片段韻律狀態的強“記憶”。當一個新的片段開始時，模型基本上是為這段新文本“重新”開始其韻律規劃。除非有明確的條件設置或機制來傳遞韻律狀態（如某些先進的長文本模型），否則新片段的基線響度可能與前一個片段的結束狀態響度不同。

此外，在分別預測時長、音高和能量的模型中（例如FastSpeech 2 ），一個預測器（例如時長）的錯誤或變化可能會間接影響能量/響度的感知自然度，即使能量預測本身在局部是連貫的。例如，一個不自然的長時間停頓后跟一個正常響度的片段，可能會使該片段聽起來更響或更突兀。韻律是一個多因素現象，時長、音高和能量相互作用。如果時長預測器為片段的最后一個音素分配了異常短的時長，或者在片段之間分配了異常長的停頓，下一個片段的感知起始可能會受到影響。即使下一個片段的物理能量水平在孤立狀態下是“正確”的，其感知影響（包括感知到的響度變化）也可能因時長預測器創建的時間上下文而改變。

訓練數據的不均勻性也可能是一個因素。如果TTS模型的訓練數據在不同語句或說話人之間的響度不一致（沒有適當的歸一化或條件設置），模型可能會學習到將某些音素或語言環境與這些變化的響度水平聯系起來，從而在合成新的、未見過的文本片段時導致不可預測的響度輸出。神經網絡TTS模型從大型語音數據集中學習。這些數據集可能包含來自不同說話人、不同環境以及不同錄制水平的錄音。如果在訓練期間沒有對響度進行一致的歸一化或將其明確建模為可控特征，模型可能會隱式學習到文本特征與數據中存在的響度變化之間的虛假相關性。在生成片段時，這些學習到的相關性可能導致具有不同特征的片段具有不同的基線響度水平，從而在拼接時造成不一致。

緩解響度不一致的主流解決方案

解決TTS分段生成中的響度不一致問題，業界和學術界已探索多種方法，主要可分為后處理歸一化、基于模型的響度與韻律控制，以及數據準備與生成策略優化。

后處理歸一化技術

這通常是最直接的方法，應用于語音片段生成并拼接之后，或在拼接前對單個片段進行處理，目標是將音頻幅度調整到一致的目標水平。

常見歸一化算法：
- 峰值歸一化（Peak Normalization）：調整增益，使最高峰值達到目標水平（通常為0 dBFS以防止削波）。雖然簡單，但與感知響度的相關性不佳。一個音軌可能峰值很高，但整體聽起來仍然很安靜。
- 均方根（RMS）歸一化：根據信號在時間窗口內的平均功率調整增益。這比峰值歸一化更能反映感知響度，但未完全考慮人耳的頻率感知特性。TTSAudioNormalizer使用RMS幅度作為關鍵指標。
- LUFS（Loudness Units Full Scale）/ EBU R128：這是感知響度歸一化的現代標準，廣泛應用于廣播和流媒體領域。它使用K加權（一種近似人耳聽覺靈敏度的頻率加權曲線），并測量整個音頻的積分響度，以及瞬時和短期響度。這確保了不同的音頻片段聽起來同樣響亮，無論其峰值或RMS水平如何。Narakeet在其“歸一化語音音量”選項中使用了EBU R128 。MATLAB的Audio Toolbox也提供了符合EBU R128標準的功能。
歸一化工作流程：
典型工作流程包括：1. 基本預處理（格式轉換、采樣率統一），2. 音頻質量優化（直流偏移消除、音量歸一化），3. 噪聲處理，4. 質量檢查。像TTSAudioNormalizer這樣的工具提供了批量處理功能，并使用SoX的 norm 效果，通常針對一個dB級別（例如-3dB）。如果未明確指出是LUFS，這很可能是一種峰值或RMS歸一化。對于EBU R128，過程包括測量積分響度（例如，廣播為-23 LUFS）并應用增益調整以達到目標。

表1：后處理響度歸一化技術比較

算法	原理	優點	缺點	典型用例
峰值歸一化	將最高采樣點調整至目標電平（如0 dBFS）	簡單，防止削波	與感知響度關聯差，可能導致整體音量不均	削波預防，簡單電平調整
RMS歸一化	基于信號的均方根值（平均功率）調整增益	比峰值歸一化更能反映平均響度	未完全考慮人耳頻率響應，可能受短暫高能量聲音影響，仍非理想感知響度	傳統音頻處理，數據集初步音量對齊
LUFS/EBU R128	基于K加權濾波和時間門控的積分響度測量，模擬人耳感知	與感知響度高度相關，實現跨片段/節目的一致聽感	算法相對復雜，不當使用（如過度壓縮以達標）可能影響動態范圍	廣播、流媒體平臺、專業音頻制作

基于模型的響度與韻律控制

這種方法旨在TTS模型內部解決響度一致性問題，通過更精細的控制來生成本身就具有一致響度的語音。

TTS模型中的顯式能量/響度預測：
許多現代神經TTS模型，特別是非自回歸模型如FastSpeech 2，集成了“方差適配器”（variance adaptors），可從輸入文本中顯式預測音高、時長和能量等韻律屬性。預測的能量輪廓隨后用于調節語音合成過程。
- FastSpeech 2：其方差適配器包含一個能量預測器，用于預測STFT幀幅度的幀級L2范數，從而實現更可控和更多變的韻律。
- Tacotron 2：雖然最初是自回歸模型，但其變體和受其啟發的后續模型通常包含韻律控制機制。一些研究探索了在Tacotron類模型中基于能量等聲學特征進行條件化。
- SR-TTS：包含一個“節奏協調器”（rhythmic harmonizer），帶有韻律、音高和能量預測器，以增強自然度和時間一致性。其能量預測器使用自注意力機制來捕捉相關性并提高合成準確性。
- Milvus.io的文檔指出，像Tacotron或FastSpeech這樣的神經TTS模型會分析輸入文本以預測包括能量（響度變化）在內的韻律特征，并從訓練數據中學習相關性。
使用SSML標簽進行音量控制：
語音合成標記語言（SSML）是W3C標準，允許開發者向TTS系統提供關于如何將文本呈現為語音的更詳細指令。
- 標簽及其 volume 屬性是控制合成語音響度的標準方法。其值可以是數字（例如Replica Studios中的-6dB到+6dB的dB調整）或類別（例如“soft”、“medium”、“loud”）。
- Webex Contact Center支持，遵循W3C SSML 1.0規范，默認值為“medium”（100或0 dB）。
- 這允許在詞或短語級別進行細粒度控制，但依賴于TTS引擎的實現，如果過度使用或片段仍以某種獨立性處理，則可能無法保證平滑過渡。
全局風格令牌（GSTs）和說話人嵌入：
- GSTs可以學習并應用廣泛的風格特征，其中可能包括整體能量或說話強度的方面。
- 說話人嵌入有助于保持一致的聲音特性，這間接有助于韻律一致性，包括說話人典型的響度模式。
- StyleSpeech提出了風格自適應層歸一化（SALN），根據從參考音頻中提取的風格來對齊增益和偏差，這可能會影響響度。
可控TTS框架：
研究越來越關注“可控TTS”，允許對各種語音屬性進行細粒度操作，包括韻律（涵蓋能量/響度）。
- 像Dia和Parler-TTS這樣的模型提供情感和音調控制，這些與響度變化密切相關。然而，并未總是詳細說明用于拼接片段的顯式響度一致性機制。
- Naver Labs關于對比焦點的工作展示了通過文本標記對F0、強度和時長進行控制。

表2：基于模型的響度/能量控制機制概述

模型/技術	控制機制	控制粒度	對響度一致性的影響	主要考量因素
FastSpeech 2 能量預測器	顯式預測幀級能量	幀	旨在生成具有目標能量輪廓的片段，有助于片段內和片段間的一致性	模型復雜度，訓練數據對能量標注的依賴性
SR-TTS 能量預測器	顯式預測能量，使用自注意力機制	幀	提升能量預測準確性和平滑度，促進一致性	模型復雜度，計算開銷
SSML	通過標記語言顯式指定音量	詞、短語、句子	允許手動調整片段響度以匹配，但依賴正確使用	需要外部（手動或自動）生成SSML標簽，可能導致不自然過渡
全局風格令牌 (GSTs)	從參考音頻學習并應用全局風格（可包含能量）	語句/片段	間接通過風格一致性促進響度一致性	控制的間接性，可能不足以解決所有響度跳變問題
可控TTS框架 (如Dia, Parler-TTS)	通過高級指令（如情感、音調）控制韻律	通常為語句/片段，或更細粒度	情感/音調與能量相關，但直接響度一致性控制可能不明確	控制的抽象程度，具體實現對響度一致性的影響各異

數據準備與生成策略

這類方法從數據源頭和生成過程入手，力求從根本上減少響度不一致的產生。

優化的文本分塊策略：
將長文本分割成小塊進行TTS處理的方式，會顯著影響韻律的連續性，包括響度。
- 在自然的邊界（如句子或從句）進行分塊通常優于任意字符限制，因為這有助于保持自然的語音流。Deepgram的文檔討論了按句子/從句邊界分塊以保持自然度。
- 動態分塊根據文本結構和長度調整塊大小，旨在平衡處理效率和自然度。
- 目標是避免在短語中間或以不自然的方式打斷文本，這些方式如果作為獨立單元合成，會導致韻律重置或能量的不自然變化。
拼接片段間的過渡平滑技術：
- 頻譜平滑/插值：歷史上用于拼接合成，這些方法旨在使片段之間的頻譜過渡更加平緩。這包括最佳耦合、波形插值（WI）和基于LP的方法（極點移位、LSF插值）。雖然在現代端到端神經TTS（生成特征而非選擇單元）中應用較少，但確保平滑特征過渡的原則仍然適用。
- 波形插值（WI）：通過在時域或頻域插值波形，創建新的、平滑的數據插入片段之間。
- 重疊相加（OLA）：一種常見的信號處理技術，通過重疊片段末端并進行交叉淡入淡出，平滑地連接音頻片段。在增強拼接音頻片段的上下文中提到了這一點。
片段間能量歸一化（拼接期間或之前）：
這包括在拼接各個片段之前對其能量或響度進行歸一化，以確保它們匹配目標水平或相互匹配。
- Kumar等人關于用于語碼轉換ASR數據增強的Speech Collage的工作描述了通過單元片段能量的平均值來歸一化合成的語句，以消除片段間能量變化引入的瑕疵。為此提供了類似RMS的能量歸一化公式： $X’={x_t/ \sqrt{(1/T)* \Sigma(x^2_t)} },t=1,\cdots,T$
- 這可以看作是一種更主動的后處理形式，應用于片段級別。

這些解決方案可以看作是在不同階段起作用：1. 主動（數據/生成）：智能分塊和訓練數據歸一化旨在從一開始就防止大的響度變化。2. 集成（基于模型）：能量預測器和SSML控制試圖在合成過程中生成具有適當且一致響度的片段。3. 被動（后處理）：歸一化算法在片段生成/拼接后修復響度不一致問題。一個穩健的系統可能需要結合這些方法。

此外，舊的/簡單的方法（峰值、RMS歸一化，基本能量預測）通常針對信號強度的物理度量。更先進的方法（EBU R128，復雜的韻律模型）則旨在實現感知響度的一致性，這更為復雜但能帶來更好的用戶體驗。這反映了音頻處理領域的更廣泛趨勢。最初控制響度的嘗試可能集中于簡單的度量，如峰值電平或RMS能量。然而，人類對響度的感知是非線性的且依賴于頻率。像EBU R128這樣的標準之所以被制定出來，正是因為物理度量并不總是與感知響度相關，從而導致了“響度戰爭”。因此，那些包含感知模型（如EBU R128中的K加權）或在感知數據上訓練模型的解決方案，在從聽眾角度實現真正的響度一致性方面可能更有效。

雖然經典的頻譜平滑是為單元選擇合成而設計的，但確保獨立生成的神經TTS片段之間聲學參數空間（如梅爾頻譜圖）平滑過渡的原則仍然高度相關。現代的等效方法可能涉及學習到的過渡平滑器或特定的損失函數，這些函數會懲罰關鍵聲學特征在拼接點處的突變。拼接合成連接預先錄制的波形單元；平滑旨在減輕其聲學特性的失配。神經TTS生成聲學特征（例如梅爾頻譜圖），然后由聲碼器轉換為波形。如果這些聲學特征的片段是獨立生成然后在聲碼處理前拼接的，特征空間中仍然可能出現不連續。因此，“平滑”過渡的概念仍然有效，但它將應用于預測的特征序列（例如，確保片段N的最后幾幀梅爾頻譜圖平滑過渡到片段N+1的最初幾幀）。這可以通過在特征域進行插值或通過明確學習使這種過渡平滑的模型架構來實現。

解決方案的原理與關鍵考量

后處理歸一化

采用原因（原理）：
- 簡單性和廣泛適用性：可以作為幾乎任何TTS系統生成的音頻的最后一步應用，無需修改核心模型。這使其成為現有流程的通用解決方案。
- 感知響度對齊（尤其是EBU R128）：像EBU R128這樣的標準旨在匹配人類對響度的感知，從而在不同片段甚至不同內容之間提供更一致和愉悅的聽覺體驗。這對于滿足廣播或平臺標準至關重要。
- 有效糾正嚴重差異：能夠有效拉平片段之間顯著的音量差異。
關鍵考量因素：
- 可能改變動態范圍：激進的歸一化，特別是峰值或簡單的RMS歸一化，如果不小心應用，可能會減小富有表現力語音的預期動態范圍。例如，如果一個片段為了效果而故意設置得很安靜，歸一化可能會不適當地提高其音量，或者減弱一個故意設置得很響亮的片段的沖擊力。基于LUFS并帶有適當門控的方法通常能更好地保留預期的動態。
- 目標響度的選擇：目標水平（例如-23 LUFS, -14 LUFS）取決于應用和交付平臺。不一致的目標可能導致在與其他音頻集成時出現問題。
- 處理開銷：雖然通常效率較高，但對非常長的音頻或大批量片段進行歸一化會給TTS流程增加一個計算步驟。
- 逐段歸一化與全局歸一化：在拼接前獨立地將每個片段歸一化到目標水平，由于內容密度的不同，仍可能導致輕微的感知差異。對完全拼接的音頻進行歸一化通常更有利于整體一致性，但逐段預歸一化有助于管理極端異常值。
- 保持音頻質量：歸一化過程本身不應引入瑕疵。像SoX這樣的工具旨在調整音量的同時保持原始質量。

基于模型的控制

采用原因（原理）：
- 集成且可能更自然的控制：將響度控制構建到模型中，可以實現更細致和上下文感知的調整，這些調整可以從數據中學習，從而可能產生比生硬的后處理更自然的韻律。
- 從數據中學習響度輪廓：模型可以從訓練語料庫中學習與不同語言結構、情感或說話風格相關的典型能量模式。
- 細粒度控制：像SSML或內部預測器這樣的技術可以在不同層面（音素、詞、句）提供控制，允許有意識的韻律強調。
- 主動解決問題：旨在生成本身響度就一致的語音，減少對后處理的依賴。
關鍵考量因素：
- 模型復雜度：添加像方差適配器或風格編碼器這樣的組件會增加模型的大小和復雜性。
- 數據需求：訓練穩健的能量預測器或風格控制器需要大規模、多樣化且標注良好（或至少錄制一致）的數據集。模型需要看到足夠多的響度變化示例才能有效地學習它們。
- 過度平滑或不自然控制的風險：如果調整不當，顯式的韻律預測器有時可能導致“平均”或過于平滑的韻律，缺乏自然的動態性。相反，控制不當的顯式輸入可能導致不自然的語音。
- 可控性與自動化：雖然SSML提供顯式控制，但它需要手動標注或復雜的上游NLP組件來生成標簽。跨片段全自動預測自然能量輪廓仍然具有挑戰性。
- 對未見上下文的泛化能力：模型必須能很好地泛化到新的文本輸入和上下文，以保持一致的響度。Xie等人的綜述討論了實現完全可控TTS的持續研究，表明這仍然是一個活躍的領域。

數據準備與生成策略

采用原因（原理）：
- 主動預防不連續性：智能分塊和數據準備旨在從一開始就防止導致韻律突變的條件。
- 保持自然語音流：在自然語言邊界處分塊有助于TTS模型在每個片段內產生更連貫的韻律。
- 從源頭減少瑕疵：在特征或波形層面平滑過渡可以直接在拼接點解決不連續性問題，可能比之后僅依賴全局響度歸一化產生更清晰的音頻。
關鍵考量因素：
- 分塊對長程上下文的影響：雖然在句子邊界分塊是好的，但某些韻律現象跨越多個句子（例如段落級語調）。過于激進的分塊仍可能丟失一些長程連貫性。Deepgram的文檔指出，為了獲得最佳延遲，請求應接近最大字符限制，這可能與純粹的語言學分塊相沖突。
- 平滑算法的復雜性：先進的頻譜或波形平滑技術可能計算密集且難以正確實現。如果應用不當，它們也可能引入自身的瑕疵。
- 確定何時需要平滑：正如Chappell和Hansen 所討論的，了解何時真正需要平滑非常重要，因為不適當的平滑會降低質量。這需要可靠的不連續性檢測。
- 片段間能量歸一化的有效性：對每個片段的能量進行歸一化是一個好步驟，但平均窗口的選擇以及與片段內動態內容的相互作用需要小心處理，以避免削弱自然的表現力。

有效的響度一致性可能需要結合局部（片段內）韻律生成和全局（跨片段）歸一化或連貫性機制。僅依賴其中一種可能不夠。基于模型的控制（例如能量預測器）主要在當前合成的片段內局部操作。后處理歸一化通常在拼接的音頻上全局操作，或在拼接前對單個片段操作。

純粹的局部方法可能會忽略更廣泛的響度趨勢，或者如果每個片段都是孤立優化的，則無法確保平滑過渡。純粹的全局后處理方法可能會“掩蓋”本可以在生成階段更好地處理的問題，這可能會犧牲一些自然的動態性。因此，一個模型旨在實現良好的局部韻律，然后進行輕微的全局歸一化以確保自然度和一致性的系統可能是最優的。

控制或歸一化“響度”的哪個方面（峰值、RMS、LUFS、幀級能量）的選擇對結果有重大影響。針對感知響度（LUFS）的解決方案通常能帶來更好的用戶體驗，但與簡單的能量預測相比，在模型內部實現可能更復雜。不同的度量標準捕捉響度的不同方面：峰值（瞬時最大值）、RMS（平均功率）、LUFS（感知響度）。TTS模型通常預測幀級的“能量” ，這與RMS相關。后處理可以應用LUFS歸一化。如果一個模型能很好地預測幀級能量，但這些能量模式在片段間累加起來不能產生感知上一致的LUFS值，那么仍然需要后處理。理想情況下，基于模型的能量預測應遵循與感知響度一致的原則，或者模型應學習生成只需最少LUFS調整的輸出。

對于高價值內容，一些解決方案（如SSML或Replica Studios 等平臺中的微調控制）允許人工監督和調整。這承認了全自動解決方案可能并不總是能實現完美的一致性，特別是對于高度表達或復雜的內容。全自動TTS旨在無需干預即可達到高質量。然而，在各種長文本中實現完美的韻律一致性，包括響度，是非常具有挑戰性的。SSML 提供了對韻律的明確手動控制。像Replica Studios這樣的平臺提供微調控制。這意味著對于關鍵應用，可能需要人工審查和調整TTS輸出，包括響度，這表明當前的全自動解決方案對于所有場景并非萬無一失。

先進技術與未來方向

面向長時連貫性的上下文感知TTS模型

跨語句條件化：正在開發一些模型，以便在合成當前片段時考慮周圍的文本或聲學上下文。
- CUC-VAE S2（跨語句條件變分自編碼器語音合成）：該框架旨在通過從周圍句子中提取聲學、說話人和文本特征來生成上下文敏感的韻律特征，從而增強韻律和自然度。這直接解決了缺乏片段間感知的問題。它可以與FastSpeech 2等模型集成。
- 情感對話語音合成（EDSS）：通過將先前語句的全局表示拼接起來作為TTS系統的條件，利用對話上下文。雖然側重于情感，但使用先前語句上下文的原則與整體韻律一致性相關。
大型語言模型（LLMs）用于韻律規劃：正在探索LLM理解更廣泛上下文并在更長的文本段落中規劃韻律變化（包括能量）的能力。Sigurgeirsson和King（2024）曾提示LLM預測相對基頻和能量。

分段變體碼本（SVCs）

SVCs通過在多個語言層面（幀、音素、詞、語句）編碼語音，以便比固定的幀級離散語音單元更好地保留副語言和韻律信息。通過在離散化之前對連續表示進行預池化，SVCs在保留片段級韻律特征（包括與強度/能量輪廓相關的特征）方面更有效。這可能在片段拼接時帶來更一致的韻律。

旨在實現固有韻律一致性的端到端模型

完全端到端TTS模型（直接從文本或音素生成波形）的趨勢旨在減少多階段流程的復雜性，并可能學習到更全面的語音表示，包括長程韻律依賴性。像VITS 及其變體這樣的模型試圖學習捕捉語音變化的潛在表示。雖然這些潛在變量的隨機性可能導致節奏和音高的變化，但目標通常是提高自然度，其中包括適當的韻律流。挑戰仍然在于確保這些模型在分段生成的非常長的語句中保持一致性，特別是對于響度等方面。

響度一致性的客觀與主觀評估

客觀指標：
- 標準的TTS指標如MCD、SNR、STOI 主要評估片段質量和可懂度，而非直接評估片段間的響度一致性。
  *需要用于衡量跨片段響度變化的指標。這可能涉及計算滑動窗口或每個拼接片段的LUFS或RMS能量，然后測量這些值之間的方差或跳變。
- Timoney等人的論文討論了通過檢查頻譜差異來檢測不連續性，并提及響度建模是感知語音質量度量的一部分。
- Pantazis等人在其用于不連續性檢測的拼接成本中使用了與能量相關的特征。
- HEGP指標選擇具有高于平均能量的語音主導時頻譜區域，這可以用于分析能量一致性。
主觀評估（MOS、CMOS、MUSHRA）：
- 人類聽眾是感知響度一致性的最終裁判。
- 聽力測試應特別要求評分者評估片段之間的響度平滑度或一致性，以及整體自然度。
- 在MOS測試期間確保一致的音量水平對于獲得可靠結果至關重要。
- Paper2Audio的評論在其評估中包含了“能量”（聲音的活力和吸引力）和“一致性問題”，這些都與響度有關。
- 感知的連續性評估：關于聽覺連續性錯覺的研究探討了即使存在中斷，聽眾如何根據中斷聲音的性質和相對水平等因素將聲音感知為連續的。該領域為人類如何感知音頻流中的中斷和變化提供了見解。

響度不連續性檢測與量化研究

用于檢測信號或特別是語音中突變（abrupt changes）的算法可以被調整，以識別拼接邊界處顯著的響度變化點。Timoney等人提出，通過檢查合成信號的頻譜域可以揭示共振峰的不連續性，并由此推斷其他突變。他們還在頻譜距離測量的背景下提到了響度建模。Pantazis等人使用非線性分析和與能量變化相關的特征（AM/FM分量）來預測可聞的不連續性。

即使使用上下文感知模型，在流式或低延遲生成過程中，實際可利用的未來上下文也存在限制。這個“視界問題”（horizon problem）意味著對于實時應用，完美的遠距離韻律規劃（包括響度輪廓）可能仍然難以實現，這使得穩健的局部控制和潛在的某些后處理持續發揮作用。上下文感知模型通過觀察周圍的文本/音頻來提高連貫性。然而，對于流式TTS，并非所有未來文本都可用。在等待多少未來上下文（增加延遲）和韻律預測質量之間存在權衡。這種固有的局限性表明，即使是先進的模型，在實時逐段生成非常長的、未見過的文本時，也可能無法完美預測理想的響度。

雖然LUFS能很好地測量整體響度，但量化片段間響度過渡的感知平滑度的特定指標尚不那么標準化。開發和驗證此類指標是一個關鍵的研究方向。當前的客觀指標側重于片段質量（MCD）或整體響度（LUFS）。當前的問題是關于片段之間的過渡和變化。雖然可以計算每個片段的LUFS并查看其差值，但該差值如何與感知到的不連續性相關聯，還需要更多研究（類似于研究一般不連續性的方式）。一個經過驗證的“響度跳躍度”或“響度流暢度”指標將極大地有助于針對此特定問題的TTS系統的自動評估和優化。

未來的系統可能會采用自適應歸一化，而不是固定的目標響度。這種歸一化會考慮片段的語言內容和期望的表達力，旨在實現“自然范圍”的響度變化，而不是一條平直線，但仍會平滑那些非預期的突兀跳變。人類語音的響度并非完全平坦；變化傳達意義和情感。當前的歸一化通常針對單個LUFS值。如果應用過于嚴格，這有時會降低表達力。先進的系統可以使用自然語言處理來理解片段的預期韻律，基于此理解允許一定范圍的自然響度變化，然后專門針對并平滑那些在片段邊界處被認為是非預期或刺耳的響度變化（即非語言動機的）。這將結合模型智能與有針對性的后處理。

結論與建議

分段式TTS中的響度不一致是一個公認的問題，它通過引起刺耳的音量變化影響用戶體驗。該問題源于獨立的片段生成、缺乏完整的上下文感知以及預測的韻律特征（如能量）的變化。

主要解決方案可概括為三類：后處理歸一化（簡單，對嚴重錯誤有效，但可能影響動態范圍），基于模型的控制（集成化，具有實現自然度的潛力，但復雜且數據需求大），以及數據/生成策略（主動性，有助于自然流暢，但分塊有其局限性）。

對從業者的建議

整體性方法：強調通常采用組合策略效果最佳：
- 如果構建模型，則從高質量、一致歸一化的訓練數據開始。
- 采用尊重語言邊界的智能文本分塊。
- 如果可用，利用具有強大韻律/能量預測能力的TTS模型。
- 實施感知響度歸一化（例如，通過FFmpeg等工具實現EBU R128，或使用Narakeet等服務）作為標準的后處理步驟，特別是對于需要高度一致性的應用。
優先考慮感知響度：在選擇歸一化方法時，優先選擇基于感知響度（LUFS/EBU R128）的方法，而不是簡單的峰值或RMS方法，以確保更好的聽覺體驗。
針對特定上下文的選擇：
- 對于實時/流式應用：專注于基于模型的控制和高效分塊，因為大量的后處理可能會增加不可接受的延遲。增量式TTS研究在此具有相關性。
- 對于離線生成（例如有聲讀物）：可以采用更密集的后處理，甚至人工審查/調整（使用SSML或編輯工具）。
- 評估是關鍵：定期進行專門針對響度一致性的主觀聽力測試，并結合客觀測量，以指導開發和調整。如果標準指標不足，考慮開發自定義的客觀指標來跟蹤片段間的響度變化。

解決響度不一致問題不僅僅是應用單一修復方法。它需要在TTS流程的各個階段加以關注：數據準備、模型架構、生成策略和后處理。上下文感知模型和韻律表示方面的未來進展有望實現更具固有一致性的長篇語音合成。

在TTS響度問題上，不存在“免費的午餐”。實現完美的響度一致性，特別是在高度表達和動態的語音中，需要權衡。激進的歸一化可能會削弱表達；復雜的模型需要更多的數據和計算；手動控制不具可擴展性。從業者必須選擇最能平衡其特定質量、成本和表達力需求的解決方案。用戶希望獲得一致的響度。簡單的后處理（例如，硬性限制到某個LUFS目標）可以實現一致性，但如果原始內容非常富有表現力，則可能會降低自然的動態范圍。基于模型的方法旨在實現更自然、集成的控制，但增加了復雜性，并且可能并非完美。數據策略有所幫助，但不能完全解決問題。因此，對于所有情況，并不存在單一的“最佳”解決方案；關鍵在于為特定應用找到合適的折衷方案。

此外，“自然度”是一個不斷變化的目標。隨著TTS模型在模仿人類表達能力方面越來越好，用戶對一致性的期望也在提高。在較舊、更機械化的TTS中可能被接受的響度變化水平，在更新、聽起來更自然的系統中可能會被視為缺陷。TTS質量已顯著提高。隨著聲音音色和語調自然度的提高，像響度變化這樣的其他細微不一致之處，相比之下變得更加明顯。將接近人類質量的TTS與實際人類語音進行比較的用戶，會對一致性的所有方面抱有更高的期望。這意味著隨著整體TTS質量的提高，響度一致性問題變得更加關鍵。