MegaTTS3是抖音團隊聯合國內其他大學研發的一款語音合成及聲音克龍應用,可實現零樣本語音克龍及富有情感的自然語音合成。我基于當前最新版制作了免安裝一鍵啟動整合包。
MegaTTS3介紹
MegaTTS 3 是字節跳動(ByteDance)與浙江大學聯合開發的開源零樣本語音合成系統,基于輕量級擴散模型實現高質量、多語言語音克龍與合成。
主要特點
- 輕量級擴散模型(TTS Diffusion Transformer)
- 參數量僅 0.45B,通過逐步加噪與去噪生成語音,兼顧高效與高保真輸出。
- 支持?10 步快速推理(CPU 約 30 秒生成語音),模型體積比傳統 TTS 縮小 60%。
- 語音屬性分解建模
將語音拆解為獨立屬性,針對性優化:- 音色:全局向量建模緩慢變化的音色特征;
- 韻律:潛在碼語言模型捕捉語速、語調等動態變化;
- 內容:VQGAN 聲學模型生成語譜圖;
- 相位:基于 GAN 的聲碼器構建。
- 稀疏對齊算法
引入稀疏對齊邊界引導擴散變換器(DiT),降低語音-文本對齊難度,提升自然度。
核心功能亮點
- 零樣本語音克龍
- 僅需?5–24 秒?的目標說話人音頻(24kHz WAV 格式),即可生成高度相似的語音,相似度評分超越主流模型。
- 需通過官方流程提取聲學潛變量(
.npy
?文件),與音頻配對使用。
- 中英文混合合成
支持雙語無縫切換,解決傳統 TTS 跨語言斷句生硬問題(如?"這是一條帶有accent的測試語句。"
)。 - 精細化語音控制
- 口音強度:通過參數?
p_w
(可懂度權重)和?t_w
(相似度權重)調節 - 韻律與情感:調整語速、語調,支持情感化輸出(如驚喜、悲傷)。
- 口音強度:通過參數?
- 高質量輸出
在 SEED 測試集上,自然度(Naturalness)和相似度(Similarity)雙指標領先競品,MOS 評分達?4.6/5.0
MegaTTS3整合包使用說明
首先將網盤內的軟件壓縮包下載到本地電腦上并解壓。雙擊【啟動軟件.exe】,軟件成功啟動后會自動打開webui界面。
如果想要實現聲音克龍,需要先制作npy格式語音樣本。
準備一個.wav格式,小于24s,音頻素材,文件名中不要包含空格,上傳到下方官方google網盤內
https://drive.google.com/drive/folders/1gCWL1y_2xu9nIFhUX_OW5MbcFuB7J5Cl
生成的npy文件可在下方鏈接下載
https://drive.google.com/drive/folders/1QhcHWcy20JfqWjgqZX1YM3I6i9u4oNlr?usp=sharing
你也可以使用官方的測試聲音
https://drive.google.com/drive/folders/16HqXzo9ENrp1q2urmw0MV6QaHEIqZE-W
或是使用別人上傳的聲音
https://drive.google.com/drive/folders/1AyB3egmr0hAKp0CScI0eXJaUdVccArGB
在MegaTTS3 webUI上傳wav音頻素材和npy語音樣本后,在inp_text里輸入需要合成語音的文本內容,然后點擊按鈕submit即可開始生成語音。
注意事項
使用前先將英偉達顯卡驅動更新到最新版本
軟件程序運行路徑中請不要有非英文字符及空格,待使用的素材文件同樣注意
軟件只支持Windows 10或11,不支持手機和MAC系統
建議英偉達顯卡顯存不低于6G
待合成語音文本長度不要超過200字符
聲音克龍軟件MegaTTS3整合包下載鏈接
夸克網盤分享