簡介
GPT-SoVITS 是一個開源的文本轉語音(TTS)項目,旨在通過少量語音數據實現高質量的語音合成。其核心理念是將基于變換器的模型(如 GPT)與語音合成技術(如 SoVITS,可能指“唱歌語音合成”)結合,特別適合需要個性化語音但數據有限的場景。
特征
-
零樣本 TTS:輸入 5 秒的聲音樣本并體驗即時文本到語音的轉換。
-
少量 TTS:僅使用 1 分鐘的訓練數據對模型進行微調,以提高語音相似度和真實感。
-
跨語言支持:使用與訓練數據集不同的語言進行推理,目前支持英語、日語、韓語、粵語和中文。
-
WebUI 工具:集成語音伴奏分離、自動訓練集分割、中文 ASR 和文本標注等工具,幫助初學者創建訓練數據集和 GPT/SoVITS 模型。
環境配置
Python 3.9, PyTorch 2.0.1, CUDA 11
Python 3.10.13, PyTorch 2.1.2, CUDA 12.3
Python 3.9, PyTorch 2.2.2, macOS 14.4.1 (Apple silicon)
Python 3.9, PyTorch 2.2.2, CPU devices
numba==0.56.4 requires py<3.11
看看效果
相關文獻
在線demo:https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2
github地址:https://github.com/RVC-Boss/GPT-SoVITS?tab=readme-ov-file