支持零樣本和少樣本的文本到語音48k star的配音工具:GPT-SoVITS-WebUI
官網:RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
用戶手冊:GPT-SoVITS指南
功能
-
零樣本文本到語音 (TTS):?輸入 5 秒的聲音樣本, 即刻體驗文本到語音轉換.
-
少樣本 TTS:?僅需 1 分鐘的訓練數據即可微調模型, 提升聲音相似度和真實感.
-
跨語言支持:?支持與訓練數據集不同語言的推理, 目前支持英語、日語、韓語、粵語和中文.
-
WebUI 工具:?集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注, 協助初學者創建訓練數據集和 GPT/SoVITS 模型.
可以直接在這里體驗一下:AI Hobbyist TTS?
只需要上傳一段3-10秒的wav錄音,即可進行聲音的克隆。
安裝
官方提供了一些非常易操作的軟件包,方便用戶直接使用。
咱們還是使用常規的安裝方法
安裝lib庫
sudo apt install ffmpeg
sudo apt install libsox-dev
下載源碼
https://github.com/RVC-Boss/GPT-SoVITS
cd GPT-SoVITS
?
安裝python庫
pip install -r extra-req.txt --no-deps
pip install -r requirements.txt
下載預訓練模型
從huggingface下載:https://huggingface.co/lj1995/GPT-SoVITS
啟動推理
python GPT_SoVITS/inference_webui.py <language(optional)>
# 或
python webui.py
?具體細節還需要再學習實踐一下。