GPT-SoVITS音色克隆-模型訓練步驟
- GPT-SoVITS模型源碼
- 一個簡單的TTS后端項目 基于
- 模型部署和訓練教程,語雀
模型部署和訓練教程
啟動模型訓練的主頁面
1. 切到模型路徑
/psycheEpic/GPT-SoVITS
- 進入Python虛擬環境,并掛起執行python腳本
conda activate GPTSoVits
nohup python ./webui.py >>./webui.log &
- 查看日志 tail -500f webui.log
2. uvr5人聲分離和去混響處理
- 切換到路徑
cd /psycheEpic/GPT-SoVITS/tools/uvr5
- 啟動uvr5操作web界面
python webui.py "cuda" True 15666 True
3. 人聲分離操作
在瀏覽器進入界面:https://73de21d131614dd42e.gradio.live,這個地址每次啟動都會變得
先用HP2模型處理一遍(提取人聲),然后將輸出的干聲音頻再用onnx_dereverb最后用DeEcho-Aggressive(去混響),輸出格式選wav。輸出的文件默認在GPT-SoVITS-beta\GPT-SoVITS-beta\output\uvr5_opt這個文件夾下,建議不要改輸出路徑,到時候找不到文件誰也幫不了你。處理完的音頻(vocal)的是人聲,(instrument)是伴奏,(No Reverb)的沒混響的,(Reverb)的是混響。(vocal)(No Reverb)才是要用的文件,其他都可以刪除。結束后記得到WebUI關閉UVR5節省顯存。
1)第一步先提前人聲,人聲和背景音樂分離,HP2模型
2)第二步將上一步分離出來的人聲,上傳作為輸入,再使用onnx_dereverb提前一次人聲
3)第三步將上一步的人聲作為輸入,去混響,使用DeEcho-Aggressive(去混響)
4. 將長視頻進行切割
進入主頁面操作:
5.給切割好的視頻作為輸入,給對路徑,調用模型進行打標
為什么要打標:打標就是給每個音頻配上文字,這樣才能讓AI學習到每個字該怎么讀。這里的標指的是標注
這步很簡單只要把剛才的切分文件夾輸入,如果你音頻降噪過,那么默認是output/slicer_opt文件夾,如果你切分了沒有降噪,那么默認是output/slicer_opt文件夾。然后選擇達摩ASR或者fast whisper。達摩ASR只能用于識別中文,效果也最好。fast whisper可以標注99種語言,是目前最好的英語和日語識別,模型尺寸選large V3,語種選auto自動就好了。然后點開啟離線批量ASR就好了,默認輸出是output/asr_opt這個路徑,建議不要改輸出路徑,到時候找不到文件誰也幫不了你。ASR需要一些時間,看著控制臺有沒有報錯就好了。
6. 標注校驗
7.GPT-SoVITS-TTS-訓練集格式化工具-填好參數一鍵三連
8. 微調訓練
9. 模型推理,刷新模型
- 執行腳本,打開推理頁面
進入Python環境
conda activate GPTSoVits
cd /psycheEpic/GPT-SoVITS/GPT_SoVITS/
nohup python inference_webui.py >>./inference_webui.log &