GPT-SoVITS音色克隆-模型訓練步驟

GPT-SoVITS模型源碼
一個簡單的TTS后端項目基于
模型部署和訓練教程，語雀
模型部署和訓練教程

啟動模型訓練的主頁面

1. 切到模型路徑

/psycheEpic/GPT-SoVITS

進入Python虛擬環境，并掛起執行python腳本

conda activate GPTSoVits
nohup python ./webui.py >>./webui.log &

查看日志 tail -500f webui.log

2. uvr5人聲分離和去混響處理

切換到路徑

cd /psycheEpic/GPT-SoVITS/tools/uvr5

啟動uvr5操作web界面

python webui.py "cuda" True 15666 True

3. 人聲分離操作

在瀏覽器進入界面：https://73de21d131614dd42e.gradio.live，這個地址每次啟動都會變得

先用HP2模型處理一遍（提取人聲），然后將輸出的干聲音頻再用onnx_dereverb最后用DeEcho-Aggressive（去混響），輸出格式選wav。輸出的文件默認在GPT-SoVITS-beta\GPT-SoVITS-beta\output\uvr5_opt這個文件夾下，建議不要改輸出路徑，到時候找不到文件誰也幫不了你。處理完的音頻（vocal）的是人聲，(instrument)是伴奏，(No Reverb)的沒混響的，（Reverb）的是混響。（vocal）(No Reverb)才是要用的文件，其他都可以刪除。結束后記得到WebUI關閉UVR5節省顯存。

1）第一步先提前人聲，人聲和背景音樂分離，HP2模型

在這里插入圖片描述

2）第二步將上一步分離出來的人聲，上傳作為輸入，再使用onnx_dereverb提前一次人聲

在這里插入圖片描述

3）第三步將上一步的人聲作為輸入，去混響，使用DeEcho-Aggressive（去混響）

在這里插入圖片描述

4. 將長視頻進行切割

進入主頁面操作：

在這里插入圖片描述

5.給切割好的視頻作為輸入，給對路徑，調用模型進行打標

為什么要打標：打標就是給每個音頻配上文字，這樣才能讓AI學習到每個字該怎么讀。這里的標指的是標注

這步很簡單只要把剛才的切分文件夾輸入，如果你音頻降噪過，那么默認是output/slicer_opt文件夾，如果你切分了沒有降噪，那么默認是output/slicer_opt文件夾。然后選擇達摩ASR或者fast whisper。達摩ASR只能用于識別中文，效果也最好。fast whisper可以標注99種語言，是目前最好的英語和日語識別，模型尺寸選large V3，語種選auto自動就好了。然后點開啟離線批量ASR就好了，默認輸出是output/asr_opt這個路徑，建議不要改輸出路徑，到時候找不到文件誰也幫不了你。ASR需要一些時間，看著控制臺有沒有報錯就好了。

在這里插入圖片描述

6. 標注校驗

在這里插入圖片描述

7.GPT-SoVITS-TTS-訓練集格式化工具-填好參數一鍵三連

在這里插入圖片描述

8. 微調訓練

在這里插入圖片描述

9. 模型推理，刷新模型

在這里插入圖片描述

執行腳本，打開推理頁面

進入Python環境
conda activate GPTSoVits
cd /psycheEpic/GPT-SoVITS/GPT_SoVITS/
nohup python inference_webui.py >>./inference_webui.log &

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/710793.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/710793.shtml
英文地址，請注明出處：http://en.pswp.cn/news/710793.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！