鏈接說明
github項目地址:RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
項目中文說明書:?GPT-SoVITS指南//項目說明書里也有在線使用的鏈接
原項目作者B站教學視頻:耗時兩個月自主研發的低成本AI音色克隆軟件,免費送給大家!【GPT-SoVITS】_嗶哩嗶哩_bilibili
作者甚至貼心提供了AutoDL教程!他真的我哭死:AutoDL(Linux系統,鏡像更新最快)
同理可以在線訓練:AI Hobbyist TTS??
項目目前只有TTS(文字轉語音Text-To-Speech)、并不支持歌聲轉換SVC、歌聲合成SVS。
支持跨語種合成(可以合成和訓練音頻語種不一樣的語種)
*任何發布基于GPT-SoVITS,需要附帶上GPT-SoVITS的tag。
項目版權歸原作者所有,此blog僅是lz訓練過程記錄。 如有謬誤歡迎指正。
目錄
鏈接說明
硬件要求
使用步驟
1.素材準備
1.1輸入&輸出管理
1.2純凈人聲獲取(如果有干凈的人聲素材可以跳過此步)
?編輯
1.3切割音頻
1.4打標
文本校對
當頁校對結果提交
合并音頻
刪除音頻
?2.開始訓練
2.1訓練集格式化
2.2微調訓練
2.3推理?
開源協議 & 署名要求
硬件要求
原項目說明,恩,uu們自行斟酌。
使用步驟
各種文件路徑,模型名稱都不要有中文。
前往上文提到的項目說明書中下載最新整合包。解壓后,雙擊運行go-webui.bat運行程序。
稍等一會兒,此時會彈出console窗口,如下圖,在項目運行時不能關閉該窗口。
稍等一會兒,在默認瀏覽器中跳出GSV的webUI界面,界面大致如下圖所示。 目前最新的整合包中,變聲部分仍然在施工中,所以該項目能夠實現,通過上傳數據集,訓練音色,訓練好的音色+目標文字→該音色語音。
1.素材準備
需要把音頻格式轉化為wav以獲得更好的音頻效果。
此處分享一個在線免費音頻格式轉換工具:音頻轉換器- FreeConvert.com
1.1輸入&輸出管理
所有文件路徑復制時都不能有雙引號。
項目原輸出文件夾可以更改,原輸出默認存放在output文件夾中。
可以自行更改文件輸出目錄, 建議uu們合理地設置數據集的存放,便于后續管理,此處lz提供一個參考的管理方法。
1.2純凈人聲獲取(如果有干凈的人聲素材可以跳過此步)
若需要純凈的人聲素材,可以使用UVR5對人聲進行分離,此項目也整合了這個功能。
點擊上圖中的開啟人聲分離webUI后,會在默認瀏覽器中跳出一個新的窗口,UVR5 WebUI
lz同期有研究一個AI翻唱,也會使用到UVR5,故此處lz使用歌曲素材對音樂中的人聲進行分離。
模型說明,上圖灰色字已經說得很清楚了,抄作業就是第一遍選擇模型1,第二遍選擇模型2。uu們也可以自行嘗試混合使用其他模型。?
可以在?console窗口看到進度
看到這樣的輸出就說明音頻分離成功了
如果去除效果不是很好可以多去除幾次,或者切換不同的模型進行去除。去除后最好去完整地聽一遍,看看有沒有什么問題。
lz最后用的HP5模型對人聲和歌曲進行分離。
1.3切割音頻
準備一段2分鐘左右的素材,數據集并不是越多越好,比起數量,更重要的是質量。
回到GPT-SoVITS WebUI界面。
選好輸入輸出地址之后,點擊開啟語音切分即可。??
切分完成之后也會輸出如下信息
前往輸出文件中聽取切分好的音頻,最好是逐一地去聽,挑選一些合適的音頻,因為有的切割可能和預期的有差別,可以刪除一部分切割得不好的音頻,或者重新切割。
1.4打標
先別急著打標,看完打標這一小節再開始!
匹配聲音和文字。人工智能里的人工部分。
利用項目自帶打標工具進行初步打標。
初步打標之后需要人工校對,點擊開啟音頻標注WebUI進入打標頁面
點擊后會在默認瀏覽器彈出一個Gradio的窗口,這就是打標頁面了。
文本校對
文本和音頻對應,需要注意一些文字是否有誤, 比如中文中的同音不同字,語氣之間的停頓符號表示。
當頁校對結果提交
*注意是每一頁,每一頁,每一頁。
只要點擊Next Index,就需要點擊Submit Text。不然就得重頭開始了。
合并音頻
如果一段話被切成了2段,可通過下述方式將其合并。
刪除音頻
如果某段音頻并不符合預期,可將其刪除。
校對好后關閉該頁面,關閉音頻標注WebUI
關閉該頁面,就像關瀏覽器網頁一樣。?
?2.開始訓練
切換頁面開始訓練
2.1訓練集格式化
直接點擊一鍵三連開始訓練。?
看到這樣的字樣說明訓練集格式化已完成。
2.2微調訓練
以上操作也很無腦,保持默認選項,?依次點擊訓練即可,可以適當調節batch_size的值,不過不要調得太高。
訓練完成
2.3推理?
開啟推理界面?
開啟之后會瀏覽器會默認打開一個新的界面
需要注意參考音頻對最終合成效果影響較大,可以理解為主參考音頻為模型提供了這個人說這句話的語氣,是溫柔的還是鏗鏘有力的。
想立即看到結果就不需要去更改下圖的設置,直接點合成語音即可
注意如果是跨語種合成,最好多上傳一些輔助音頻參考,lz用的英文數據集,在沒有上傳多個輔助音頻之前,生成的音頻聽起來就像“讓我們說中文”,hhh
開源協議 & 署名要求
開源協議:GPT-SOVITS?以?MIT?協議開源,模型以?CC-BY-NC 4.0?協議開源;
署名要求:作品簡介必須完整署名,缺一不可(參考下文),否則違反開源協議。
參考署名:
GPT-SoVITS開發者:@花兒不哭
模型訓練者:@紅血球AE3803?@白菜工廠1145號員工
推理特化包適配 & 在線推理:@AI-Hobbyist
生活像海洋,只有意志堅強的人才能到達彼岸。——來點雞湯8
以上end?