AI語音訓練——GPT-SoVITS(GSV)

鏈接說明

github項目地址：RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

項目中文說明書：?GPT-SoVITS指南//項目說明書里也有在線使用的鏈接

原項目作者B站教學視頻：耗時兩個月自主研發的低成本AI音色克隆軟件，免費送給大家！【GPT-SoVITS】_嗶哩嗶哩_bilibili

作者甚至貼心提供了AutoDL教程！他真的我哭死：AutoDL（Linux系統，鏡像更新最快）

同理可以在線訓練：AI Hobbyist TTS??

項目目前只有TTS（文字轉語音Text-To-Speech）、并不支持歌聲轉換SVC、歌聲合成SVS。

支持跨語種合成（可以合成和訓練音頻語種不一樣的語種）

*任何發布基于GPT-SoVITS，需要附帶上GPT-SoVITS的tag。

項目版權歸原作者所有，此blog僅是lz訓練過程記錄。如有謬誤歡迎指正。

鏈接說明

硬件要求

使用步驟

1.素材準備

1.1輸入&輸出管理

1.2純凈人聲獲取（如果有干凈的人聲素材可以跳過此步）

?編輯

1.3切割音頻

1.4打標

文本校對

當頁校對結果提交

合并音頻

刪除音頻

?2.開始訓練

2.1訓練集格式化

2.2微調訓練

2.3推理?

開源協議 & 署名要求

硬件要求

原項目說明，恩，uu們自行斟酌。

使用步驟

各種文件路徑，模型名稱都不要有中文。

前往上文提到的項目說明書中下載最新整合包。解壓后，雙擊運行go-webui.bat運行程序。

稍等一會兒，此時會彈出console窗口，如下圖，在項目運行時不能關閉該窗口。

稍等一會兒，在默認瀏覽器中跳出GSV的webUI界面，界面大致如下圖所示。目前最新的整合包中，變聲部分仍然在施工中，所以該項目能夠實現，通過上傳數據集，訓練音色，訓練好的音色+目標文字→該音色語音。

1.素材準備

需要把音頻格式轉化為wav以獲得更好的音頻效果。

此處分享一個在線免費音頻格式轉換工具：音頻轉換器- FreeConvert.com

1.1輸入&輸出管理

所有文件路徑復制時都不能有雙引號。

項目原輸出文件夾可以更改，原輸出默認存放在output文件夾中。

可以自行更改文件輸出目錄，建議uu們合理地設置數據集的存放，便于后續管理，此處lz提供一個參考的管理方法。

1.2純凈人聲獲取（如果有干凈的人聲素材可以跳過此步）

若需要純凈的人聲素材，可以使用UVR5對人聲進行分離，此項目也整合了這個功能。

點擊上圖中的開啟人聲分離webUI后，會在默認瀏覽器中跳出一個新的窗口，UVR5 WebUI

lz同期有研究一個AI翻唱，也會使用到UVR5，故此處lz使用歌曲素材對音樂中的人聲進行分離。

模型說明，上圖灰色字已經說得很清楚了，抄作業就是第一遍選擇模型1，第二遍選擇模型2。uu們也可以自行嘗試混合使用其他模型。?

可以在?console窗口看到進度

看到這樣的輸出就說明音頻分離成功了

如果去除效果不是很好可以多去除幾次，或者切換不同的模型進行去除。去除后最好去完整地聽一遍，看看有沒有什么問題。

lz最后用的HP5模型對人聲和歌曲進行分離。

1.3切割音頻

準備一段2分鐘左右的素材，數據集并不是越多越好，比起數量，更重要的是質量。

回到GPT-SoVITS WebUI界面。

選好輸入輸出地址之后，點擊開啟語音切分即可。??

切分完成之后也會輸出如下信息

前往輸出文件中聽取切分好的音頻，最好是逐一地去聽，挑選一些合適的音頻，因為有的切割可能和預期的有差別，可以刪除一部分切割得不好的音頻，或者重新切割。

1.4打標

先別急著打標，看完打標這一小節再開始！

匹配聲音和文字。~~人工智能里的人工部分。~~

利用項目自帶打標工具進行初步打標。

初步打標之后需要人工校對，點擊開啟音頻標注WebUI進入打標頁面

點擊后會在默認瀏覽器彈出一個Gradio的窗口，這就是打標頁面了。

文本校對

文本和音頻對應，需要注意一些文字是否有誤，比如中文中的同音不同字，語氣之間的停頓符號表示。

當頁校對結果提交

*注意是每一頁，每一頁，每一頁。

只要點擊Next Index，就需要點擊Submit Text。不然就得重頭開始了。

合并音頻

如果一段話被切成了2段，可通過下述方式將其合并。

刪除音頻

如果某段音頻并不符合預期，可將其刪除。

校對好后關閉該頁面，關閉音頻標注WebUI

關閉該頁面，就像關瀏覽器網頁一樣。?

?2.開始訓練

切換頁面開始訓練

2.1訓練集格式化

直接點擊一鍵三連開始訓練。?

看到這樣的字樣說明訓練集格式化已完成。

2.2微調訓練

以上操作也很無腦，保持默認選項，?依次點擊訓練即可，可以適當調節batch_size的值，不過不要調得太高。

訓練完成

2.3推理?

開啟推理界面?

開啟之后會瀏覽器會默認打開一個新的界面

需要注意參考音頻對最終合成效果影響較大，可以理解為主參考音頻為模型提供了這個人說這句話的語氣，是溫柔的還是鏗鏘有力的。

想立即看到結果就不需要去更改下圖的設置，直接點合成語音即可

注意如果是跨語種合成，最好多上傳一些輔助音頻參考，lz用的英文數據集，在沒有上傳多個輔助音頻之前，生成的音頻聽起來就像“讓我們說中文”，hhh

開源協議 & 署名要求

開源協議：GPT-SOVITS?以?MIT?協議開源，模型以?CC-BY-NC 4.0?協議開源；

署名要求：作品簡介必須完整署名，缺一不可（參考下文），否則違反開源協議。

參考署名：

GPT-SoVITS開發者：@花兒不哭

模型訓練者：@紅血球AE3803?@白菜工廠1145號員工

推理特化包適配 & 在線推理：@AI-Hobbyist

生活像海洋，只有意志堅強的人才能到達彼岸。——來點雞湯8

以上end?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/913502.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/913502.shtml
英文地址，請注明出處：http://en.pswp.cn/news/913502.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！