- 項目github地址:https://github.com/RVC-Boss/GPT-SoVITS.git
- 官方教程:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/tkemqe8vzhadfpeu
- 本文旨在迅速實操GPT-SoVits項目,不闡述技術原理(后期如果有時間研究,爭取寫個學習筆記)。
- windows用戶可直接使用整合包。
- 感謝書生·浦語提供的服務器資源。
一、準備工作
下載源項目
git clone https://github.com/RVC-Boss/GPT-SoVITS.git
安裝依賴
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt
下載預訓練模型
https://huggingface.co/lj1995/GPT-SoVITS/tree/main
或者
iCloud Drive - Apple iCloud
啟動webUI頁面
python webui.py
二、實操-克隆林黛玉
我使用的語音素材是干聲,這里就不使用UVR5分離背景音處理。直接進行語音切片,下次有時間寫個補充(急著下班回家)。
關于原素材的來源:剪映剪輯后導出音頻。
2.1 素材切片
在源碼目錄內新建文件夾,分別用于存放原素材和切片后的素材。
配置文件夾后,點擊音頻切割
切割結束,我們看下文件夾
2.2 切片素材降噪
對切片的素材進行語音降噪。直接點擊"啟動語音降噪器"進行處理。
提示降噪完成。我們去output目錄下看下輸出。
2.3 批量ASR
啟動批量ASR,目錄設置為剛剛批量片段降噪處理后的文件夾。
任務完成,我們去目錄里看下生成了什么
生成了一個.list文件,精確度還是蠻高的。
2.4?語音轉文本校對
啟動在9871端口,我們點擊過去。
對左側的text進行大致的校對,保證語音和文本對應(刪除明顯亂碼等)。太短的音頻可以選擇刪除,或者與其他音頻片段合并。最終保存文件。
2.5 訓練數據格式化
設置model name,以及兩個文件夾后依次點擊3個按鈕,或者點擊"一鍵"三連按鈕。
提示進程結束無報錯后,我們看下logs文件夾,如果某個文件夾是空的,說明格式化失敗了,需要重新調整素材再次處理。
2.6 微調
我的原素材時長較短,這里就使用默認參數。素材較長可以增加訓練輪次。
依次進行"SoVITS traning"和"GPT training",等待完成。
訓練完成后,我們可以在以下2個文件夾(之前選擇的v2版本:SoVITS_weights_v2、GPT_weights_v2)內看到保存的模型。
2.7 推理
切換到"inference",先刷新模型列表,2個模型都選擇數字最大的那個。勾選"啟用并行"。最后點擊"open tts inference webUI"。
服務啟動后我們會看到如下頁面。
輔助參考音頻可以不上傳。調整"推理設置"至趨近于自己想要的角色語音效果。
三、推理結果展示
這花盆之中,置有一株青菜,倒也別致。你瞧它,葉片兒青翠欲滴,宛若碧玉雕琢,倒有一絲不染塵埃之清逸。那菜莖亭亭玉立,于這方寸之地,亦能展現出勃勃生機,恰如那閨閣中的女子,雖身處深宅,卻難掩其清新脫俗之氣。只是不知,它在這花盆之中,是否也會如我一般在夜深人靜之時,暗自神傷,思念起那廣袤田野的自由來呢?
隨機掉落卡片+語音播放
四、api調用
運行api_v2.py成功后,接口文檔如下圖所示。/tts方法就是我們需要調用。