GPT-SoVits:語音克隆,語音融合

img

首發網站 https://tianfeng.space

前言

  • 零樣本文本到語音(TTS): 輸入 5 秒的聲音樣本,即刻體驗文本到語音轉換。
  • 少樣本 TTS: 僅需 1 分鐘的訓練數據即可微調模型,提升聲音相似度和真實感。
  • 跨語言支持: 支持與訓練數據集不同語言的推理,目前支持英語、日語和中文。
  • WebUI 工具: 集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協助初學者創建訓練數據集和 GPT/SoVITS 模型。

使用

安裝

https://github.com/RVC-Boss/GPT-SoVITS?tab=readme-ov-file

img

同時下載權重文件放入相應文件夾img

img

如果網速不好,怕麻煩,百度網盤:

鏈接: https://pan.baidu.com/s/1jeub2AzO6SeGge_YTimirQ 提取碼: 2qkp

準備數據

雖然幾分鐘即可訓練,但是聲音數據半個小時到一個小時更好,吐字清晰,格式最好WAV

解壓后雙擊 go-webui.bat 即可啟動 GPT-SoVITS-WebUI

img

來到頁面,勾選開啟UVR5,自動跳轉webui(如果你的數據有雜音和伴奏)

img

去伴奏

填入你音頻文件路徑或拖拽你的文件,HP2伴奏分離,然后依次是人聲與伴奏聲保存路徑,導出格式WAV

img

然后文件就在改路徑下vocal(人聲)

img

去混響延時

輸入去玩伴奏的人聲音頻路徑,輸出依然是哪個文件夾下帶vocal(人聲)

img

xiaoqi_train.wav我改名的去伴奏去混響最終文件

img

分割音頻

關閉UVR5,切分音頻,填入文件路徑,其他默認

img

降噪

輸入切分的文件夾路徑

img

ASR

輸入降噪后音頻文件,中文選達摩,英文whisper

img

數據清洗

勾選webui,輸入ASR輸出文件路徑

img

主要這幾個就夠用了,修改文字對應音頻,刪除一些雜亂語音,合并一些過短語音,最后保存退出

img

訓練集格式化

填入實驗名和路徑,其他默認

img

點擊一鍵三連,一次全部運行(E:\BaiduNetdiskDownload\GPT-SoVITS-beta0306fix2\logs\xiaoqi生成五個文件)img

微調訓練

8G顯存,按照我這個設置,時長幾分鐘,SOVITS訓練輪數25以下夠了,時長抄半小時,語音吐字清晰,訓練輪數100,200都可以,學習率權重適當降低,否則默認,顯卡大于8G,batch size可以加大,GPT訓練25輪一般效果不錯

img

訓練上線無法超過25問題解決,編輯器打開webui.py

img

大概830行左右,修改200即可

img

模型路徑

img

推理

勾選TTS webui

img

來到

img

GPT25輪效果不錯,SOVITS選擇輪數最高的,因為我音頻大概35分鐘,訓練久點效果更好

如果參考音頻選擇訓練音頻則推理出的聲音更符合訓練集音色,如果看看音頻為非訓練集音頻,則為音頻融合(音色融合),切分方式我感覺湊四句一切效果較好

還可以輸入日文轉英語,有那味了,

其他更多有待自己嘗試了

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/10399.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/10399.shtml
英文地址,請注明出處:http://en.pswp.cn/web/10399.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

信息收集方法合集 第1期

前言 在工作中,經常被問到某個文件怎么下載,原文來自哪里。索性把我知道的所有信息收集方法全部整理一遍,希望對大家有用,如果有幫助到你,非常榮幸,我會堅持分享我的學習、工作經驗。 信息種類&#xff1…

如何用java編寫一個猜數字游戲

我想到用c能編出一個猜數字游戲,于是我就嘗試用java編寫一個 代碼如下: import java.util.Scanner; import java.util.Random;public class GuessTheNumber {public static void main(String[] args) {Scanner scanner new Scanner(System.in);Random…

云啟未來:“云計算與網絡運維精英交流群”與“獨家資料”等你來探索“

作者簡介:一名云計算網絡運維人員、每天分享網絡與運維的技術與干貨。 公眾號:網絡豆云計算學堂 座右銘:低頭趕路,敬事如儀 個人主頁: 網絡豆的主頁????? 🚀 云計算與運維精英交流群誠邀您的加入…

搭建Docker私服鏡像倉庫Harbor

1、概述 Harbor是由VMware公司開源的企業級的Docker Registry管理項目,它包括權限管理(RBAC)、LDAP、日志審核、管理界面、自我注冊、鏡像復制和中文支持等功能。 Harbor 的所有組件都在 Dcoker 中部署,所以 Harbor 可使用 Docker Compose 快速部署。 …

PermissionError: [Errno 13] Permission denied: ‘xx.xlsx‘的解決辦法

我在轉換文件的時候遇到這個報錯,原因是文件名與已有文件名重復了 解決辦法很簡單,如下圖把" " 里的名字換成不重復的,再次允許代碼,會恢復正常

ue引擎游戲開發筆記(37)——實現敵人接收攻擊傷害,并作出反應

1.需求分析: 現在已經顯示造成實際傷害,但敵人對實際傷害并未產生反饋,例如還擊,或者死亡倒地等等,實現敵人對于受擊的反饋。 2.操作實現: 1.思路:在動畫藍圖中添加死亡動畫,并通過…

【姿態解算與濾波算法】

姿態解算 一、主線 姿態表示方式:矩陣表示,軸角表示,歐拉角表示,四元數表示。 慣性測量單元IMU(Inertial Measurement Unit):MPU6050芯片,包含陀螺儀和加速度計,分別測…

winhex工具,將文件轉換為16進制數據放入代碼。

今天介紹winhex工具,可以將任何內容讀取讀取為16進制數據。下面看下效果。 下載鏈接: WinHex: Hex Editor & Disk Editor, Computer Forensics & Data Recovery Software 一、WinHex打開文件 我們要打開的文件: 打開后: 我…

服務器遠程桌面局域網連接不上的解決方法

在企業網絡環境中,服務器遠程桌面局域網連接不上是一個常見且棘手的問題。這種問題可能導致工作效率下降,甚至影響業務運營。因此,我們需要采取專業的方法來解決這一問題。 服務器遠程桌面局域網連接不上的解決方法: 1、確保服務器…

SQL注入-通達OA SQL注入漏洞【CVE-2023-4166】原理及檢測思路分析

1、漏洞描述 通達OA中發現一個漏洞,并被列為嚴重漏洞。該漏洞影響文件general/system/seal_manage/dianju/delete_log.php的未知代碼。對參數 DELETE_STR 的操作會導致 sql 注入。 2、影響范圍 通達OA版本11.10之前 3、復現環境 FOFA搜索:app"TDX…

解鎖網站SEO優勢,百度站長工具助您一臂之力(百度站長平臺還提供了哪些工具供seo人員使用?)

在當今數字化時代,網站已經成為企業宣傳、產品銷售、信息發布的主要渠道之一。有著再好的網站,如果在百度等搜索引擎中無法被用戶搜索到,那就等于白搭。因此,網站的SEO優化顯得尤為重要。而作為國內最大的搜索引擎,百度…

LoRa模塊學習

什么是LoRa調制 LoRa(Long Range,遠距離)是一種調制技術,與同類技術相比,提供更長的通信距離。調制是基于擴頻技術,線性調制擴頻(CSS)的一個變種,具有前向糾錯&#xff…

安裝SQL Server詳細教程_sql server安裝教程

一,SQL Server數據庫安裝 1.首先,下載安裝程序 (1)從網盤下載安裝exe 點擊此處直接下載 (2)從官網下載安裝exe文件 在官網選擇Developer進行下載 2.開始安裝 雙擊安裝程序,開始安裝 這里直…

python-pytorch seq2seq+attention筆記0.5.00

python-pytorch seq2seq+attention筆記0.5.00 1. LSTM模型的數據size2. 關于LSTM的輸入數據包含hn和cn時,hn和cn的size3. LSTM參數中默認batch_first4. Attention機制的三種算法5. 模型的編碼器6. 模型的解碼器7. 最終模型8. 數據的準備9. 遇到的問題10. 完整代碼1. LSTM模型的…

PHP數值數組講解,for循環及函數 遍歷數組獲取元素

源碼 <?phpheader("Content-Type:text/html;Charsetutf8");//創建數值數組$arr1 array();//簡化創建語法 $arr2 [];//通過索引為數組添加不同類型的元素$arr1[0] "zhangsan" ;//也可以亂序添加元素$arr1[2] 12 ;$arr1[1] true ; //true輸出為1 f…

搭建vue3組件庫(四): 樣式庫搭建

文章目錄 1. 樣式目錄文件架構2. SCSS 樣式變量2.1 設置顏色 SCSS 變量2.2 設置多種類型主題2.3 生成全局類型主題 SCSS 變量2.4 分組生成 SCSS 變量 1. 樣式目錄文件架構 packages/theme-chalk 目錄結構&#xff1a; ├── packages │ ├── theme-chalk │ │ ├─…

excel表格里,可以把百分號放在數字前面嗎?

在有些版本里是可以的&#xff0c;這樣做&#xff1a; 選中數據&#xff0c;鼠標右鍵&#xff0c;點擊設置單元格格式&#xff0c;切換到自定義&#xff0c;在右側欄輸入%0&#xff0c;點擊確定就可以了。 這樣設置的好處是&#xff0c;它仍舊是數值&#xff0c;并且數值大小沒…

說一下 hibernate 的緩存機制?

Hibernate 的緩存機制是為了提高應用程序的性能&#xff0c;通過減少對數據庫物理數據源的訪問頻次而設計的。Hibernate 的緩存主要可以分為兩個級別&#xff1a;一級緩存&#xff08;也稱為 Session 級別的緩存&#xff09;和二級緩存&#xff08;也稱為 SessionFactory 級別的…

Veeam - 數據保護和管理解決方案_Windows平臺部署備份還原VMware手冊

Veeam - - 數據保護和管理解決方案 Veeam Backup & Replication Console Veeam Data Platform Veeam Backup & Replication是一款強大的虛擬機備份、恢復和復制解決方案 安全備份、干凈恢復和數據彈性 — 即時交付 在混合云中隨時隨地管理、控制、備份和恢復您的所有數…

ARM時鐘樹結構(GD32)

時鐘樹的簡易框圖 初始化配置系統時鐘 配置系統初始化時鐘&#xff08;參考手冊&#xff09; 對應hal庫函數 使用72MHz的系統時鐘 do -----------while&#xff08;0&#xff09;的使用方法 系統時鐘 #include <stdint.h> #include "gd32f30x.h"int main(void)…