GPT-SoVits：語音克隆，語音融合

GPT-SoVits：語音克隆，語音融合

web/2025/9/16 13:46:32/文章來源:https://blog.csdn.net/weixin_62403633/article/details/138732574

首發網站 https://tianfeng.space

前言

零樣本文本到語音（TTS）： 輸入 5 秒的聲音樣本，即刻體驗文本到語音轉換。
少樣本 TTS： 僅需 1 分鐘的訓練數據即可微調模型，提升聲音相似度和真實感。
跨語言支持： 支持與訓練數據集不同語言的推理，目前支持英語、日語和中文。
WebUI 工具： 集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注，協助初學者創建訓練數據集和 GPT/SoVITS 模型。

使用

安裝

https://github.com/RVC-Boss/GPT-SoVITS?tab=readme-ov-file

同時下載權重文件放入相應文件夾

如果網速不好，怕麻煩，百度網盤：

鏈接: https://pan.baidu.com/s/1jeub2AzO6SeGge_YTimirQ 提取碼: 2qkp

準備數據

雖然幾分鐘即可訓練，但是聲音數據半個小時到一個小時更好，吐字清晰，格式最好WAV

解壓后雙擊 go-webui.bat 即可啟動 GPT-SoVITS-WebUI

來到頁面，勾選開啟UVR5，自動跳轉webui（如果你的數據有雜音和伴奏）

去伴奏

填入你音頻文件路徑或拖拽你的文件，HP2伴奏分離，然后依次是人聲與伴奏聲保存路徑，導出格式WAV

然后文件就在改路徑下vocal（人聲）

去混響延時

輸入去玩伴奏的人聲音頻路徑，輸出依然是哪個文件夾下帶vocal（人聲）

xiaoqi_train.wav我改名的去伴奏去混響最終文件

分割音頻

關閉UVR5，切分音頻，填入文件路徑，其他默認

降噪

輸入切分的文件夾路徑

ASR

輸入降噪后音頻文件，中文選達摩，英文whisper

數據清洗

勾選webui，輸入ASR輸出文件路徑

主要這幾個就夠用了，修改文字對應音頻，刪除一些雜亂語音，合并一些過短語音，最后保存退出

訓練集格式化

填入實驗名和路徑，其他默認

點擊一鍵三連，一次全部運行（E:\BaiduNetdiskDownload\GPT-SoVITS-beta0306fix2\logs\xiaoqi生成五個文件）

微調訓練

8G顯存，按照我這個設置，時長幾分鐘，SOVITS訓練輪數25以下夠了，時長抄半小時，語音吐字清晰，訓練輪數100,200都可以，學習率權重適當降低，否則默認，顯卡大于8G，batch size可以加大，GPT訓練25輪一般效果不錯

訓練上線無法超過25問題解決，編輯器打開webui.py

大概830行左右，修改200即可

模型路徑

推理

勾選TTS webui

來到

GPT25輪效果不錯，SOVITS選擇輪數最高的，因為我音頻大概35分鐘，訓練久點效果更好

如果參考音頻選擇訓練音頻則推理出的聲音更符合訓練集音色，如果看看音頻為非訓練集音頻，則為音頻融合（音色融合），切分方式我感覺湊四句一切效果較好

還可以輸入日文轉英語，有那味了，

其他更多有待自己嘗試了

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/10399.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/10399.shtml
英文地址，請注明出處：http://en.pswp.cn/web/10399.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

信息收集方法合集第1期

信息收集方法合集第1期

前言在工作中，經常被問到某個文件怎么下載，原文來自哪里。索性把我知道的所有信息收集方法全部整理一遍，希望對大家有用，如果有幫助到你，非常榮幸，我會堅持分享我的學習、工作經驗。信息種類&#xff1…

閱讀更多...

如何用java編寫一個猜數字游戲

如何用java編寫一個猜數字游戲

我想到用c能編出一個猜數字游戲，于是我就嘗試用java編寫一個代碼如下： import java.util.Scanner; import java.util.Random;public class GuessTheNumber {public static void main(String[] args) {Scanner scanner new Scanner(System.in);Random…

閱讀更多...

云啟未來：“云計算與網絡運維精英交流群”與“獨家資料”等你來探索“

云啟未來：“云計算與網絡運維精英交流群”與“獨家資料”等你來探索“

作者簡介：一名云計算網絡運維人員、每天分享網絡與運維的技術與干貨。公眾號：網絡豆云計算學堂座右銘：低頭趕路，敬事如儀個人主頁： 網絡豆的主頁????? 🚀 云計算與運維精英交流群誠邀您的加入…

閱讀更多...

搭建Docker私服鏡像倉庫Harbor

搭建Docker私服鏡像倉庫Harbor

1、概述 Harbor是由VMware公司開源的企業級的Docker Registry管理項目，它包括權限管理(RBAC)、LDAP、日志審核、管理界面、自我注冊、鏡像復制和中文支持等功能。 Harbor 的所有組件都在 Dcoker 中部署，所以 Harbor 可使用 Docker Compose 快速部署。 …

閱讀更多...

PermissionError: [Errno 13] Permission denied: ‘xx.xlsx‘的解決辦法

PermissionError: [Errno 13] Permission denied: ‘xx.xlsx‘的解決辦法

我在轉換文件的時候遇到這個報錯，原因是文件名與已有文件名重復了解決辦法很簡單，如下圖把" " 里的名字換成不重復的，再次允許代碼，會恢復正常

閱讀更多...

ue引擎游戲開發筆記（37）——實現敵人接收攻擊傷害，并作出反應

ue引擎游戲開發筆記（37）——實現敵人接收攻擊傷害，并作出反應

1.需求分析： 現在已經顯示造成實際傷害，但敵人對實際傷害并未產生反饋，例如還擊，或者死亡倒地等等，實現敵人對于受擊的反饋。 2.操作實現： 1.思路：在動畫藍圖中添加死亡動畫，并通過…

閱讀更多...

【姿態解算與濾波算法】

【姿態解算與濾波算法】

姿態解算一、主線姿態表示方式：矩陣表示，軸角表示，歐拉角表示，四元數表示。慣性測量單元IMU（Inertial Measurement Unit）：MPU6050芯片，包含陀螺儀和加速度計，分別測…

閱讀更多...

winhex工具，將文件轉換為16進制數據放入代碼。

winhex工具，將文件轉換為16進制數據放入代碼。

今天介紹winhex工具，可以將任何內容讀取讀取為16進制數據。下面看下效果。下載鏈接： WinHex: Hex Editor & Disk Editor, Computer Forensics & Data Recovery Software 一、WinHex打開文件我們要打開的文件： 打開后： 我…

閱讀更多...

服務器遠程桌面局域網連接不上的解決方法

服務器遠程桌面局域網連接不上的解決方法

在企業網絡環境中，服務器遠程桌面局域網連接不上是一個常見且棘手的問題。這種問題可能導致工作效率下降，甚至影響業務運營。因此，我們需要采取專業的方法來解決這一問題。服務器遠程桌面局域網連接不上的解決方法： 1、確保服務器…

閱讀更多...

SQL注入-通達OA SQL注入漏洞【CVE-2023-4166】原理及檢測思路分析

SQL注入-通達OA SQL注入漏洞【CVE-2023-4166】原理及檢測思路分析

1、漏洞描述通達OA中發現一個漏洞，并被列為嚴重漏洞。該漏洞影響文件general/system/seal_manage/dianju/delete_log.php的未知代碼。對參數 DELETE_STR 的操作會導致 sql 注入。 2、影響范圍通達OA版本11.10之前 3、復現環境 FOFA搜索：app"TDX…

閱讀更多...

解鎖網站SEO優勢，百度站長工具助您一臂之力（百度站長平臺還提供了哪些工具供seo人員使用?）

解鎖網站SEO優勢，百度站長工具助您一臂之力（百度站長平臺還提供了哪些工具供seo人員使用?）

在當今數字化時代，網站已經成為企業宣傳、產品銷售、信息發布的主要渠道之一。有著再好的網站，如果在百度等搜索引擎中無法被用戶搜索到，那就等于白搭。因此，網站的SEO優化顯得尤為重要。而作為國內最大的搜索引擎，百度…

閱讀更多...

LoRa模塊學習

LoRa模塊學習

什么是LoRa調制 LoRa（Long Range，遠距離）是一種調制技術，與同類技術相比，提供更長的通信距離。調制是基于擴頻技術，線性調制擴頻（CSS）的一個變種，具有前向糾錯&#xff…

閱讀更多...

安裝SQL Server詳細教程_sql server安裝教程

安裝SQL Server詳細教程_sql server安裝教程

一，SQL Server數據庫安裝 1.首先，下載安裝程序 （1）從網盤下載安裝exe 點擊此處直接下載 （2）從官網下載安裝exe文件在官網選擇Developer進行下載 2.開始安裝雙擊安裝程序，開始安裝這里直…

閱讀更多...

python-pytorch seq2seq+attention筆記0.5.00

python-pytorch seq2seq+attention筆記0.5.00

python-pytorch seq2seq+attention筆記0.5.00 1. LSTM模型的數據size2. 關于LSTM的輸入數據包含hn和cn時，hn和cn的size3. LSTM參數中默認batch_first4. Attention機制的三種算法5. 模型的編碼器6. 模型的解碼器7. 最終模型8. 數據的準備9. 遇到的問題10. 完整代碼1. LSTM模型的…

閱讀更多...

PHP數值數組講解，for循環及函數遍歷數組獲取元素

PHP數值數組講解，for循環及函數遍歷數組獲取元素

源碼 <?phpheader("Content-Type:text/html;Charsetutf8");//創建數值數組$arr1 array();//簡化創建語法 $arr2 [];//通過索引為數組添加不同類型的元素$arr1[0] "zhangsan" ;//也可以亂序添加元素$arr1[2] 12 ;$arr1[1] true ; //true輸出為1 f…

閱讀更多...

搭建vue3組件庫(四): 樣式庫搭建

搭建vue3組件庫(四): 樣式庫搭建

文章目錄 1. 樣式目錄文件架構2. SCSS 樣式變量2.1 設置顏色 SCSS 變量2.2 設置多種類型主題2.3 生成全局類型主題 SCSS 變量2.4 分組生成 SCSS 變量 1. 樣式目錄文件架構 packages/theme-chalk 目錄結構： ├── packages │ ├── theme-chalk │ │ ├─…

閱讀更多...

excel表格里，可以把百分號放在數字前面嗎?

excel表格里，可以把百分號放在數字前面嗎?

在有些版本里是可以的，這樣做： 選中數據，鼠標右鍵，點擊設置單元格格式，切換到自定義，在右側欄輸入%0，點擊確定就可以了。這樣設置的好處是，它仍舊是數值，并且數值大小沒…

閱讀更多...

說一下 hibernate 的緩存機制？

說一下 hibernate 的緩存機制？

Hibernate 的緩存機制是為了提高應用程序的性能，通過減少對數據庫物理數據源的訪問頻次而設計的。Hibernate 的緩存主要可以分為兩個級別：一級緩存（也稱為 Session 級別的緩存）和二級緩存（也稱為 SessionFactory 級別的…

閱讀更多...

Veeam - 數據保護和管理解決方案_Windows平臺部署備份還原VMware手冊

Veeam - 數據保護和管理解決方案_Windows平臺部署備份還原VMware手冊

Veeam - - 數據保護和管理解決方案 Veeam Backup & Replication Console Veeam Data Platform Veeam Backup & Replication是一款強大的虛擬機備份、恢復和復制解決方案安全備份、干凈恢復和數據彈性 — 即時交付在混合云中隨時隨地管理、控制、備份和恢復您的所有數…

閱讀更多...

ARM時鐘樹結構（GD32）

ARM時鐘樹結構（GD32）

時鐘樹的簡易框圖初始化配置系統時鐘配置系統初始化時鐘（參考手冊） 對應hal庫函數使用72MHz的系統時鐘 do -----------while（0）的使用方法系統時鐘 #include <stdint.h> #include "gd32f30x.h"int main(void)…

閱讀更多...

最新文章