AI語音訓練——GPT-SoVITS(GSV)

鏈接說明

github項目地址:RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

項目中文說明書:?GPT-SoVITS指南//項目說明書里也有在線使用的鏈接

原項目作者B站教學視頻:耗時兩個月自主研發的低成本AI音色克隆軟件,免費送給大家!【GPT-SoVITS】_嗶哩嗶哩_bilibili

作者甚至貼心提供了AutoDL教程!他真的我哭死:AutoDL(Linux系統,鏡像更新最快)

同理可以在線訓練:AI Hobbyist TTS??

項目目前只有TTS(文字轉語音Text-To-Speech)、并不支持歌聲轉換SVC歌聲合成SVS

支持跨語種合成(可以合成和訓練音頻語種不一樣的語種)

*任何發布基于GPT-SoVITS,需要附帶上GPT-SoVITS的tag。

項目版權歸原作者所有,此blog僅是lz訓練過程記錄。 如有謬誤歡迎指正。

目錄

鏈接說明

硬件要求

使用步驟

1.素材準備

1.1輸入&輸出管理

1.2純凈人聲獲取(如果有干凈的人聲素材可以跳過此步)

?編輯

1.3切割音頻

1.4打標

文本校對

當頁校對結果提交

合并音頻

刪除音頻

?2.開始訓練

2.1訓練集格式化

2.2微調訓練

2.3推理?

開源協議 & 署名要求


硬件要求

原項目說明,恩,uu們自行斟酌。

使用步驟

各種文件路徑,模型名稱都不要有中文

前往上文提到的項目說明書中下載最新整合包。解壓后,雙擊運行go-webui.bat運行程序。

稍等一會兒,此時會彈出console窗口,如下圖,在項目運行時不能關閉該窗口

稍等一會兒,在默認瀏覽器中跳出GSV的webUI界面,界面大致如下圖所示。 目前最新的整合包中,變聲部分仍然在施工中,所以該項目能夠實現,通過上傳數據集,訓練音色,訓練好的音色+目標文字→該音色語音

1.素材準備

需要把音頻格式轉化為wav以獲得更好的音頻效果。

此處分享一個在線免費音頻格式轉換工具:音頻轉換器- FreeConvert.com

1.1輸入&輸出管理

所有文件路徑復制時都不能有雙引號

項目原輸出文件夾可以更改,原輸出默認存放在output文件夾中

可以自行更改文件輸出目錄, 建議uu們合理地設置數據集的存放,便于后續管理,此處lz提供一個參考的管理方法。

1.2純凈人聲獲取(如果有干凈的人聲素材可以跳過此步)

若需要純凈的人聲素材,可以使用UVR5對人聲進行分離,此項目也整合了這個功能。

點擊上圖中的開啟人聲分離webUI后,會在默認瀏覽器中跳出一個新的窗口,UVR5 WebUI

lz同期有研究一個AI翻唱,也會使用到UVR5,故此處lz使用歌曲素材對音樂中的人聲進行分離。

模型說明,上圖灰色字已經說得很清楚了,抄作業就是第一遍選擇模型1,第二遍選擇模型2。uu們也可以自行嘗試混合使用其他模型。?

可以在?console窗口看到進度

看到這樣的輸出就說明音頻分離成功了

如果去除效果不是很好可以多去除幾次,或者切換不同的模型進行去除。去除后最好去完整地聽一遍,看看有沒有什么問題。

lz最后用的HP5模型對人聲和歌曲進行分離

1.3切割音頻

準備一段2分鐘左右的素材,數據集并不是越多越好,比起數量,更重要的是質量

回到GPT-SoVITS WebUI界面。

選好輸入輸出地址之后,點擊開啟語音切分即可。??

切分完成之后也會輸出如下信息

前往輸出文件中聽取切分好的音頻,最好是逐一地去聽,挑選一些合適的音頻,因為有的切割可能和預期的有差別,可以刪除一部分切割得不好的音頻,或者重新切割

1.4打標

先別急著打標,看完打標這一小節再開始!

匹配聲音和文字。人工智能里的人工部分。

利用項目自帶打標工具進行初步打標

初步打標之后需要人工校對,點擊開啟音頻標注WebUI進入打標頁面

點擊后會在默認瀏覽器彈出一個Gradio的窗口,這就是打標頁面了。

文本校對

文本和音頻對應,需要注意一些文字是否有誤, 比如中文中的同音不同字,語氣之間的停頓符號表示

當頁校對結果提交

*注意是每一頁,每一頁,每一頁。

只要點擊Next Index,就需要點擊Submit Text。不然就得重頭開始了。

合并音頻

如果一段話被切成了2段,可通過下述方式將其合并。

刪除音頻

如果某段音頻并不符合預期,可將其刪除。

校對好后關閉該頁面,關閉音頻標注WebUI

關閉該頁面,就像關瀏覽器網頁一樣。?

?2.開始訓練

切換頁面開始訓練

2.1訓練集格式化

直接點擊一鍵三連開始訓練。?

看到這樣的字樣說明訓練集格式化已完成。

2.2微調訓練

以上操作也很無腦,保持默認選項,?依次點擊訓練即可,可以適當調節batch_size的值,不過不要調得太高

訓練完成

2.3推理?

開啟推理界面?

開啟之后會瀏覽器會默認打開一個新的界面

需要注意參考音頻對最終合成效果影響較大,可以理解為主參考音頻為模型提供了這個人說這句話的語氣,是溫柔的還是鏗鏘有力的。

想立即看到結果就不需要去更改下圖的設置,直接點合成語音即可

注意如果是跨語種合成,最好多上傳一些輔助音頻參考,lz用的英文數據集,在沒有上傳多個輔助音頻之前,生成的音頻聽起來就像“讓我們說中文”,hhh

開源協議 & 署名要求

開源協議:GPT-SOVITS?以?MIT?協議開源,模型以?CC-BY-NC 4.0?協議開源;

署名要求:作品簡介必須完整署名,缺一不可(參考下文),否則違反開源協議。

參考署名:

GPT-SoVITS開發者:@花兒不哭

模型訓練者:@紅血球AE3803?@白菜工廠1145號員工

推理特化包適配 & 在線推理:@AI-Hobbyist

生活像海洋,只有意志堅強的人才能到達彼岸。——來點雞湯8

以上end?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/913502.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/913502.shtml
英文地址,請注明出處:http://en.pswp.cn/news/913502.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

事件委托版本tab欄切換

事件委托:是JavaScript中注冊事件的常用技巧,也稱事件委派、事件代理簡單理解:原本需要注冊在子元素的事件委托給父元素,讓父元素擔當事件監聽的職務優點:減少注冊次數,可提高程序性能原理:事件…

FLAN-T5:規模化指令微調的語言模型

摘要 在將數據集表述為指令的形式上進行語言模型微調,已被證明能夠提升模型性能及其對未見任務的泛化能力。本文探討了指令微調,特別關注以下三個方面:(1) 任務數量的擴展,(2) 模型規模的擴展,以及 (3) 基于鏈式思維&…

設計模式文章

1. 工廠模式 | 菜鳥教程

Xilinx Vivado開發環境快速導出hdf文件(bat批處理)

Xilinx FPGA使用Vivado開發環境創建MicroBlaze軟核或ZYNQ PS側SDK邏輯工程時,需要FPGA側搭建的硬件平臺文件,即hdf文件,常規方式是編譯完成生成bit流文件后,通過File->Export->Export Hardware菜單來導出,在彈出…

UniApp 中實現智能吸頂 Tab 標簽導航效果

前言在移動端應用開發中,Tab 標簽導航是一種常見的交互模式。本文將詳細介紹如何在 UniApp 中實現一個功能完善的智能吸頂 Tab 導航組件,該組件具有以下特性:🎯 智能顯示:根據滾動位置動態顯示/隱藏📌 吸頂…

ElasticSearch快速入門-1

文章目錄Elasticsearch簡介ES概念ES和關系型數據庫的對比正序索引和倒序索引安裝es、kibana、IK分詞器ES操作_cat操作Mapping映射屬性索引庫操作索引庫CRUD文檔CRUD文檔批處理操作Java客戶端操作ESElasticsearch簡介 就是一個搜索引擎數據庫 以下都簡稱ES ES概念 ES和關系型…

【論文撰寫】如何把AI生成的文本公式復制在word中,完整的復制公式,拷貝豆包生成的公式

1、問題描述 AI生成的內容 在對于含有公式的生成內容,直接拷貝到Word 會呈現類Markdown的格式,除了格式上,公式也不是標準格式。 如下列兩個圖片對比 2、工具 這時,就需要用另一個工具進行轉換 Home - Snip Web Mathpix Acc…

【機器學習筆記 Ⅱ】5 矩陣乘法

矩陣乘法是神經網絡、圖形學、科學計算等領域的核心運算,用于高效處理線性變換和批量數據計算。以下是其數學定義、計算規則及實際應用的系統解析。1. 數學定義2. 計算步驟(示例)3. 代碼實現 (1) Python(NumPy) import…

【數字后端】- 衡量design的congestion情況

基礎概念 通常在RP的placement之后,就要去去查看設計的Density和Congestion情況。 而congestion的衡量指標有以下兩點: (1)Overflow Congestion 分析基于一個基本『單元』稱為GCELL: Routing Grid cell. Gcell 是工具自己定義…

Oracle面試題-體系結構

📌1.如何查看 Oracle 數據庫的版本信息? 1. 標準 SQL 查詢(推薦) 方法 1:查詢 v$version 視圖(最常用) SELECT * FROM v$version;輸出示例: BANNER -------------------------------…

Flex布局原理

1.布局原理 flex 是 flexible Box 的縮寫,意為"彈性布局",用來為盒狀模型提供最大的靈活性,任何一個容器都可以 指定為 flex 布局。 當我們為父盒子設為 flex 布局以后,子元素的 float、clear 和 vertical-align 屬性將…

JavaScript 模塊系統二十年:混亂、分裂與出路

JavaScript 模塊系統:一場至今未醒的歷史夢魘 一、引言:我們真的解決了“模塊化”嗎? 你可能以為,JavaScript 模塊系統早已標準化,import/export 就是答案。 但現實卻是另一番景象:構建報錯、依賴沖突、加…

人工智能-基礎篇-23-智能體Agent到底是什么?怎么理解?(智能體=看+想+做)

1、智能體是什么? 想象你有一個超級聰明的小助手,它能: 自己看環境(比如看到天氣、聽到聲音、讀到數據);自己做決定(比如下雨了要關窗,電量低要去充電);自己…

Java實現項目1——彈射球游戲

項目:彈射球游戲 項目描述: 類似于乒乓球的游戲,游戲可以播放背景音樂,可以更換背景圖,當小球碰到下面的擋板后會反彈,當小球碰到方塊后會增加分數,當小球掉落會導致游戲失敗,按下…

(十八)深入了解 AVFoundation-編輯:添加背景音樂與音量控制(下)——實戰篇

一、功能目標回顧在理論篇中,我們系統地介紹了如何使用 AVFoundation 添加背景音樂音軌,并通過 AVMutableAudioMix 與 AVMutableAudioMixInputParameters 實現多音軌混音與音量控制。我們了解了諸如淡入淡出、靜音控制、動態音量曲線等核心技術細節。本篇…

如何在新機器上設置github完成內容git push

如果你在一臺新的機器上git pull 倉庫,完成修改,然后git push,會發現下面錯誤: Username for https://github.com: xiaomaolv Password for https://xiaomaolvgithub.com: remote: Support for password authentication was rem…

Rust 注釋

Rust 注釋 引言 Rust 編程語言以其內存安全、并發支持和高性能等特點在軟件開發領域獲得了廣泛的關注。在Rust編程中,注釋是一種非常重要的元素,它不僅可以幫助程序員理解代碼,還可以提高代碼的可維護性和可讀性。本文將詳細介紹Rust中的注釋…

Flink Oracle CDC 環境配置與驗證

一、Oracle 數據庫核心配置詳解 1. 啟用歸檔日志(Archiving Log) Oracle CDC 依賴歸檔日志獲取增量變更數據,需按以下步驟啟用: 非CDB數據庫配置: -- 以DBA身份連接數據庫 CONNECT sys/password AS SYSDBA; -- …

ssh: Could not resolve hostname d: Temporary failure in name resolution

關于不能本機上傳文件夾到服務器上的一個問題的記錄。 scp -r "D:\***\datasets" usernamexxxxxx:接收文件夾名 一直報錯:ssh: Could not resolve hostname d: Temporary failure in name resolution 反復嘗試發現無果之后想起來,在傳輸的時候…

2025年的前后端一體化CMS框架優選方案

以下是結合技術生態、開發效率和商業落地驗證,整理的2025年前后端一體化CMS框架優選方案:一、?主流成熟框架組合?1. ?React Node.js (Express/Next.js)??前端?:React生態成熟,配合Redux狀態管理,適合復雜后臺界…