一、基本介紹
Bert-VITS2是基于VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的改進版本,通過整合BERT語義編碼能力,顯著提升了語音合成的自然度和表現力。項目地址:https://github.com/fishaudio/Bert-VITS2
語種 | 自然度 | 相似度 | 流暢度 |
---|---|---|---|
中文 | 4.2 | 4.1 | 4.3 |
日語 | 4.0 | 3.9 | 4.1 |
英語 | 3.8 | 3.7 | 3.9 |
核心特性:
- 多語言支持:支持中文、日語、英語混合生成
- 多說話人合成:包含850+角色(如原神、星穹鐵道角色)
- 高音質輸出:44.1kHz采樣率,支持情感風格控制
- 端到端流程:從文本到波形的一站式生成
- WebUI交互:提供可視化操作界面
二、快速上手
環境安裝
git clone https://github.com/fishaudio/Bert-VITS2.git
pip install -r requirements.txt
基礎使用示例
from models import SynthesizerTrn
from text.symbols import symbols# 初始化模型
hps = utils.get_hparams_from_file("configs/config.json")
net_g = SynthesizerTrn(len(symbols),hps.data.filter_length // 2 + 1,hps.train.segment_size // hps.data.hop_length,**hps.model
).cuda()
WebUI啟動
python webui.py
通過瀏覽器訪問界面,選擇角色、調整參數即可生成語音。
三、應用場景(含代碼示例)
1. 多語言混合合成
text = "[神里綾華_ZH]<zh>大家好<en>Hello everyone<jp>こんにちは"
audio = infer_multilang(text, speaker=24, lang=["Z