語音合成效果非常好,可作為自己日常文本轉語音使用工具!
軟件介紹
IndexTTS 是由嗶哩嗶哩(B 站)開源的工業級可控高效零樣本文本轉語音(TTS)系統,基于 XTTS 和 Tortoise 構建,采用 GPT 風格架構。經過數萬小時數據訓練,性能達到當前頂尖水平,在多項測試中優于 XTTS、CosyVoice2、Fish - Speech、F5 - TTS 等主流 TTS 系統
官方地址:https://github.com/index-tts/index-tts
案例效果:IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
核心功能與技術改進?
(一)核心功能?
- 支持拼音糾正漢字發音,在中文場景下能快速修正讀錯的字符。?
- 可通過標點符號控制任意位置的停頓,提升語音表達的自然度。?
(二)技術改進與貢獻?
- 采用字符 - 拼音混合建模方法,專門針對中文場景優化發音準確性。?
- 集成 Conformer 條件編碼器和基于 BigVGAN2 的語音碼解碼器,有效提升訓練穩定性、語音音色相似度與音質。?
- 公開所有測試集,涵蓋多音節詞測試集、主觀測試集和客觀測試集,方便行業研究與對比。
模型版本與更新?
- 2025/05/14:發布 IndexTTS - 1.5 版本,大幅提升模型穩定性及英語語言性能。?
- 2025/03/25:發布 IndexTTS - 1.0 模型參數與推理代碼。?
- 2025/02/12:在 ArXiv(編號 2502.05512)提交論文,并發布演示 demo 與測試集。
軟件部署
參考地址:https://github.com/index-tts/index-tts
1、cuda環境
參考:Ubuntu22.4部署及更新cuda11.8與cuda12.1_ubuntu 升級cuda-CSDN博客
2、Python環境
本案例使用3.10版本,也是官方推薦版本
參考:Python多版本管理工具——pyenv安裝及使用-CSDN博客
pyenv install 3.10
pyenv global 3.10
python version
3、軟件下載
cd /opt/
git clone https://github.com/index-tts/index-tts.git
4、依賴下載
cd /opt/index-tts/
pip install -r requirements.txt
pip install deepspeed
5、模型下載
地址:IndexTTS-1.5
git lfs install
git clone https://www.modelscope.cn/IndexTeam/IndexTTS-1.5.git
6、修改源碼
修改webui.py代碼支持遠程訪問,內容如下
parser.add_argument("--host", type=str, default="0.0.0.0", help="Host to run the web UI on")
7、啟動Web
python webui.py --model_dir IndexTTS-1.5
8、瀏覽器訪問
地址:http://192.168.1.76:7860/
9、語音合成應用
輸入內容
窗臺上的舊搪瓷盆里,野菊不知何時冒了芽。起初是針尖似的綠,怯生生扒著陶土邊緣,后來竟攢出半掌葉瓣,風過時便簌簌抖,像怕人窺見的秘密。
晨露未晞時最熱鬧。陽光斜斜切進來,給葉片的絨毛鍍上金粉,水珠在葉尖滾了滾,“咚” 地落進盆沿裂縫里。有時麻雀會停在窗欞上,歪頭瞅這叢新綠,小爪子在木頭上磕出輕響,倒驚得野菊晃了晃,漏下滿窗臺的碎光。
不必盼著開花的。單是看它把枯盆活出春意,看光影在葉上寫短詩,就夠溫柔了。