基于IndexTTS的零樣本語音合成

IndexTTS 項目采用模塊化設計，將 BPE 文本編碼、GPT 單元預測、dVAE 語音特征抽取和 BigVGAN 音頻生成串聯為完整的語音合成流程。系統通過統一的配置文件和模型目錄規范，實現高效的文本到語音轉換，支持命令行與 Web 界面雙模式操作，適合本地部署和自動化應用。顯卡資源、依賴環境與模型權重的提前準備，是保障推理速度和合成質量的基礎。

本文聚焦 IndexTTS 項目的環境搭建、模型準備與參數說明，梳理核心組件間的協作邏輯，并解析命令行、API 及 WebUI 推理的實用場景，助力自學編程者順利上手與擴展個性化語音合成任務。

文章目錄

項目準備
項目應用
項目拓展
總結

項目準備

使用 Anaconda 可以快速創建和管理 Python 環境，尤其適合初學者。配合 GPU 版本的 PyTorch，可充分利用顯卡加速，顯著提升深度學習任務的執行效率。

在使用 IndexTTS 項目時，確保完成環境配置、下載源碼和預訓練模型，是項目順利運行的關鍵。

需求	說明
配置要求	顯存16G以上，顯卡起步2080TI（N卡）
環境安裝	Python初學者在不同系統上安裝Python的保姆級指引
	Win10+Python3.9+GPU版Pytorch環境搭建最簡流程
項目源碼	IndexTTS
整合包使用	AIGC工具平臺-IndexTTS零樣本語音合成

模型下載

結合了基于離散單元的語音建模和強大的生成模型架構。它通過 BPE 模型將文本轉換為子詞序列，隨后由 GPT 模型預測出對應的語音單元編碼。利用離散變分自編碼器（dVAE）將這些單元轉化為語音頻譜特征后，BigVGAN 生成器再將其合成為自然音頻。判別器在訓練階段用于對抗優化，進一步提高音質。整個系統由統一的配置文件驅動，結構清晰，模塊分明，適合用于高質量語音合成的研究與實際部署。

模型名稱	說明	下載地址
`bigvgan_discriminator.pth`	BigVGAN 判別器，用于訓練過程中評估生成音頻的真實度，提升合成質量	下載地址
`bigvgan_generator.pth`	BigVGAN 生成器，從頻譜特征合成高質量音頻波形，是音頻生成的核心模塊	下載地址
`bpe.model`	字節對編碼模型，用于將輸入文本分割為可供模型處理的子詞單元	下載地址
`dvae.pth`	離散變分自編碼器權重，負責提取語音中的離散語音單元用于生成建模	下載地址
`gpt.pth`	GPT 模型權重，用于根據文本生成語音單元序列，實現文本到語音特征的映射	下載地址
`unigram_12000.vocab`	與 BPE 模型配套的詞表文件，包含 12000 個常用子詞單元	下載地址
`config.yaml`	系統配置文件，定義各模型模塊的參數、輸入輸出接口及其組織方式	下載地址

可以通過huggingface-cli下載：

huggingface-cli download IndexTeam/IndexTTS-1.5 \config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \--local-dir checkpoints

若下載速度較慢，可通過設置鏡像加速：

export HF_ENDPOINT="https://hf-mirror.com"

虛擬環境

在本項目中可以使用 Conda 來創建和管理虛擬環境。在項目的根目錄中，通過 Conda 創建一個新的虛擬環境，假設環境名稱為 venv，并使用 Python 3.10 版本。

conda create --name venv python=3.10

創建好環境后，通過以下命令激活虛擬環境。命令行前會顯示虛擬環境名稱 venv，表示當前環境已激活。

conda activate venv

在激活的虛擬環境中，按照項目提供的 requirements.txt 文件安裝所需的 Python 包。

pip install -r requirements.txt

Windows 系統若遇到 pynini 安裝問題，使用 Conda 方式安裝

conda install -c conda-forge pynini==2.1.6
pip install WeTextProcessing --no-deps

最后進入 IndexTTS 項目目錄并執行

pip install -e .

項目應用

將參考音頻放在 test_data 中并命名為input.wav`，然后運行：

python indextts/infer.py

或者在虛擬環境下使用命令行工具

indextts "大家好，我現在正在bilibili 體驗 ai 科技，說實話，來之前我絕對想不到！AI技術已經發展到這樣匪夷所思的地步了！" \--voice reference_voice.wav \--model_dir checkpoints \--config checkpoints/config.yaml \--output output.wav

IndexTTS 參數說明表

IndexTTS 是 IndexTTS-1.5 系統的核心推理類，負責從參考語音與輸入文本生成高質量語音。初始化時可自動檢測設備類型（如 CUDA、MPS、CPU），并選擇是否啟用 fp16 精度與自定義 CUDA kernel 加速。

參數名稱	類型	默認值	說明
`cfg_path`	`str`	`"checkpoints/config.yaml"`	配置文件路徑
`model_dir`	`str`	`"checkpoints"`	模型文件目錄
`is_fp16`	`bool`	`True`	是否使用 float16 精度（建議 GPU 使用）
`device`	`str or None`	`None`	指定設備（如 `'cuda:0'`、`'cpu'`）；None 時自動檢測可用硬件
`use_cuda_kernel`	`bool or None`	`None`	是否啟用 BigVGAN 自定義 CUDA kernel；僅對 CUDA 有效

推理參數說明（適用于 infer() 和 infer_fast() 方法）

調用 infer() 可執行標準推理流程，逐句處理文本。而 infer_fast() 則通過句子分桶批量并行推理，顯著提升多句文本的合成速度，適用于長文本或實時應用場景。兩種模式均支持風格遷移、音色合成與多樣本生成控制，能夠根據需求靈活調整推理策略與效果。所有參數均可配置，便于集成到自動化合成流程、批量處理腳本或 Web 服務中。

參數名稱	類型	默認值	說明
`audio_prompt`	`str`	必填	參考語音音頻文件路徑，用于風格遷移
`text`	`str`	必填	輸入的文本內容
`output_path`	`str` or None	必填	輸出語音的保存路徑，若為 None 則返回音頻數據而不保存文件
`verbose`	`bool`	`False`	是否輸出詳細調試信息
`max_text_tokens_per_sentence`	`int`	`infer: 120` / `infer_fast: 100`	每個句子的最大 token 長度，用于自動分句
`sentences_bucket_max_size`	`int`	`infer_fast: 4`	fast 模式下 bucket 最大容量，影響推理速度與內存占用
`do_sample`	`bool`	`True`	是否使用采樣策略生成
`top_p`	`float`	`0.8`	nucleus sampling 的保留概率
`top_k`	`int`	`30`	采樣時考慮的最高概率 token 數量
`temperature`	`float`	`1.0`	控制采樣隨機性
`length_penalty`	`float`	`0.0`	控制輸出長度的懲罰項
`num_beams`	`int`	`3`	beam search 的寬度
`repetition_penalty`	`float`	`10.0`	對重復生成內容的懲罰系數
`max_mel_tokens`	`int`	`600`	最大音頻 token 長度

項目拓展

可以使用命令行啟動 WebUI 操作界面，執行項目下的 webui.py 即可。

用戶只需上傳參考音頻（支持拖拽或點擊上傳），輸入想要合成的文本，并選擇推理模式（普通推理適合短文本，批次推理適合長文本或多句分段，效率更高）。點擊“生成語音”即可獲得語音結果。下方還提供了常見示例，點擊后會自動填寫參數，便于快速體驗。支持高級參數設置，滿足不同需求。生成結果會顯示在右側，可直接試聽或下載。整個流程簡單高效，無需復雜配置，零基礎用戶也能快速上手。

在這里插入圖片描述

通過 Gradio 提供的 HTTP API，你可以在本地或服務器端遠程調用 IndexTTS Web 服務，實現自動化、遠程 TTS 語音合成，無需手動操作界面。只需使用 gradio_client，即可一鍵提交任務并獲取語音結果。

參數名	說明	示例/默認值
`prompt`	參考音頻，支持本地文件或網絡音頻，需用 `handle_file` 包裝	`handle_file('audio_sample.wav')`
`text`	輸入文本，支持中英文混合	`"Hello!!"`
`infer_mode`	推理模式，選擇“普通推理”或“批次推理”	`"普通推理"`
`max_text_tokens_per_sentence`	每句最大token數，決定分句粒度	`120`
`sentences_bucket_max_size`	分桶大小，決定批次并行數量	`4`
`param_5`	是否啟用采樣生成（布爾值）	`True`
`param_6`	top_p，控制采樣的多樣性	`0.8`
`param_7`	top_k，采樣時選擇概率最高的前k個	`30`
`param_8`	temperature，采樣溫度，越高越隨機	`1`
`param_9`	length_penalty，控制輸出長度懲罰	`0`
`param_10`	num_beams，beam search寬度	`3`
`param_11`	repetition_penalty，懲罰重復內容	`10`
`param_12`	max_mel_tokens，最大音頻token長度	`600`
`api_name`	調用的API名稱	`"/gen_single"`

from gradio_client import Client, handle_fileclient = Client("http://127.0.0.1:7860/")
result = client.predict(prompt=handle_file('https://github.com/gradio-app/gradio/raw/main/test/test_files/audio_sample.wav'), # 參考音頻text="Hello!!",                              # 輸入文本infer_mode="普通推理",                       # 推理模式選擇max_text_tokens_per_sentence=120,            # 每句最大token數sentences_bucket_max_size=4,                 # 分桶大小param_5=True,                               # 是否采樣param_6=0.8,                                # top_pparam_7=30,                                 # top_kparam_8=1,                                  # temperatureparam_9=0,                                  # length_penaltyparam_10=3,                                 # num_beamsparam_11=10,                                # repetition_penaltyparam_12=600,                               # max_mel_tokensapi_name="/gen_single"                      # API 名稱
)
print(result)

除了 Web 界面，IndexTTS 也支持通過 SDK 方式進行語音合成。你可以直接在 Python 腳本中調用 IndexTTS 類，靈活控制參考音頻、文本和輸出路徑，將 TTS 語音合成功能集成進自己的應用、服務或批處理流程。這種方式適合自動化處理、批量生成，或者需要自定義參數的場景，開發者無需手動操作界面，即可高效調用模型生成所需語音文件。

from indextts.infer import IndexTTS
tts = IndexTTS(model_dir="checkpoints",cfg_path="checkpoints/config.yaml")
voice="reference_voice.wav"
text="大家好，我現在正在bilibili 體驗 ai 科技，說實話，來之前我絕對想不到！AI技術已經發展到這樣匪夷所思的地步了！比如說，現在正在說話的其實是B站為我現場復刻的數字分身，簡直就是平行宇宙的另一個我了。如果大家也想體驗更多深入的AIGC功能，可以訪問 bilibili studio，相信我，你們也會吃驚的。"
tts.infer(voice, text, output_path)

總結

IndexTTS 通過 dVAE、GPT 與 BigVGAN 等模塊解耦實現端到端語音合成，環境配置與模型加載流程清晰，參數控制粒度細致，支持自定義推理、分桶并行與批量處理等多樣化應用。WebUI 與 HTTP API 降低了上手門檻，也便于集成到自動化生產鏈路。當前設計在部署適配性和模型靈活性方面表現突出，但安裝與推理仍依賴高顯存硬件，部分依賴包對系統環境有特殊要求，首次運行涉及下載和路徑配置容易出現報錯。

若進行優化，可引入自動依賴檢測、顯卡資源評估與一鍵環境部署腳本，推理模塊可增強錯誤提示與過程日志輸出，前端加入推理進度條與輸出音頻可視化，后端提供異步任務與多進程支持，提升體驗與擴展能力，更好適配多場景調用需求。