語音轉文本ASR、文本轉語音TTS

ASR

Automatic Speech Recognition，語音轉文本。

技術難點：

聲學多樣性
- 口音、方言、語速、背景噪聲會影響識別準確性；
- 多人對話場景（如會議錄音）需要區分說話人并分離語音。
語言模型適配
- 專業術語或網絡新詞需要動態更新模型；
- 上下文理解，如同音詞糾錯。
低資源語言支持：缺乏標注數據的小語種訓練難度大。
實時性要求：實時轉錄需平衡延遲與準確率。

SenseVoice

GitHub，Hugging Face，ModelScope

SenseVoice-Small是基于非自回歸端到端框架模型，為了指定任務，在語音特征前添加四個嵌入作為輸入傳遞給編碼器：

LID：用于預測音頻語種標簽；
SER：用于預測音頻情感標簽；
AED：用于預測音頻包含的事件標簽；
ITN：用于指定識別輸出文本是否進行逆文本正則化。

Sonic

Sonic是一個開源音頻處理庫，最初由Google開發，主要用于在移動設備上實現高質量的音頻播放和語音處理。

特性：

低延遲：Sonic設計用于低延遲場景，確保音頻播放的實時性；
資源優化
- 節省帶寬：通過高效的音頻編碼和解碼，減少音頻數據的傳輸量，節省網絡帶寬；
- 降低功耗：優化的音頻處理算法可以降低設備的功耗，延長移動設備的電池壽命。

應用場景：

高質量音頻播放
變速不變調：Sonic允許在不改變音調的情況下調整音頻的播放速度，因為改變音調會影響語音的自然度和可理解性。
語音處理
- 語音加速：如需要快速回放語音；
- 語音減速：適用于需要仔細聽取語音內容的場景，如學習或聽力訓練；
- 音量調節：提供動態音量調節功能，確保語音在不同設備和環境下都能清晰可聽。

下載源碼make編譯后使用：./sonic -s 2.0 0415.wav 0415out.wavSetting speed to 2.00X

TTS

Text To Speech，文本轉語音。

技術難點

自然度與情感表達
- 合成語音需避免機械感，需模擬語調、重音、停頓等副語言特征；
- 情感合成需要細粒度控制。
多音字與韻律處理
- 文本歧義依賴上下文；
- 韻律生成（如詩歌朗誦的節奏）需符合人類習慣。
個性化與音色克隆：定制化音色需少量樣本即可模仿，涉及倫理問題。
跨語言合成：中英混合文本需無縫切換發音規則。

傳統的TTS系統雖然能生成高質量語音，但往往存在控制能力有限、跨語言表現較差、聲音風格固定等問題。

Hugging Face維護的TTS-Arena2榜單。

Gemini 2.5

支持多說話人場景，支持24種不同語言，幾乎覆蓋全球主要語言。提供30種不同的音色選擇，從清晰的"Iapetus"到溫和的"Vindemiatrix"，從活潑的"Puck"到信息豐富的"Charon"，每一種音色都有著鮮明的個性特征。

Zephyr - Bright	Erinome- C/ear	Puck - Upbeat	Algenib- Gravelly	Charon - Informative	Rasalgethi - Informative
Kore – Firm	Laomedeia-Upbeat	Fenrir - Excitable	Achernar- Soft	Leda - Youthful	Alnilam-Firm
Orus – Firm	Schedar-Even	Aoede - Breezy	Gacrux - Mature	Callirrhoe - Easy-going	Pulcherrima-Forward
Autonoe- Bright	Achird - Friendly	Enceladus- Breathy	Zubenelgenubi - Casual	lapetus - Clear	Vindemiatrix-Gent/e
Umbriel - Easy-going	Sadachbia - Lively	Algieba-Smooth	Sadaltager - Knowledgeable	Despina-Smooth	Sulafat -Warm

通過自然語言提示，可以精確控制AI的語音表現，維度包括：語調、情感、語速、口音、節奏等。

所有由Gemini 2.5生成的音頻都嵌入SynthID水印技術，確保AI生成的內容可以被識別出來。

Dia-1.6B

Nari Labs開發推出，作為一款16億參數規模的開源TTS模型，Dia不僅能夠自然生成對話式語音，還首次在開源TTS模型中大規模引入情感控制、非語言表達合成與音頻提示語音克隆等前沿特性，大大拓展語音生成的表現力和應用場景。

初步測試結果顯示，Dia-1.6B在自然度、表現力和上下文適應性方面，均優于當前流行的模型如Sesame CSM-1B和ElevenLabs，尤其在復雜、多輪對話生成任務中表現出色。
在這里插入圖片描述

雖然官方尚未公布標準化量化指標，但得益于：

更大的模型參數規模；
先進的調節機制；
獨特的非語言線索處理能力

Dia展現出更強的情緒細膩度和上下文理解能力，使得生成的語音作品更加接近真實人聲。

核心功能

一次性生成完整對話流
不再逐行合成，Dia支持直接輸入包含多輪互動的劇本，自動生成自然連貫的對話語音，營造沉浸式體驗。
多說話人標記支持
通過在文本中添加[S1]、[S2]等說話人標簽，可以輕松合成多角色對話，適用于有聲讀物、廣播劇、游戲配音等場景。
精準的情感和語氣控制
支持通過音頻提示引導生成不同情緒的語音風格，實現更細膩的人機交流體驗。
語音克隆與復制
通過提供參考音頻，Dia可以復制特定說話人的聲音特性，支持定制化語音合成（需遵循合法授權規范）。
自然插入非語言表達
在文本中加入如laughs,coughs等指令，Dia會自動在合成語音中插入自然的非語言聲音，提升表現力。

局限：目前僅支持英文語音生成。

計劃推出：

模型優化版：推理更快，資源占用更低；
量化版模型：適配低資源環境，如移動設備。

憑借其自然的對話生成、情感表達和非語言處理能力，Dia的潛在使用場景：

自動有聲書制作；
YouTube視頻自動配音；
AI呼叫中心智能響應。

入門示例：

import soundfile as sf
from dia.model import Dia
from IPython.display importAudiomodel = Dia.from_pretrained(
"nari-labs/Dia-1.6B"
)
# 輸入文本（支持多說話人和非語言指令）
text = "[S1] Dia is an open weights text to dialogue model (sneezes). [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on GitHub or Hugging Face."
output = model.generate(text)
sf.write("simple.mp3", output, 44100)
# 播放音頻
Audio("simple.mp3")

OpenAudio S1

官網
GitHub
Hugging Face

OpenAudio S1是FishAudio發布的領先的端到端TTS模型，訓練數據超過200萬小時，覆蓋多語言、多場景，性能全面超越市面主流方案。

核心亮點

極致準確率：
S1 WER（詞錯誤率）：0.008
CER（字符錯誤率）：0.004
支持基于GPT-4o的自動評估
多語言支持；
情感語音合成支持：超過50+種情緒標簽&特殊語氣標記
情緒：憤怒、高興、憂慮、感動、輕蔑…
語氣：耳語、匆忙、喊叫……
擬聲：笑、嘆氣、抽泣、觀眾笑……
零樣本/少樣本克隆：只需10~30秒語音樣本，就可實現個性化語音合成。

高推理效率

RTX 4060：實時因子1:5
RTX 4090：實時因子1:15

部署：支持Linux、Windows

模型規格對比

模型	參數量	WER	CER	說話人距離
S1	4B	0.008	0.004	0.332
S1-mini	0.5B	0.011	0.005	0.380

兩者均支持RLHF（人類反饋強化學習），在不同算力條件下靈活部署。

不足：盡管在自動評估指標上表現非常亮眼，但在人工主觀測評中，生成語音在情緒連貫性和自然語氣表達上仍顯生硬，特別是在多輪對話、微妙語境表達等場景下。

為了優化與改進思路：

基于大語言模型的上下文建模：引入LLM對文本進行情感語境感知，輔助情緒embedding的動態生成，而非使用靜態標簽；
Prosody Predictor優化：設計更細粒度的prosody編碼器，如基于擴散模型或flow-based網絡建模韻律曲線；
Prompt-Tuning 情感模板機制：結合prompt learning，讓語音風格與情境描述自然映射，而非硬編碼；
多模態對齊學習：引入圖像或視頻作為額外條件，輔助訓練跨模態情感表達，適用于虛擬人、客服等應用場景。

Vui

Fluxions-AI團隊開源的輕量級、可在消費級設備端運行的語音對話模型Vui。

作為NotebookLM風格的語音模型，Vui不僅能生成流暢的對話，還能精準模擬語氣詞（如呃、嗯）、笑聲和猶豫等非語言元素，帶來沉浸式的交互體驗。可被應用于語音助手、播客生成、客服AI等場景。

提供三款模型：

Vui.BASE：通用基礎模型，4萬小時對話訓練；
Vui.ABRAHAM：單說話人模型，單人上下文感知；
Vui.COHOST：雙說話人模型，雙人互動。

Vui的輕量設計和逼真語音讓它適用于多種場景：

播客生成：Vui.COHOST模擬雙人對話，快速生成訪談或辯論音頻；
語音助手：Vui.ABRAHAM提供上下文感知回復，適合智能客服或個人助理；
內容創作：生成自然語音，添加[laugh]、[hesitate]，提升視頻/播客真實感；
教育培訓：模擬對話場景，生成教學音頻，助力語言學習；
語音克隆：個性化語音定制，適合品牌營銷或虛擬主播。

使用

git clone https://github.com/fluxions-ai/vui.git
cd vui
pip install -e .
# 運行在線Demo
python demo.py

Spark-TTS

GitHub
憑借BiCodec編解碼器和Qwen-2.5思維鏈技術，實現高質量、可控的語音生成。支持零樣本語音克隆，還能進行細粒度語音控制，包括語速、音調、語氣等多項參數調節，同時具備跨語言生成能力，讓AI語音變得更加靈活、多樣化。

核心能力

零樣本語音克隆：只需提供幾秒鐘的語音樣本，便能克隆目標說話人的聲音；
細粒度控制調整：粗粒度控制（性別、說話風格等）；調整（音高、語速等）；
跨語言語音生成：支持跨語言語音合成，支持中文和英文，并保持自然度和準確性；
高質量自然語音：結合Qwen-2.5思維鏈技術，增強語音表達邏輯，自動調整語氣、停頓、強調等語音表達；
音質&語音控制能力：采用BiCodec單流語音編解碼器，將語音分解為語義信息和說話人屬性；
Web界面支持：提供Web UI，方便進行語音克隆和語音創建的界面。

應用場景

有聲讀物：通過調整語速、音高和風格，生成富有表現力的朗讀語音，提升聽眾體驗。
多語言內容：支持中英文跨語言生成，適用于國際化應用。
AI角色配音：利用零樣本克隆技術，快速生成特定說話者的聲音，用于虛擬角色或定制化服務。

架構圖
在這里插入圖片描述

安裝部署

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

創建Python虛擬環境，安裝Python依賴

conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

模型下載

通過Python代碼下載

from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

通過git下載

mkdir -p pretrained_models
# Make sure you have git-lfs installed (https://git-lfs.com)
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

運行演示

cd example
bash infer.sh

在命令行中進行推理：

python -m cli.inference \--text "text to synthesis." \--device 0 \--save_dir "path/to/save/audio" \--model_dir pretrained_models/Spark-TTS-0.5B \--prompt_text "transcript of the prompt audio" \--prompt_speech_path "path/to/prompt_audio"

運行Web界面：python webui.py --device 0。

瀏覽器打開：

可以直接通過界面執行語音克隆和語音創建。支持上傳參考音頻或直接錄制音頻。