ASR
Automatic Speech Recognition,語音轉文本。
技術難點:
- 聲學多樣性
- 口音、方言、語速、背景噪聲會影響識別準確性;
- 多人對話場景(如會議錄音)需要區分說話人并分離語音。
- 語言模型適配
- 專業術語或網絡新詞需要動態更新模型;
- 上下文理解,如同音詞糾錯。
- 低資源語言支持:缺乏標注數據的小語種訓練難度大。
- 實時性要求:實時轉錄需平衡延遲與準確率。
SenseVoice
GitHub,Hugging Face,ModelScope
SenseVoice-Small是基于非自回歸端到端框架模型,為了指定任務,在語音特征前添加四個嵌入作為輸入傳遞給編碼器:
- LID:用于預測音頻語種標簽;
- SER:用于預測音頻情感標簽;
- AED:用于預測音頻包含的事件標簽;
- ITN:用于指定識別輸出文本是否進行逆文本正則化。
Sonic
Sonic是一個開源音頻處理庫,最初由Google開發,主要用于在移動設備上實現高質量的音頻播放和語音處理。
特性:
- 低延遲:Sonic設計用于低延遲場景,確保音頻播放的實時性;
- 資源優化
- 節省帶寬:通過高效的音頻編碼和解碼,減少音頻數據的傳輸量,節省網絡帶寬;
- 降低功耗:優化的音頻處理算法可以降低設備的功耗,延長移動設備的電池壽命。
應用場景:
- 高質量音頻播放
- 變速不變調:Sonic允許在不改變音調的情況下調整音頻的播放速度,因為改變音調會影響語音的自然度和可理解性。
- 語音處理
- 語音加速:如需要快速回放語音;
- 語音減速:適用于需要仔細聽取語音內容的場景,如學習或聽力訓練;
- 音量調節:提供動態音量調節功能,確保語音在不同設備和環境下都能清晰可聽。
下載源碼make編譯后使用:./sonic -s 2.0 0415.wav 0415out.wavSetting speed to 2.00X
TTS
Text To Speech,文本轉語音。
技術難點
- 自然度與情感表達
- 合成語音需避免機械感,需模擬語調、重音、停頓等副語言特征;
- 情感合成需要細粒度控制。
- 多音字與韻律處理
- 文本歧義依賴上下文;
- 韻律生成(如詩歌朗誦的節奏)需符合人類習慣。
- 個性化與音色克隆:定制化音色需少量樣本即可模仿,涉及倫理問題。
- 跨語言合成:中英混合文本需無縫切換發音規則。
傳統的TTS系統雖然能生成高質量語音,但往往存在控制能力有限、跨語言表現較差、聲音風格固定等問題。
Hugging Face維護的TTS-Arena2榜單。
Gemini 2.5
支持多說話人場景,支持24種不同語言,幾乎覆蓋全球主要語言。提供30種不同的音色選擇,從清晰的"Iapetus"到溫和的"Vindemiatrix",從活潑的"Puck"到信息豐富的"Charon",每一種音色都有著鮮明的個性特征。
Zephyr - Bright | Erinome- C/ear | Puck - Upbeat | Algenib- Gravelly | Charon - Informative | Rasalgethi - Informative |
---|---|---|---|---|---|
Kore – Firm | Laomedeia-Upbeat | Fenrir - Excitable | Achernar- Soft | Leda - Youthful | Alnilam-Firm |
Orus – Firm | Schedar-Even | Aoede - Breezy | Gacrux - Mature | Callirrhoe - Easy-going | Pulcherrima-Forward |
Autonoe- Bright | Achird - Friendly | Enceladus- Breathy | Zubenelgenubi - Casual | lapetus - Clear | Vindemiatrix-Gent/e |
Umbriel - Easy-going | Sadachbia - Lively | Algieba-Smooth | Sadaltager - Knowledgeable | Despina-Smooth | Sulafat -Warm |
通過自然語言提示,可以精確控制AI的語音表現,維度包括:語調、情感、語速、口音、節奏等。
所有由Gemini 2.5生成的音頻都嵌入SynthID水印技術,確保AI生成的內容可以被識別出來。
Dia-1.6B
Nari Labs開發推出,作為一款16億參數規模的開源TTS模型,Dia不僅能夠自然生成對話式語音,還首次在開源TTS模型中大規模引入情感控制、非語言表達合成與音頻提示語音克隆等前沿特性,大大拓展語音生成的表現力和應用場景。
初步測試結果顯示,Dia-1.6B在自然度、表現力和上下文適應性方面,均優于當前流行的模型如Sesame CSM-1B和ElevenLabs,尤其在復雜、多輪對話生成任務中表現出色。
雖然官方尚未公布標準化量化指標,但得益于:
- 更大的模型參數規模;
- 先進的調節機制;
- 獨特的非語言線索處理能力
Dia展現出更強的情緒細膩度和上下文理解能力,使得生成的語音作品更加接近真實人聲。
核心功能
- 一次性生成完整對話流
不再逐行合成,Dia支持直接輸入包含多輪互動的劇本,自動生成自然連貫的對話語音,營造沉浸式體驗。 - 多說話人標記支持
通過在文本中添加[S1]、[S2]等說話人標簽,可以輕松合成多角色對話,適用于有聲讀物、廣播劇、游戲配音等場景。 - 精準的情感和語氣控制
支持通過音頻提示引導生成不同情緒的語音風格,實現更細膩的人機交流體驗。 - 語音克隆與復制
通過提供參考音頻,Dia可以復制特定說話人的聲音特性,支持定制化語音合成(需遵循合法授權規范)。 - 自然插入非語言表達
在文本中加入如laughs,coughs
等指令,Dia會自動在合成語音中插入自然的非語言聲音,提升表現力。
局限:目前僅支持英文語音生成。
計劃推出:
- 模型優化版:推理更快,資源占用更低;
- 量化版模型:適配低資源環境,如移動設備。
憑借其自然的對話生成、情感表達和非語言處理能力,Dia的潛在使用場景:
- 自動有聲書制作;
- YouTube視頻自動配音;
- AI呼叫中心智能響應。
入門示例:
import soundfile as sf
from dia.model import Dia
from IPython.display importAudiomodel = Dia.from_pretrained(
"nari-labs/Dia-1.6B"
)
# 輸入文本(支持多說話人和非語言指令)
text = "[S1] Dia is an open weights text to dialogue model (sneezes). [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on GitHub or Hugging Face."
output = model.generate(text)
sf.write("simple.mp3", output, 44100)
# 播放音頻
Audio("simple.mp3")
OpenAudio S1
官網
GitHub
Hugging Face
OpenAudio S1是FishAudio發布的領先的端到端TTS模型,訓練數據超過200萬小時,覆蓋多語言、多場景,性能全面超越市面主流方案。
核心亮點
- 極致準確率:
S1 WER(詞錯誤率):0.008
CER(字符錯誤率):0.004
支持基于GPT-4o的自動評估 - 多語言支持;
- 情感語音合成支持:超過50+種情緒標簽&特殊語氣標記
情緒:憤怒、高興、憂慮、感動、輕蔑…
語氣:耳語、匆忙、喊叫……
擬聲:笑、嘆氣、抽泣、觀眾笑…… - 零樣本/少樣本克隆:只需10~30秒語音樣本,就可實現個性化語音合成。
高推理效率
- RTX 4060:實時因子1:5
- RTX 4090:實時因子1:15
部署:支持Linux、Windows
模型規格對比
模型 | 參數量 | WER | CER | 說話人距離 |
---|---|---|---|---|
S1 | 4B | 0.008 | 0.004 | 0.332 |
S1-mini | 0.5B | 0.011 | 0.005 | 0.380 |
兩者均支持RLHF(人類反饋強化學習),在不同算力條件下靈活部署。
不足:盡管在自動評估指標上表現非常亮眼,但在人工主觀測評中,生成語音在情緒連貫性和自然語氣表達上仍顯生硬,特別是在多輪對話、微妙語境表達等場景下。
為了優化與改進思路:
- 基于大語言模型的上下文建模:引入LLM對文本進行情感語境感知,輔助情緒embedding的動態生成,而非使用靜態標簽;
- Prosody Predictor優化:設計更細粒度的prosody編碼器,如基于擴散模型或flow-based網絡建模韻律曲線;
- Prompt-Tuning 情感模板機制:結合prompt learning,讓語音風格與情境描述自然映射,而非硬編碼;
- 多模態對齊學習:引入圖像或視頻作為額外條件,輔助訓練跨模態情感表達,適用于虛擬人、客服等應用場景。
Vui
Fluxions-AI團隊開源的輕量級、可在消費級設備端運行的語音對話模型Vui。
作為NotebookLM風格的語音模型,Vui不僅能生成流暢的對話,還能精準模擬語氣詞(如呃、嗯)、笑聲和猶豫等非語言元素,帶來沉浸式的交互體驗。可被應用于語音助手、播客生成、客服AI等場景。
提供三款模型:
- Vui.BASE:通用基礎模型,4萬小時對話訓練;
- Vui.ABRAHAM:單說話人模型,單人上下文感知;
- Vui.COHOST:雙說話人模型,雙人互動。
Vui的輕量設計和逼真語音讓它適用于多種場景:
- 播客生成:Vui.COHOST模擬雙人對話,快速生成訪談或辯論音頻;
- 語音助手:Vui.ABRAHAM提供上下文感知回復,適合智能客服或個人助理;
- 內容創作:生成自然語音,添加[laugh]、[hesitate],提升視頻/播客真實感;
- 教育培訓:模擬對話場景,生成教學音頻,助力語言學習;
- 語音克隆:個性化語音定制,適合品牌營銷或虛擬主播。
使用
git clone https://github.com/fluxions-ai/vui.git
cd vui
pip install -e .
# 運行在線Demo
python demo.py
Spark-TTS
GitHub
憑借BiCodec編解碼器和Qwen-2.5思維鏈技術,實現高質量、可控的語音生成。支持零樣本語音克隆,還能進行細粒度語音控制,包括語速、音調、語氣等多項參數調節,同時具備跨語言生成能力,讓AI語音變得更加靈活、多樣化。
核心能力
- 零樣本語音克隆:只需提供幾秒鐘的語音樣本,便能克隆目標說話人的聲音;
- 細粒度控制調整:粗粒度控制(性別、說話風格等);調整(音高、語速等);
- 跨語言語音生成:支持跨語言語音合成,支持中文和英文,并保持自然度和準確性;
- 高質量自然語音:結合Qwen-2.5思維鏈技術,增強語音表達邏輯,自動調整語氣、停頓、強調等語音表達;
- 音質&語音控制能力:采用BiCodec單流語音編解碼器,將語音分解為語義信息和說話人屬性;
- Web界面支持:提供Web UI,方便進行語音克隆和語音創建的界面。
應用場景
- 有聲讀物:通過調整語速、音高和風格,生成富有表現力的朗讀語音,提升聽眾體驗。
- 多語言內容:支持中英文跨語言生成,適用于國際化應用。
- AI角色配音:利用零樣本克隆技術,快速生成特定說話者的聲音,用于虛擬角色或定制化服務。
架構圖
安裝部署
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
創建Python虛擬環境,安裝Python依賴
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
模型下載
- 通過Python代碼下載
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
- 通過git下載
mkdir -p pretrained_models
# Make sure you have git-lfs installed (https://git-lfs.com)
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
運行演示
cd example
bash infer.sh
在命令行中進行推理:
python -m cli.inference \--text "text to synthesis." \--device 0 \--save_dir "path/to/save/audio" \--model_dir pretrained_models/Spark-TTS-0.5B \--prompt_text "transcript of the prompt audio" \--prompt_speech_path "path/to/prompt_audio"
運行Web界面:python webui.py --device 0
。
瀏覽器打開:
可以直接通過界面執行語音克隆和語音創建。支持上傳參考音頻或直接錄制音頻。
Index-TTS
GitHub,
IndexTTS-vLLM,GitHub,讓語音合成更快速、更高效。核心價值在于通過vLLM加速IndexTTS的推理過程,顯著提升語音合成的速度和并發能力。亮點:
- 單個請求RTF從0.3降至0.1;
- GPT模型decode速度提升至280 token/s;
- 支持多角色音頻混合,為語音合成帶來更多創意可能。
ASR和TTS
類似點:
- 深度學習架構:ASR和TTS均依賴序列模型(如Transformer、RNN),TTS常用Tacotron、VITS,ASR常用Conformer;
- 端到端訓練:傳統ASR需分別訓練聲學模型和語言模型,現代方法(如Whisper)趨向端到端;
- 數據預處理:語音增強(去噪)、文本歸一化(數字100讀作一百還是一零零)對兩者均重要;
- 注意力機制:用于對齊語音與文本單元(如音素或字符)。
相比于ASR在復雜場景(如嘈雜環境)的技術難點,TTS復雜在:
- 主觀評價標準:ASR的準確率可客觀衡量(如詞錯誤率),而TTS的自然度依賴人類主觀評分(如MOS均值);
- 生成任務的復雜性:TTS需從文本生成高維語音波形,需建模細微的聲學特征(如呼吸聲、氣口);
- 長尾問題:罕見詞或特殊語境(如方言俚語)在TTS中更容易暴露不自然感。
未來趨勢
- 聯合建模:如SpeechGPT等統一架構嘗試將ASR、TTS整合到單一模型中;
- 模型驅動:語音大模型(如OpenAI的Voice Engine)可能模糊ASR/TTS邊界。