語音轉文本ASR、文本轉語音TTS

ASR

Automatic Speech Recognition,語音轉文本。

技術難點:

  • 聲學多樣性
    • 口音、方言、語速、背景噪聲會影響識別準確性;
    • 多人對話場景(如會議錄音)需要區分說話人并分離語音。
  • 語言模型適配
    • 專業術語或網絡新詞需要動態更新模型;
    • 上下文理解,如同音詞糾錯。
  • 低資源語言支持:缺乏標注數據的小語種訓練難度大。
  • 實時性要求:實時轉錄需平衡延遲與準確率。

SenseVoice

GitHub,Hugging Face,ModelScope

SenseVoice-Small是基于非自回歸端到端框架模型,為了指定任務,在語音特征前添加四個嵌入作為輸入傳遞給編碼器:

  • LID:用于預測音頻語種標簽;
  • SER:用于預測音頻情感標簽;
  • AED:用于預測音頻包含的事件標簽;
  • ITN:用于指定識別輸出文本是否進行逆文本正則化。

Sonic

Sonic是一個開源音頻處理庫,最初由Google開發,主要用于在移動設備上實現高質量的音頻播放和語音處理。

特性:

  • 低延遲:Sonic設計用于低延遲場景,確保音頻播放的實時性;
  • 資源優化
    • 節省帶寬:通過高效的音頻編碼和解碼,減少音頻數據的傳輸量,節省網絡帶寬;
    • 降低功耗:優化的音頻處理算法可以降低設備的功耗,延長移動設備的電池壽命。

應用場景:

  • 高質量音頻播放
  • 變速不變調:Sonic允許在不改變音調的情況下調整音頻的播放速度,因為改變音調會影響語音的自然度和可理解性。
  • 語音處理
    • 語音加速:如需要快速回放語音;
    • 語音減速:適用于需要仔細聽取語音內容的場景,如學習或聽力訓練;
    • 音量調節:提供動態音量調節功能,確保語音在不同設備和環境下都能清晰可聽。

下載源碼make編譯后使用:./sonic -s 2.0 0415.wav 0415out.wavSetting speed to 2.00X

TTS

Text To Speech,文本轉語音。

技術難點

  • 自然度與情感表達
    • 合成語音需避免機械感,需模擬語調、重音、停頓等副語言特征;
    • 情感合成需要細粒度控制。
  • 多音字與韻律處理
    • 文本歧義依賴上下文;
    • 韻律生成(如詩歌朗誦的節奏)需符合人類習慣。
  • 個性化與音色克隆:定制化音色需少量樣本即可模仿,涉及倫理問題。
  • 跨語言合成:中英混合文本需無縫切換發音規則。

傳統的TTS系統雖然能生成高質量語音,但往往存在控制能力有限、跨語言表現較差、聲音風格固定等問題。

Hugging Face維護的TTS-Arena2榜單。

Gemini 2.5

支持多說話人場景,支持24種不同語言,幾乎覆蓋全球主要語言。提供30種不同的音色選擇,從清晰的"Iapetus"到溫和的"Vindemiatrix",從活潑的"Puck"到信息豐富的"Charon",每一種音色都有著鮮明的個性特征。

Zephyr - BrightErinome- C/earPuck - UpbeatAlgenib- GravellyCharon - InformativeRasalgethi - Informative
Kore – FirmLaomedeia-UpbeatFenrir - ExcitableAchernar- SoftLeda - YouthfulAlnilam-Firm
Orus – FirmSchedar-EvenAoede - BreezyGacrux - MatureCallirrhoe - Easy-goingPulcherrima-Forward
Autonoe- BrightAchird - FriendlyEnceladus- BreathyZubenelgenubi - Casuallapetus - ClearVindemiatrix-Gent/e
Umbriel - Easy-goingSadachbia - LivelyAlgieba-SmoothSadaltager - KnowledgeableDespina-SmoothSulafat -Warm

通過自然語言提示,可以精確控制AI的語音表現,維度包括:語調、情感、語速、口音、節奏等。

所有由Gemini 2.5生成的音頻都嵌入SynthID水印技術,確保AI生成的內容可以被識別出來。

Dia-1.6B

Nari Labs開發推出,作為一款16億參數規模的開源TTS模型,Dia不僅能夠自然生成對話式語音,還首次在開源TTS模型中大規模引入情感控制、非語言表達合成與音頻提示語音克隆等前沿特性,大大拓展語音生成的表現力和應用場景。

初步測試結果顯示,Dia-1.6B在自然度、表現力和上下文適應性方面,均優于當前流行的模型如Sesame CSM-1B和ElevenLabs,尤其在復雜、多輪對話生成任務中表現出色。
在這里插入圖片描述

雖然官方尚未公布標準化量化指標,但得益于:

  • 更大的模型參數規模;
  • 先進的調節機制;
  • 獨特的非語言線索處理能力

Dia展現出更強的情緒細膩度和上下文理解能力,使得生成的語音作品更加接近真實人聲。

核心功能

  • 一次性生成完整對話流
    不再逐行合成,Dia支持直接輸入包含多輪互動的劇本,自動生成自然連貫的對話語音,營造沉浸式體驗。
  • 多說話人標記支持
    通過在文本中添加[S1]、[S2]等說話人標簽,可以輕松合成多角色對話,適用于有聲讀物、廣播劇、游戲配音等場景。
  • 精準的情感和語氣控制
    支持通過音頻提示引導生成不同情緒的語音風格,實現更細膩的人機交流體驗。
  • 語音克隆與復制
    通過提供參考音頻,Dia可以復制特定說話人的聲音特性,支持定制化語音合成(需遵循合法授權規范)。
  • 自然插入非語言表達
    在文本中加入如laughs,coughs等指令,Dia會自動在合成語音中插入自然的非語言聲音,提升表現力。

局限:目前僅支持英文語音生成。

計劃推出:

  • 模型優化版:推理更快,資源占用更低;
  • 量化版模型:適配低資源環境,如移動設備。

憑借其自然的對話生成、情感表達和非語言處理能力,Dia的潛在使用場景:

  • 自動有聲書制作;
  • YouTube視頻自動配音;
  • AI呼叫中心智能響應。

入門示例:

import soundfile as sf
from dia.model import Dia
from IPython.display importAudiomodel = Dia.from_pretrained(
"nari-labs/Dia-1.6B"
)
# 輸入文本(支持多說話人和非語言指令)
text = "[S1] Dia is an open weights text to dialogue model (sneezes). [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on GitHub or Hugging Face."
output = model.generate(text)
sf.write("simple.mp3", output, 44100)
# 播放音頻
Audio("simple.mp3")

OpenAudio S1

官網
GitHub
Hugging Face

OpenAudio S1是FishAudio發布的領先的端到端TTS模型,訓練數據超過200萬小時,覆蓋多語言、多場景,性能全面超越市面主流方案。

核心亮點

  • 極致準確率:
    S1 WER(詞錯誤率):0.008
    CER(字符錯誤率):0.004
    支持基于GPT-4o的自動評估
  • 多語言支持;
  • 情感語音合成支持:超過50+種情緒標簽&特殊語氣標記
    情緒:憤怒、高興、憂慮、感動、輕蔑…
    語氣:耳語、匆忙、喊叫……
    擬聲:笑、嘆氣、抽泣、觀眾笑……
  • 零樣本/少樣本克隆:只需10~30秒語音樣本,就可實現個性化語音合成。

高推理效率

  • RTX 4060:實時因子1:5
  • RTX 4090:實時因子1:15

部署:支持Linux、Windows

模型規格對比

模型參數量WERCER說話人距離
S14B0.0080.0040.332
S1-mini0.5B0.0110.0050.380

兩者均支持RLHF(人類反饋強化學習),在不同算力條件下靈活部署。

不足:盡管在自動評估指標上表現非常亮眼,但在人工主觀測評中,生成語音在情緒連貫性和自然語氣表達上仍顯生硬,特別是在多輪對話、微妙語境表達等場景下。

為了優化與改進思路:

  • 基于大語言模型的上下文建模:引入LLM對文本進行情感語境感知,輔助情緒embedding的動態生成,而非使用靜態標簽;
  • Prosody Predictor優化:設計更細粒度的prosody編碼器,如基于擴散模型或flow-based網絡建模韻律曲線;
  • Prompt-Tuning 情感模板機制:結合prompt learning,讓語音風格與情境描述自然映射,而非硬編碼;
  • 多模態對齊學習:引入圖像或視頻作為額外條件,輔助訓練跨模態情感表達,適用于虛擬人、客服等應用場景。

Vui

Fluxions-AI團隊開源的輕量級、可在消費級設備端運行的語音對話模型Vui。

作為NotebookLM風格的語音模型,Vui不僅能生成流暢的對話,還能精準模擬語氣詞(如呃、嗯)、笑聲和猶豫等非語言元素,帶來沉浸式的交互體驗。可被應用于語音助手、播客生成、客服AI等場景。

提供三款模型:

  • Vui.BASE:通用基礎模型,4萬小時對話訓練;
  • Vui.ABRAHAM:單說話人模型,單人上下文感知;
  • Vui.COHOST:雙說話人模型,雙人互動。

Vui的輕量設計和逼真語音讓它適用于多種場景:

  • 播客生成:Vui.COHOST模擬雙人對話,快速生成訪談或辯論音頻;
  • 語音助手:Vui.ABRAHAM提供上下文感知回復,適合智能客服或個人助理;
  • 內容創作:生成自然語音,添加[laugh]、[hesitate],提升視頻/播客真實感;
  • 教育培訓:模擬對話場景,生成教學音頻,助力語言學習;
  • 語音克隆:個性化語音定制,適合品牌營銷或虛擬主播。

使用

git clone https://github.com/fluxions-ai/vui.git
cd vui
pip install -e .
# 運行在線Demo
python demo.py

Spark-TTS

GitHub
憑借BiCodec編解碼器和Qwen-2.5思維鏈技術,實現高質量、可控的語音生成。支持零樣本語音克隆,還能進行細粒度語音控制,包括語速、音調、語氣等多項參數調節,同時具備跨語言生成能力,讓AI語音變得更加靈活、多樣化。

核心能力

  • 零樣本語音克隆:只需提供幾秒鐘的語音樣本,便能克隆目標說話人的聲音;
  • 細粒度控制調整:粗粒度控制(性別、說話風格等);調整(音高、語速等);
  • 跨語言語音生成:支持跨語言語音合成,支持中文和英文,并保持自然度和準確性;
  • 高質量自然語音:結合Qwen-2.5思維鏈技術,增強語音表達邏輯,自動調整語氣、停頓、強調等語音表達;
  • 音質&語音控制能力:采用BiCodec單流語音編解碼器,將語音分解為語義信息和說話人屬性;
  • Web界面支持:提供Web UI,方便進行語音克隆和語音創建的界面。

應用場景

  • 有聲讀物:通過調整語速、音高和風格,生成富有表現力的朗讀語音,提升聽眾體驗。
  • 多語言內容:支持中英文跨語言生成,適用于國際化應用。
  • AI角色配音:利用零樣本克隆技術,快速生成特定說話者的聲音,用于虛擬角色或定制化服務。

架構圖
在這里插入圖片描述

安裝部署

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS

創建Python虛擬環境,安裝Python依賴

conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

模型下載

  • 通過Python代碼下載
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
  • 通過git下載
mkdir -p pretrained_models
# Make sure you have git-lfs installed (https://git-lfs.com)
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

運行演示

cd example
bash infer.sh

在命令行中進行推理:

python -m cli.inference \--text "text to synthesis." \--device 0 \--save_dir "path/to/save/audio" \--model_dir pretrained_models/Spark-TTS-0.5B \--prompt_text "transcript of the prompt audio" \--prompt_speech_path "path/to/prompt_audio"

運行Web界面:python webui.py --device 0

瀏覽器打開:

可以直接通過界面執行語音克隆和語音創建。支持上傳參考音頻或直接錄制音頻。

Index-TTS

GitHub,

IndexTTS-vLLM,GitHub,讓語音合成更快速、更高效。核心價值在于通過vLLM加速IndexTTS的推理過程,顯著提升語音合成的速度和并發能力。亮點:

  1. 單個請求RTF從0.3降至0.1;
  2. GPT模型decode速度提升至280 token/s;
  3. 支持多角色音頻混合,為語音合成帶來更多創意可能。

ASR和TTS

類似點:

  • 深度學習架構:ASR和TTS均依賴序列模型(如Transformer、RNN),TTS常用Tacotron、VITS,ASR常用Conformer;
  • 端到端訓練:傳統ASR需分別訓練聲學模型和語言模型,現代方法(如Whisper)趨向端到端;
  • 數據預處理:語音增強(去噪)、文本歸一化(數字100讀作一百還是一零零)對兩者均重要;
  • 注意力機制:用于對齊語音與文本單元(如音素或字符)。

相比于ASR在復雜場景(如嘈雜環境)的技術難點,TTS復雜在:

  • 主觀評價標準:ASR的準確率可客觀衡量(如詞錯誤率),而TTS的自然度依賴人類主觀評分(如MOS均值);
  • 生成任務的復雜性:TTS需從文本生成高維語音波形,需建模細微的聲學特征(如呼吸聲、氣口);
  • 長尾問題:罕見詞或特殊語境(如方言俚語)在TTS中更容易暴露不自然感。

未來趨勢

  • 聯合建模:如SpeechGPT等統一架構嘗試將ASR、TTS整合到單一模型中;
  • 模型驅動:語音大模型(如OpenAI的Voice Engine)可能模糊ASR/TTS邊界。

參考

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/83842.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/83842.shtml
英文地址,請注明出處:http://en.pswp.cn/web/83842.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

通用embedding模型和通用reranker模型,觀測調研

調研Qwen3-Embedding和Qwen3-Reranker 現在有一個的問答庫,包括150個QA-pair,用10個query去同時檢索問答庫的300個questionanswer Embedding模型,query-question的匹配分數 普遍高于 query-answer的匹配分數。比如對于10個query&#xff0c…

基于YOLOv8+Deepface的人臉檢測與識別系統

摘要 人臉檢測與識別系統是一個集成了先進計算機視覺技術的應用,通過深度學習模型實現人臉檢測、識別和管理功能。系統采用雙模式架構: ??注冊模式??:檢測新人臉并添加到數據庫??刪除模式??:識別數據庫中的人臉并移除匹…

Grdle版本與Android Gradle Plugin版本, Android Studio對應關系

Grdle版本與Android Gradle Plugin版本, Android Studio對應關系 各個 Android Gradle 插件版本所需的 Gradle 版本: https://developer.android.com/build/releases/gradle-plugin?hlzh-cn Maven上發布的Android Gradle Plugin(AGP&#x…

用c語言實現簡易c語言掃雷游戲

void test(void) {int input 0;do{menu();printf("請選擇: >");scanf("%d", &input);switch (input){menu();case 1:printf("掃雷\n");game();break;case 2:printf("退出游戲\n");break;default:printf("輸入…

系統辨識的研究生水平讀書報告期末作業參考

這是一份關于系統辨識的研究生水平讀書報告,內容系統完整、邏輯性強,并深入探討了理論、方法與實際應用。報告字數超過6000字 從理論到實踐:系統辨識的核心思想、方法論與前沿挑戰 摘要 系統辨識作為連接理論模型與客觀世界的橋梁&#xff…

開源、免費、美觀的 Vue 后臺管理系統模板

隨著前端技術的不斷發展,Vue.js 憑借其輕量、高效、易上手的特性,成為國內外開發者最喜愛的前端框架之一。在構建后臺管理系統時,Vue 提供了以下優勢: 響應式數據綁定:讓頁面和數據保持同步,開發效率高。 …

適合 Acrobat DC 文件類型解析

文件類型 (File Type)ProgID (Continuous)ProgID (Classic)主要用途.pdfAcroExch.Document.DCAcroExch.Document.20XX (版本特定)Adobe PDF文檔格式,用于存儲文檔內容和格式.pdfxmlAcroExch.pdfxmlAcroExch.pdfxmlPDF與XML結合的格式,可能用于結構化數據…

C/C++數據結構之漫談

概述 在當今的數字化時代,無論是刷短視頻、社交聊天,還是使用導航軟件、網絡購物,背后都離不開計算機技術的支持。但你是否想過:為什么同樣的功能,有的軟件運行得飛快,有的卻嚴重卡頓,半天沒有響…

4步使用 vue3 路由

路由的基本使用步驟分為以下4步 第一步&#xff1a;定義路由組件&#xff1a;略 第二步&#xff1a;定義路由鏈接和路由視圖&#xff1a; <template><div class"app-container"><h1>App根組件</h1><router-link to"/home">…

VScode使用npm啟動項目以及npm install ,npm start報錯問題處理

安裝啟動步驟 打開cmd 輸入指令 npm -v 查看npm是否安裝&#xff0c;需要先安裝node.js node.js安裝&#xff1a;node.js安裝 安裝包下載后&#xff0c;一直點擊next &#xff0c;安裝完成&#xff0c;打開cmd 輸入 node -v 查看安裝是否成功 使用VScode 打開項目&#xf…

《仿盒馬》app開發技術分享-- 回收金提現記錄查詢(端云一體)

開發準備 上一節我們實現了回收金提現的功能&#xff0c;并且成功展示了當前賬戶的支出列表&#xff0c;但是我們的提現相關的記錄并沒有很好的給用戶做出展示&#xff0c;用戶只知道當前賬戶提現扣款&#xff0c;并不知道回收金的去向&#xff0c;這一節我們就要實現回收金記…

芯片的起點——從硅到晶圓制造

第1篇&#xff1a;芯片的起點——從硅到晶圓制造 在討論汽車芯片如何“上車”之前&#xff0c;我們必須先回到源頭&#xff0c;從一顆芯片是如何從沙子一步步煉成講起。很多人知道芯片很復雜&#xff0c;卻未必清楚它的每一層結構、每一道工藝有何意義。本系列文章將從硅的提純…

vscode python debugger 如何調試老版本python

找到老版本資源&#xff1a; 找到老版本python debugger插件&#xff0c;現在官方github 都是24之后的release 了&#xff0c;調不了3.6 老項目 pdb&#xff1a; 太麻煩 debugpy vscode python debugger 的底層實現&#xff0c;我們可以指定老版本的debugger 來調試&#…

MVCC 怎么實現的

? 什么是 MVCC?它是怎么實現的?(適合基礎不牢固者) 一、MVCC 是什么? MVCC 全稱是:Multi-Version Concurrency Control,中文叫:多版本并發控制。 主要用于解決數據庫的讀寫并發沖突問題,它的作用是讓讀操作無需加鎖,也能讀到符合事務隔離要求的數據版本。 你可以…

深度解析企業風控API技術實踐:構建全方位企業風險畫像系統

引言 在當前的商業環境中&#xff0c;企業風險評估已成為各類商業決策的重要依據。本文將從技術實踐的角度&#xff0c;詳細介紹企業風控API的集成應用&#xff0c;重點關注API的調用方式、數據結構以及風險維度的劃分&#xff0c;幫助開發者快速構建企業風險畫像系統。 關鍵…

Mac 系統 Node.js 安裝與版本管理指南

Mac 系統 Node.js 安裝與版本管理指南 一、環境檢查 在終端執行以下命令驗證當前環境&#xff1a; node -v # 查看 Node.js 版本&#xff08;未安裝會提示命令不存在&#xff09; npm -v # 查看 npm 版本&#xff08;需 Node.js 安裝完成后生效&#xff09;二、安裝方法 …

設備健康管理系統搭建全技術解析:從架構設計到智能運維實踐

在工業 4.0 與智能制造深度融合的當下&#xff0c;設備健康管理系統已成為企業實現數字化轉型的核心基礎設施。據 Gartner 數據顯示&#xff0c;采用智能設備健康管理系統的企業&#xff0c;平均可降低 30% 的非計劃停機成本。如何基于現代技術棧構建一套高效、精準的設備健康管…

React-router 路由歷史的模式和原理

在現代Web開發中,React Router已成為管理React應用程序中路由的流行工具。它不僅簡化了在單頁應用程序(SPA)中導航的過程,還提供了多種路由歷史的模式來適應不同的開發需求和環境。了解這些模式及其背后的原理對于構建高效、可維護的Web應用程序至關重要。本文將深入探討Re…

C++題解(35) 2025年順德區中小學生程序設計展示活動(初中組C++) 換位(一)

題目描述 小明班上是n行m列的座位排列&#xff0c;座位按照行列順序編號&#xff0c;如6行7列&#xff0c;那么第1行第1列座位號為1號、第1行第7列為7號、第3行第4列為18號&#xff0c;如此遞推。 現在期中考剛結束要進行全班換座位。班主任剛剛公布了換位指令&#xff0c;指…

征程 6 Cache 使用場景

一、緩存機制基礎 1.1 緩存類型對比 1.2 典型應用場景 緩存緩沖區 &#xff1a;適用于高頻 CPU 訪問場景&#xff08;如 AI 推理中間數據&#xff09; 非緩存緩沖區 &#xff1a;適用于設備直傳場景&#xff08;如 DMA 數據流&#xff09; 二、數據一致性問題深度解析 2.1…