騰訊開源實時語音大模型VITA-audio，92mstoken極速響應，支持多語言～

簡介

在這里插入圖片描述

VITA-Audio 是一個由騰訊優圖實驗室（Tencent Youtu Lab）、南京大學和廈門大學的研究人員共同開發的項目，旨在解決現有語音模型在流式生成（streaming）場景下生成第一個音頻令牌（token）時的高延遲問題。這種延遲在實時應用中（如語音助手、實時語音翻譯）是一個顯著的瓶頸，限制了模型的部署和實際應用。

開發動機與目標

在這里插入圖片描述

問題驅動：隨著自然人機交互需求的增長，語音作為日常交流的主要形式，其實時性變得越來越重要。然而，現有模型在流式生成時存在高延遲問題，特別是在生成第一個音頻令牌時，延遲可能達到數秒，影響用戶體驗。
目標：VITA-Audio 旨在通過創新性地引入交叉模態令牌生成機制（Cross-Modal Token Generation），顯著降低生成延遲，同時保持語音質量的優異表現。其核心目標是實現高效的音頻-文本令牌生成，適合實時交互場景。
創新點：項目提出了一種輕量級的多模態令牌預測模塊（Multiple Cross-modal Token Prediction, MCTP），能夠在單次模型前向傳播中生成多個音頻令牌，從而加速推理并減少首個音頻令牌的生成延遲。
訓練策略：采用四階段漸進式訓練策略（Four-Stage Progressive Training），確保模型在加速的同時保持高質量輸出，訓練基于大規模開源語音數據集，確保多語言和多風格的泛化能力。
應用場景：VITA-Audio 適用于需要低延遲的語音生成任務，如實時語音助手、語音翻譯、語音合成等，特別適合資源受限的設備部署。
開源與社區：項目已開源，采用開放許可，GitHub 倉庫提供推理代碼、訓練代碼和模型權重，鼓勵社區貢獻和使用，截至 2025 年 5 月 14 日，已吸引開發者關注。

模型結構

VITA-Audio 的模型結構設計緊湊且高效，專為實時語音生成優化。

整體架構

VITA-Audio 是一個端到端的大型語音模型（Large Speech-Language Model），支持音頻和文本的交叉模態生成，核心目標是實現快速的音頻-文本令牌生成。
模型基于變分推理和對抗學習（Variational Inference with Adversarial Learning），結合了語音合成和語言模型的優點，適合端到端的語音任務。

關鍵模塊

在這里插入圖片描述

Multiple Cross-modal Token Prediction (MCTP) 模塊
- 這是 VITA-Audio 的核心創新，允許模型在單次前向傳播中生成多個音頻令牌，從而顯著減少生成第一個音頻令牌的延遲。
- MCTP 模塊通過交叉模態學習（Cross-Modal Learning）實現音頻和文本之間的協同生成，確保生成的音頻與文本提示保持一致，適合實時交互。
- 其輕量級設計降低了計算開銷，適合資源受限的設備部署。
語音編碼器（Voice Encoder）
- 從參考音頻中提取語音特征（如音色、節奏、語調等），用于克隆目標語音。
- 可能使用基于卷積或變換器的編碼器，捕獲音頻的時頻特征，確保音質的高保真度。
文本編碼器（Text Encoder）
- 處理輸入文本，生成語音合成的條件，可能是基于 Transformer 架構，支持多語言輸入。
- 確保文本和音頻的語義一致性，適合跨語言生成任務。
生成器（Generator）
- 結合文本編碼器和語音編碼器的輸出，生成目標語音，使用對抗學習確保生成語音的真實性，減少偽影。
- 生成器可能采用 U-Net 架構，結合條件生成網絡（Conditional GAN）實現高保真語音輸出。
四階段漸進式訓練策略
- 模型采用四階段訓練策略，逐步增加訓練難度和數據復雜度，確保模型在加速的同時保持高質量輸出。
- 可能包括預訓練（Pre-training）、微調（Fine-tuning）、多模態對齊（Multimodal Alignment）和優化（Optimization）階段。

性能優化

低延遲：通過 MCTP 模塊，VITA-Audio 在流式生成場景下顯著降低了生成第一個音頻令牌的延遲，提升了實時性，適合語音助手等應用。
高效性：模型設計輕量級，適合在資源受限的設備上部署，同時保持高質量的語音輸出，社區反饋顯示在 RTX 4090 上生成速度比 RTX 3090 快 50%-70% 。