AudioLLM

參考鏈接:https://mp.weixin.qq.com/s/cscrUn7n_o6PdeQRzWpx8g
視頻教程:https://www.bilibili.com/video/BV1LGbozkEDY
模型代碼:https://github.com/boson-ai/higgs-audio

如果是兩個模型加在一起:一個語言模型,一個文本轉語音模型有問題
一個是耗時問題,另一個是語音轉文本再轉語音會丟失非語言信息,比如語氣和環境音

傳統的語音和文本模型之間相互獨立,李沐老師就想,欸,能不能將兩者結合起來,直接讓LLM用語音進行溝通。那么首先就要知道文本語言模型的本質是用給定的一段指令去生成預測結果,就是將任務先拆解為系統指令(system)用戶輸入(user)、**模型回復(assistant)**三個部分。

system告訴模型,需要做什么事情,例如回答該問題、寫一段文字或者其他
user就是告知事情的詳細內容,例如問題具體是什么、文字要什么風格。所以如果要讓模型支持語音,就需要為模型增加一個系統命令,在user里輸入要轉錄為語音的文字,讓模型從system里輸出對應語音數據。這樣語音任務就能轉換成相同的處理格式,直接打通語音和文本之間的映射,通過追加更多的數據和算力,直接scaling law“大力出奇跡”。

在這里插入圖片描述

中文的一個字:token
語言模型的輸出是一個softmax,本質上是一個多分類的問題
語音tokenizer:需要將語音這樣連續的信號變為離散的token

現有的方法是將一秒的語音信號裁切成多段(如100毫秒一段),為每一段匹配最相似的預定義模板(如45個模板),然后將其表示為長度為10的編號序列,也就是一個個token。
但這樣做,雖然可以將一小時的音頻從60兆壓縮到0.16兆,但質量相當糟糕,所以需要優先保留語音的語義信息,而聲學信號只保留少量部分,后續再通過其他手段還原。
于是他們訓練了一個統一的離散化音頻分詞器,以每秒25幀的速度運行,同時保持甚至提高音頻質量,以捕獲語義和聲學特征
在這里插入圖片描述

常用壓縮:1小時 128kbps mp3 ~60MB
設64K audio tokens, 24 tokens per second
1秒audio:log2(64K)x24=384bit1小時audio ~0.16MB對比mp3,又壓縮了375x

優先應該保持語義的信號
語言模型能將一個東西的語音的表示和文字的表示能夠做一個映射
將語音的語義盡量映射回文本,使得能夠利用上文本語音模型

將語音對話表示為相應的system(場景描述、聲學特征、人物特征等)、user(對話文本)、assistant(對應音頻輸出)的形式。

同樣的模型架構訓練一個額外的語音理解模型
用戶給你一段語音,請你分析它的場景,它里面有哪些人,說什么東西,情緒,。
把生成模型出來的東西作為用戶的輸入
生成模型system prompt是對場景的描述
用戶給你的內容作為system的輸出

教第一個徒弟打拳
教第二個徒弟踢腿
然后讓兩個徒弟互相打,最后期望兩個徒弟都能夠學會拳腳功夫

文字作為上一輪用戶的輸入,語音作為上一輪系統的輸出,在給一段文字就能輸出和這個人聲音一致的語音。



1. 語音信號離散化表示(關鍵突破)

問題:語音是連續信號,傳統方法(如分段+模板匹配)壓縮后質量差。
解決方案

  • 統一音頻分詞器(Unified Audio Tokenizer)
    • 分層離散化:將語音信號分解為兩類token:
      • 語義token(高層):捕獲文本內容、意圖(映射到文本空間,類似ASR)。
      • 聲學token(低層):保留音色、語調等特征(通過矢量量化/VQ-VAE壓縮)。
    • 高幀率處理:以每秒25幀的速度編碼,平衡信息密度和連續性。
    • 聯合訓練:語義和聲學token的編碼器/解碼器端到端優化,避免傳統模板匹配的信息丟失。

效果

  • 語音壓縮后仍能保留語義和情感信息(如“憤怒”語調的聲學特征)。
  • 后續用LLM處理離散token時,類似處理文本,無需額外設計連續信號模塊。

2. 數據構建與清洗(質量保障)

問題:語音-文本對齊數據稀缺,公開數據質量差。
解決方案

  • 數據來源:購買版權數據+合規抓取,覆蓋多樣化場景(對話、音樂、環境音等)。
  • 嚴格過濾
    • 通過ASR模型+人工規則剔除低質量音頻(如背景噪聲大、內容不連貫)。
    • 僅保留10%數據(1000萬小時高質量數據)。
  • 自生成標注
    • 用預訓練的AudioVerse模型(語音→文本/場景分析)自動標注語音的system字段(場景、情緒等)。
    • 形成(system: 場景描述, user: 文本, assistant: 音頻)的三元組訓練數據。

效果

  • 數據多樣性高且對齊精準,模型能學習復雜語音-文本關聯(如“笑著回答問題”)。

3. 模型架構設計(性能核心)

核心思路:將語音任務轉化為LLM熟悉的“文本生成”格式。
具體實現

  • 多任務統一框架
    • 輸入:system指令(如“生成憤怒的男聲”)+ user文本 → 輸出:聲學token序列。
    • 模型本質是條件式token預測(類似文本生成,但輸出是語音token)。
  • 雙模型協同訓練
    • AudioVerse:語音→文本/場景分析(提供system標注)。
    • 主模型:文本+場景→語音生成。
    • 兩者互促,類似GAN的對抗訓練(但更溫和)。

優化點

  • 語義優先:模型優先學習語音的語義token,再細化聲學token(避免早期過擬合到音色細節)。
  • 延遲優化:流式生成聲學token,實時拼接(類似文本模型的逐詞生成)。

4. 為什么性能顯著提升?

  • 語義理解更強
    • 語音token與文本空間對齊,模型能利用文本預訓練知識(如GPT的推理能力)。
    • 例:生成“悲傷的詩歌朗讀”時,模型先理解“悲傷”的文本語義,再匹配對應聲學特征。
  • 端到端聯合訓練
    • 傳統TTS分模塊(文本→音素→聲學),而沐神模型統一優化,避免誤差累積。
  • 數據規模效應
    • 1000萬小時數據遠超傳統TTS數據集(如LJSpeech僅24小時),覆蓋長尾場景。

5. 關鍵優化總結

模塊傳統方法沐神團隊的優化提升點
語音表示手工模板匹配分層離散化token(語義+聲學)質量↑,兼容文本模型
數據構建小規模純凈數據海量數據+嚴格過濾+自生成標注多樣性↑,對齊精度↑
模型訓練獨立訓練ASR/TTS模塊語音-文本聯合訓練,雙模型互促語義和聲學協同優化
任務泛化單一任務(如TTS)統一框架支持生成、分析、實時交互多任務性能均衡

6. 可玩性功能示例

  • 聲音克隆:輸入目標語音片段(5秒),模型提取聲學token后生成新內容。
  • 實時情緒交互:檢測用戶語音情緒(如憤怒),生成共情的語音回復。
  • 音樂生成:將歌詞+風格描述(system)轉換為歌唱音頻。

若想深入技術細節,建議閱讀代碼中的tokenizer.py(音頻離散化)和trainer.py(多任務損失函數),關鍵是如何平衡語義和聲學token的損失權重。

音頻分詞器:https://github.com/boson-ai/higgs-audio/blob/main/tech_blogs/TOKENIZER_BLOG.md
提出的DualFFN架構:https://github.com/boson-ai/higgs-audio/blob/main/tech_blogs/ARCHITECTURE_BLOG.md
在這里插入圖片描述
這里可以試用

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContentimport torch
import torchaudio
import time
import clickMODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"system_prompt = ("Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)messages = [Message(role="system",content=system_prompt,),Message(role="user",content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",),
]
device = "cuda" if torch.cuda.is_available() else "cpu"serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)output: HiggsAudioResponse = serve_engine.generate(chat_ml_sample=ChatMLSample(messages=messages),max_new_tokens=1024,temperature=0.3,top_p=0.95,top_k=50,stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92589.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92589.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92589.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于 CEP 引擎的算法拆單與調度實踐—基礎篇

在金融市場中&#xff0c;大額訂單的一次性交易可能會對市場價格產生較大沖擊&#xff0c;導致交易成本增加。例如&#xff0c;大額買入訂單可能會迅速推高股價&#xff0c;使后續買入成本上升&#xff1b;大額賣出訂單則可能打壓股價&#xff0c;造成資產賤賣。拆單算法通過將…

開源 C# TCP 通信框架 SocketDJ 發布:輕量、免費、可擴展

前言市面上的網絡通信框架琳瑯滿目&#xff0c;功能強大者有之&#xff0c;但不少都存在功能閉源、商業收費、學習成本高等問題。作為一名熱愛底層技術的開發者&#xff0c;我始終相信&#xff1a;基礎通信能力應當簡單、透明且免費。最近正好有項目需求&#xff0c;索性動手從…

移動機器人路徑規劃中ROS2中間件性能的研究綜述

導讀&#xff1a; 隨著移動機器人在工業自動化、特種作業及智能服務領域的廣泛應用&#xff0c;其路徑規劃能力越來越依賴機器人操作系統ROS2的通信性能。ROS2通過去中心化架構與數據分發服務中間件顯著提升了系統可靠性&#xff0c;但動態復雜環境中路徑規劃對通信延遲、帶寬…

【昇騰】Atlas 500 A2 智能小站制卡從M.2 SATA盤啟動Ubuntu22.04系統,重新上電卡死沒進系統問題處理_20250808

一、問題背景 Atlas 500 A2智能小站是華為基于20T 12G版本的Atlas 200I A2加速模塊開發的面向廣泛邊緣應用場景的輕量邊緣設備&#xff0c;具有超強計算性能、配置靈活、體積小、支持溫度范圍寬、環境適應性強、易于維護 管理等特點的產品。Atlas 500 A2智能小站主要應用在智能…

sigaction 中 sa_handler = SIG_IGN 的深度解析與應用實踐

sigaction 中 sa_handler SIG_IGN 的深度解析與應用實踐 核心意義&#xff1a;主動忽略信號 當 sa_handler 設置為 SIG_IGN 時&#xff0c;內核將完全丟棄指定的信號&#xff0c;不會&#xff1a; 執行默認行為調用任何處理函數中斷進程的正常執行 這與 SIG_DFL&#xff08;默…

【LLM實戰|langchain、qwen_agent】RAG高級

every blog every motto: You can do more than you think. https://blog.csdn.net/weixin_39190382?type=blog 0. 前言 RAG高級 1. RAG 高效召回方法 合理設置TOP-K 改進索引算法 -知識圖譜 引入重排序 重排序模型 BGE-Rerank Cohere Rerank 混合檢索 向量索引+關鍵詞索引…

C++方向知識匯總(一)

關于單例模式1.什么是單例模式&#xff1f;答&#xff1a;單例模式是一種創建型設計模式&#xff0c;確保一個類在運行期間僅有一個實例&#xff0c;提供全局唯一的訪問點2.單例模式的目的&#xff1f;答&#xff1a;避免重復創建資源消耗大的對象&#xff0c;例如日志系統、線…

學習:JS[8]本地存儲+正則表達式

一.本地存儲1.介紹將數據存儲到用戶瀏覽器當中設置、讀取方便、頁面刷新不丟失數據2.本地存儲分類-localStoragea.語法(1)存儲數據//存儲數據 localStorage.setItem(鍵,值)如 localStorage.setItem(uname,哈哈)(2)獲取數據//獲取方式 都加引號 localStorage.getItem(鍵) localS…

C++算法練習:單詞識別

做題記錄&#xff1a;牛客習題&#xff1a;單詞識別 相關題目代碼已經提交到gitee中&#xff1a;樓田莉子 (riko-lou-tian) - Gitee.com喜歡請點個贊謝謝 目錄 題目&#xff1a; C 字符函數頭文件頭文件&#xff1a;&#xff08;C 標準庫&#xff09;核心函數功能說明&#…

從免費到盈利:Coze智能體1小時封裝變現全流程指南——井云科技

在AI技術普惠的浪潮下&#xff0c;Coze等智能體平臺讓零代碼開發者也能快速構建功能強大的AI助手。然而&#xff0c;許多創作者在完成智能體開發后&#xff0c;卻面臨“工具免費、成本自擔”的困境——用戶無限制調用導致算力成本飆升&#xff0c;想收費又缺乏成熟的支付與用戶…

C++學習之STL學習:map/set

通過前面的學習&#xff0c;我們已經對C STL有了初步了解。然而&#xff0c;STL作為一個龐大復雜的體系&#xff0c;遠不止這些內容。接下來&#xff0c;我們將深入探討STL中的另外兩個重要組件——map和set。 作者的個人gitee&#xff1a;樓田莉子 (riko-lou-tian) - Gitee.co…

[學習] CORDIC算法詳解:從數學原理到反正切計算實戰

CORDIC算法詳解&#xff1a;從數學原理到反正切計算實戰 文章目錄CORDIC算法詳解&#xff1a;從數學原理到反正切計算實戰引言一、數學原理二、求解流程&#xff08;旋轉模式&#xff09;三、典型應用場景四、反正切計算示例&#xff08;Python實現&#xff09;五、算法流程可視…

3款強力的Windows系統軟件卸載工具

1、Geek 下載地址&#xff1a;https://download.csdn.net/download/weixin_42203093/91625765 Geek Uninstaller 是一款專業的 Windows 軟件卸載工具&#xff0c;主要用于卸載軟件并清理殘留垃圾&#xff1a; 特點 體積小巧便攜&#xff1a;軟件體積約為 1.7M&#xff0c;是單…

AcWing 4579. 相遇問題

這道題做個今天的結尾 比較簡單 正在備戰csp嗎&#xff0c;正好刷一下 難度&#xff1a;簡單時/空限制&#xff1a;1s / 256MB總通過數&#xff1a;1738總嘗試數&#xff1a;2584來源&#xff1a; CSP-J 2022 模擬賽 原題鏈接 4579. 相遇問題 - AcWing題庫 題目描述 一…

基于clodop和Chrome原生打印的標簽實現方法與性能對比

今天想看看&#xff0c;基于clodop和Chrome原生打印的標簽實現方法與性能對比。先看看DeepSeek關于這個問題的回答&#xff01; CloudPrint 和 Chrome 原生打印的區別 基本概念差異 CloudPrint (Clodop) 是基于云的打印服務解決方案需要安裝專門的客戶端程序支持跨平臺、跨設備…

百度網盤如何做到下載速度最快?OpenSpeedy綠色安裝版下載,開源免費網盤加速

下載地址獲取點擊這里打開&#xff1a;OpenSpeedy下載地址 打開解壓后的文件夾&#xff0c;找到【OpenSpeedy.exe】應用程序&#xff0c;右鍵選擇【以管理員身份運行】。 添加圖片注釋&#xff0c;不超過 140 字&#xff08;可選&#xff09; 主要特性&#xff1a; 免費開源蠻…

科技云報到:熱鏈路革命:阿卡 CRM 的 GTM 定位突圍

科技云報道原創。在企業數字化的工具箱里&#xff0c;“CRM” 一詞早已不是 “全流程客戶管理” 的代名詞&#xff0c;而是從營銷獲客到客戶信息沉淀&#xff0c;再到長期關系維護&#xff0c;仿佛要包攬從線索到復購的所有環節。但成立僅兩年半的阿卡 CRM&#xff0c;卻在實踐…

什么是Graphical Abstract

什么是Graphical Abstract 現在都需要用Graphical Abstract&#xff0c;新加的好像。圖形摘要&#xff08;Graphical Abstract&#xff09;是學術論文中一種以可視化方式濃縮呈現研究核心內容的圖表&#xff0c;它通過簡潔的圖形、流程圖、示意圖或組合視覺元素&#xff0c;直觀…

心靈筆記:正念冥想

定義&#xff1a;正念冥想&#xff08;Mindfulness Meditation&#xff09;是一種源自東方禪修、結合現代心理學的心理訓練方法&#xff0c;核心是有意識地將注意力集中在當下的體驗上&#xff0c;不加評判地覺察自身的 thoughts&#xff08;想法&#xff09;、feelings&#x…

微軟推出革命性AI安全工具Project IRE,重塑網絡安全防御新范式

面對日益復雜的網絡安全威脅&#xff0c;微軟近日發布了具有里程碑意義的Project IRE AI工具。這項創新性解決方案將人工智能與逆向工程技術深度融合&#xff0c;開創了自動化威脅檢測的新紀元。據微軟官方披露&#xff0c;該工具能夠在不依賴人工干預的情況下&#xff0c;自主…