Discrete Audio Tokens: More Than a Survey

文章目錄

  • 模型設計的考慮
    • 量化的方式:
    • 比特率:Fixed vs. Adaptive Bitrate
    • 碼本內容設計的考慮
    • Streamability.
  • 模型評估
    • Reconstruction Evaluation and Complexity Analysis.
    • 識別和生成任務(SE, SR)
    • Acoustic Language Modeling.
    • Music Generation
    • General Trend

模型設計的考慮

量化的方式:

  • RVQ
  • GVQ,
  • SVQ-single vq,
  • FSQ,
  • Cross-Scale RVQ (CSRVQ). 跨尺度 RVQ ,
  • Multi-Scale RVQ (MSRVQ).
  • Product Quantization (PQ).

比特率:Fixed vs. Adaptive Bitrate

  • 固定比特率
  • 動態比特率
    • 可擴展比特率(Scalable)
    • 可縮放比特率

碼本內容設計的考慮

  • disentanglement:TiCodec / FACodec,將音頻分成內容、韻律、音色和聲學細節
  • semantic distillation:RVQ 的第一個碼本用semantic token,比如MIMI, X-Codec
  • supervised semantic tokenization: 用asr loss 做監督

Streamability.

  • CNN 結構,或者casual-transformer,對是否可以流式

在這里插入圖片描述

模型評估

Reconstruction Evaluation and Complexity Analysis.

  • 重建評估:評估重新合成的音頻的質量。
  • 復雜度分析:根據模型大小(參數)、幀速率、標記速率和乘法累加運算 (MAC) 評估每個分詞器的計算效率。
    在這里插入圖片描述
  • 結果分析:
    • 對于 EnCodec 和 DAC,隨著比特率從 24k 降低到 6k 和 1.5k,重建質量會持續下降。這一趨勢證實,更高的比特率可以更好地保留聲學細節,從而提高所有評估指標的重建質量。
    • 對于 SpeechTokenizer(4k 對 1k)和 Mimi(4.4k 對 1.1k),它們都對第一個碼本應用了語義蒸餾,所有客觀指標都會在比特率較低時下降。然而,WER 并沒有急劇下降,這表明即使整體重建質量下降,語義蒸餾也能有效地保留語言內容。
    • 離散 WavLM 表現出顯著較低的 SDR、SI-SNR、PESQ、STOI 和 Spk-Sim 分數。由于這些指標依賴于參考真值信號,因此性能不佳表明這些模型沒有針對精確的波形重建進行優化。然而,UTMOS、DNSMOS 和 PLCMOS 等指標仍然合理,這表明這些分詞器仍然保持語音質量。這種差異表明,離散分詞器更關注高級表示,而不是精確的波形重建。
    • SQ-SMA-16 的性能與大比特率編解碼器模型(例如 Mimi-S-24 4.4kbps 和 DAC-SMA-24 6kbps)相當,甚至更好。
  • 指標分析
    • SDR 和 SI-SNR 是不太可靠的指標。一個可能的原因是信號被過度壓縮,神經編解碼器的生成(尤其是在低比特率下),通常在本地樣本級信息中一致性較差。這可能是由于非線性偏移或振幅變化造成的。【這兩個指標更多反映的是時域的一致性,模型對于頻域可感知指標的改善,可能并不意味著時域指標的同步優化。】

識別和生成任務(SE, SR)

重建任務好,不能說明token好,也有可能是decoder的強大,因此直接用token ,訓練下游分類任務和生成任務的有效性。

  • 方法:使用輕參數的head,避免隱藏 token 中的缺陷。更多細節的設置,可以看 DASB論文里寫。
    在這里插入圖片描述
    在這里插入圖片描述

語音任務結果分析:

  • 語音識別任務。 (1)ASR 類識別任務,包括情感分類,意圖分類,關鍵詞識別,離散 WavLM 都是表現最好的;SpeechTokenizer 排名第二;(2)在說話人識別方面,DAC 取得了最好的結果,semantic token類的結果比較差;
  • 語音生成任務:對于語音分離和增強,WavLM 在低比特率和中等比特率下表現良好,但在說話人相似度指標上顯示不佳的結果。此外,重建的 DNSMOS 分數(表示編解碼器單獨設置的上限,沒有任何分離)不會超過使用原始混合物作為估計值獲得的分數(即下限),這表明重建質量的限制可能會限制下游性能,特別是對于語音分離等高保真任務。

Audio 和 Music 任務。

  • 對于一般的音頻和音樂任務,EnCodec 在所有比特率和域中的性能始終優于其他分詞器,而 DAC 則落后。(因為DAC 更著重優化感知域信號,時域保真度比較低,因此分離任務上表現不好)。而且增加比特率,性能更差,這可能是由于音樂固有的復音性質和較少的稀疏性質(與語音和一般音頻相比),這導致來源高度重疊,更難從詳細但語義糾纏的表示中解出來。

Codebook 大小的影響。

  • 增加碼本的數量(例如 2、8、32)可以改善信號重建,但通常會降低下游任務的性能。(更多的碼本可以提高保真度,但它們通常會增加輸出維度和建模復雜性,從而降低判別任務和生成任務的性能。)
  • 在基于 RVQ 的模型中,早期的碼本捕獲更多的語音信息,而后來的碼本通常會添加冗余,這可能解釋了這種權衡。這突出了分詞器的一個重要設計原則: 僅針對重建進行優化并不能保證在下游任務上獲得更好的性能 。中等比特率設置通常在音頻重建質量和任務性能之間提供最佳平衡。

離散token與連續emb。

  • 離散token雖然簡單,但是對于比如polyphonic music分離或嘈雜的環境會表現不好。信息含量肯定是連續embedding >>離散token。
  • 數據越多,下游任務性能越好:例如,離散 WavLM 使用 BiLSTM 頭在低比特率下在 LibriSpeech(960 小時)上實現了 6.0% 的 WER,在巴斯克語(116 小時)上實現了 22.0% 的 WER,在威爾士語(8 小時)上實現了 58.9%,這表明數據規模與 ASR 準確性之間存在很強的相關性。
  • 較大的下游模型有助于提高收斂性和性能,特別是對于acoustic tokenizers,它們對數據規模和模型容量都更敏感。semantic tokenizers通常在資源匱乏的環境中更魯棒。data scale & model scale 對于使用離散token提升性能很重要,尤其是acoustic token。

Acoustic Language Modeling.

聲學語言建模。我們使用 SALMon 和 Zero-resource 基準分析每個分詞器(tokenizer)在訓練聲學語言模型方面的有效性。
在這里插入圖片描述
語義指標

  • sWUGGY指標衡量在一對相似的單詞和非單詞(例如,brick 和 blick)中,模型是否更傾向于賦予單詞更高的概率。
  • sBLIMP 衡量模型認為一個語法正確的句子比一個類似不正確的句子更有可能(the dogs sleep v.s. the dog sleep)
  • sSC:口語故事-完形填空。 模型捕獲細粒度因果關系和時間常識關系的能力
  • tSC:主題故事-完形填空 ,反映了模型保持主題連貫性的能力

聲學指標(SALMon 評估套件)

  • acoustic consistency:性別, 情緒,說話人,
  • sentiment-acoustic alignment(情感-聲學對齊 ):它測試模型是否為聲學情緒與口語內容一致的話語分配更高的分數。這個全面的套件使我們能夠評估 SLM 的語言和副語言建模能力。

結論:

  • HuBERT 在語義任務上仍然是表現最強的,而 WavLM 在聲學一致性方面處于領先地位。
  • 語義蒸餾的分詞器,通過優化,通過縮小與 HuBERT 的語義差距
  • 總的來說,目前還沒有一個分詞器在所有口語和聲學任務中都表現出色。

Music Generation

在這里插入圖片描述

  • text condition gen: 有文本提示,生成音樂
  • uncondition gen : 給一個2s 的音頻片段,續寫
  • MusicCaps 和FMA 是兩個訓練數據集,其中FMA 音質較差,數據量也少一點
  • FAD: 評估語音質量;KLD, 評估語義一致性;CLAP評估和文本prompt的語義一致性;
    結果分析
  • 對于音樂任務,高采樣率高碼本的結果更好(DAC),更多細粒度的表示(這些表示對于speech是冗余的)
  • 無條件生成始終優于文本條件生成,強調了在音樂生成任務中提供旋律提示的好處。

General Trend

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/86557.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/86557.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/86557.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

設計在線教育項目核心數據庫表

1 在線教育項目核心數據庫表設計-ER圖 簡介:設計在線教育的核心庫表結構 在線教育站點速覽 xdclass.net ER圖知識回顧: 實體對象:矩形屬性:橢圓關系:菱形 核心庫表 videochapterepisodeuservideo_ordervideo_banner…

【音視頻】Ubuntu下配置ffmpeg庫

一、下載預編譯的庫 在github上可以找到編譯好的ffmpeg,多個版本的都有,這里我下載ffmpeg編譯好的動態庫 倉庫鏈接:(https://github.com/BtbN/FFmpeg-Builds/releases 下載后解壓得到 二、配置環境變量 打開.bashrc配置文件,添…

equine在神經網絡中建立量化不確定性

?一、軟件介紹 文末提供程序和源碼下載 眾所周知,用于監督標記問題的深度神經網絡 (DNN) 可以在各種學習任務中產生準確的結果。但是,當準確性是唯一目標時,DNN 經常會做出過于自信的預測,并且無論測試數…

C++動態鏈接庫之非托管封裝Invoke,供C#/C++ 等編程語言使用,小白教程——C++動態鏈接庫(一)

目錄: 一、前言及背景1.1需求描述1.2應用背景 二、編程基礎知識2.1非托管方式交互邏輯2.2該方式下C 與C# 數據轉換對應2.3VS工程下的注意點2.4C封裝接口2.4.1 __declspec(dllexport) 方式2.4.2 .def 文件方式2.4.3結合使用(高級) 2.5C# 封裝接…

消息隊列的網絡模型詳解:IO多路復用、Reactor模型、零拷貝

文章目錄 一、消息隊列的網路模型擬解決問題單個請求性能優化1. 編解碼速度2. 網絡模塊處理速度 并發請求性能優化1. 高效的連接管理2. 快速處理高并發請求3. 大流量場景處理 二、一些技術基礎知識1. 基于多路復用技術管理 TCP 連接(提高性能)&#xff0…

【生成模型】【模型介紹】(一)視頻生成Wan2.1速度質量簡單評測

基礎模型:FramePack https://github.com/kijai/ComfyUI-FramePackWrapper huggingface-cli download Comfy-Org/HunyuanVideo_repackaged --local-dir Comfy-Org/HunyuanVideo_repackaged --resume-download huggingface-cli download Comfy-Org/sigclip_vision_3…

微信小程序之滑塊scroll-view

我們要做的東西&#xff1a; 滑塊的視頻 我們先做個基本的圖片和文字(wxm;)&#xff1a; <scroll-view><view class"scrollItem"><image src"https://bkimg.cdn.bcebos.com/pic/fc1f4134970a304e251fd88e8191b086c9177f3ef634?x-bce-processim…

如何寫出優秀的單元測試?

&#x1f345; 點擊文末小卡片&#xff0c;免費獲取軟件測試全套資料&#xff0c;資料在手&#xff0c;漲薪更快 寫出優秀的單元測試需要考慮以下幾個方面&#xff1a; 1. 測試用例設計 測試用例應該覆蓋被測試代碼的不同場景和邊界情況&#xff0c;以盡可能發現潛在的問題。…

Python LangChain 3.0 詳解:重構大模型應用開發范式

引言 在人工智能技術日新月異的今天&#xff0c;大模型應用開發框架的迭代速度直接決定了AI落地的效率。LangChain作為這一領域的領軍者&#xff0c;于2024年正式發布3.0版本&#xff0c;通過架構重構與功能擴展&#xff0c;為開發者提供了更強大的工具集。本文將深入解析Lang…

Java模板設計模式詳解

以下是Java模板設計模式的詳細解析&#xff1a; 一、核心定義 模板模式&#xff08;Template Method Pattern&#xff09;是一種?行為型設計模式?&#xff0c;通過定義算法骨架并允許子類重寫特定步驟&#xff0c;實現代碼復用與擴展。其核心在于控制?流程標準化?&#x…

Word 中批量轉換 LaTeX 公式為標準數學格式的終極方法(附宏設置教程)

在學術寫作中&#xff0c;我們常常需要將 LaTeX 格式的公式插入到 Word 文檔中。但如果你有一大段公式使用 $...$ 或 LaTeX 命令&#xff0c;手動轉換無疑非常耗時。本文將介紹一種“一鍵轉換所有 LaTeX 公式為 Word 數學公式”的方法&#xff0c;只需設置一次宏&#xff0c;后…

linux上查看文件系統類型

假設 有文件系統mount在/data-pool&#xff1a; df -h ./ 文件系統 大小 已用 可用 已用% 掛載點 data-pool 1.5T 345M 1.5T 1% /data-pool如何查看 data-pool 這個文件系統的文件系統類型&#xff08;格式&#xff09;&#xff0c;比如是 ext4、btrfs、z…

Android14-HAL分析

文章目錄 一、HAL綜述二、Android各版本HAL的演進三、傳統HAL(< Android7)四、HIDL HAL(Android8-10)1、參考資料2、概述2、架構3、實現一個HIDL HAL1&#xff09;HIDL的開發流程2&#xff09;HIDL HAL的語法3&#xff09;創建HAL接口&生成impl庫4&#xff09;Service實…

【WebSocket】學習總結

是一種協議&#xff1b; 作用與Web應用程序和服務端之間&#xff1b; 實時的、雙向的&#xff1b; 通過單一的TCP提供了持久化連接&#xff1b; 優勢&#xff1a; 實時、雙向、可以減少網絡的負載&#xff1b; 劣勢&#xff1a; 需要客戶端和服務端雙方都支持&#xff1b; 連續…

“組件協作”模式之策略模式

目錄 策略模式引例動機 Motivation模式定義結構要點總結 策略模式 引例 稅務計算系統&#xff0c;根據各個國家的稅法&#xff0c;進行稅務計算。各個國家稅法規定差別很大&#xff0c;需對應進行相應的實現。 常規解耦前寫法 使用if-else語句或switch-case語句進行結構化分…

VS Git巨坑 切換分支失敗導致原分支被修改

VS2013Git 首先當前分支&#xff08;分支A&#xff09;的變更已經提交&#xff0c;應該可以正常切換分支。 想切換到一個比較老的分支B&#xff08;跟當前分支存在較大差異&#xff0c;增加了很多文件&#xff09;&#xff0c;VS中提示切換失敗&#xff0c;當前分支仍然是分支A…

uniapp頁面間通信uni.$on與通過uni.navigateTo中eventChannal的方式的區別

背景。無意間開發uniapp程序用到了頁面跳轉數據傳遞的兩種方式。但各用于什么場景&#xff0c;有什么區別記錄一下。大模型給的內容較多&#xff0c;貼出一些結論。eventChannel文檔鏈接uni.$emit文檔鏈接 頁面跳轉而非全局事件通知&#xff0c;優先選擇eventChanel的方式。 首…

理解對話上下文

1、pom依賴 <properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><maven.compiler.source>11</maven.compiler.source><maven.compiler.target>11</maven.compiler.target><langchain4j.version>…

【Java高頻面試問題】數據庫篇

【Java高頻面試問題】數據庫篇 為什么MySQL選擇B樹作為索引一、B 樹的優勢特性二、與常見數據結構的對比 索引優化一、索引類型及使用場景二、索引優化核心策略1. 避免索引失效場景2. 性能優化實踐3. 表結構與架構優化 三、高頻面試問題參考答案總結&#xff1a;面試核心要點 數…

《Whisper:開啟語音識別新時代的鑰匙》

Whisper 模型:技術革新的基石 在當今科技飛速發展的時代,自動語音識別(ASR)技術作為人工智能領域的關鍵分支,正深刻地改變著人們的生活與工作方式。從智能語音助手到實時字幕生成,從語音交互設備到智能客服系統,ASR 技術無處不在,為人們帶來了前所未有的便利與效率提升…