基于對抗性后訓練的快速文本到音頻生成:stable-audio-open-small 模型論文速讀

Fast Text-to-Audio Generation with Adversarial Post-Training 論文解析

一、引言與背景

  • 文本到音頻系統的局限性:當前文本到音頻生成系統性能雖佳,但推理速度慢(需數秒至數分鐘),限制了其在創意領域的應用。

  • 研究目標:加速高斯流模型(擴散模型或修正流模型),避免傳統蒸餾方法的缺陷。

  • 現有加速方法的不足

    • 蒸餾方法需大量資源(在線方法需同時存儲多個模型,離線方法需預生成軌跡-輸出對),且可能繼承教師模型的低多樣性和過飽和偽影。

    • 非蒸餾的對抗式后訓練方法在圖像領域有一定探索,但在音頻領域尚未有成熟方案。

二、ARC 方法論

(一)修正流預訓練

  • 目標:學習在文本條件 c 下,將數據分布 p0 和先驗分布 p1(如各向同性高斯噪聲)之間的轉換模型,以從 p1 生成 p0 樣本。

  • 前向腐蝕過程:通過添加噪聲將數據轉化為噪聲表示(公式 1)。

  • 逆向生成過程:解常微分方程(ODE,公式 2),預測流的瞬時速度(公式 3)進行訓練。

(二)對抗相對論-對比后訓練(ARC)

  • 核心思想:用對抗損失替代基于 l2 的條件均值損失,利用判別器提供分布級反饋,減少所需采樣步驟。

  • 優勢:避免蒸餾方法的高成本,無需生成和存儲軌跡-輸出對,也無需依賴預訓練教師模型性能。

  • 聯合優化目標(公式 4):結合對抗相對論損失(LR)和對比損失(LC)。

(三)對抗相對論損失(LR)

  • 訓練流程(圖 1):

    • 對真實樣本 x0 添加噪聲得 xt,經生成器得生成樣本 ?x0。

    • 再對 ?x0 和 x0 添加噪聲,輸入判別器。

    • 計算真實樣本和生成樣本在判別器空間的相對差異(公式 5 至 7)。

  • 關鍵特性:與標準 GAN 不同,LR 基于成對數據計算,生成器使生成樣本在判別器空間相對真實樣本更真實,判別器則相反。因文本條件任務中成對樣本共享相同文本提示,提供更強梯度信號。

(四)對比損失(LC)

  • 提出背景:對抗損失單獨使用會導致文本遵循性變差。

  • 實現方式(圖 2):將判別器訓練為音頻-文本對比模型,最大化正確和錯誤提示對應真實樣本在判別器空間的差異(公式 8)。

  • 作用:使判別器關注語義特征,提升提示遵循性,且無需使用 Classifier-Free Guidance(CFG),避免其對多樣性和輸出過飽和的負面影響。

(五)乒乓采樣

  • 適用場景:ARC 后訓練模型直接估計不同噪聲水平下的干凈輸出,而非預測瞬時速度。

  • 工作原理:交替進行去噪和重新加噪,逐步優化樣本質量。從初始噪聲樣本開始,反復去噪和加噪,最終逼近干凈數據。

(六)加速作為獎勵建模

  • 與語言模型偏好后訓練的聯系:ARC 的相對論目標類似于語言模型基于人類偏好對贏得-輸掉樣本對訓練偏好模型。判別器隱式作為獎勵模型,生成器則最大化相對獎勵。

三、實驗與評估

(一)模型架構

  • 生成模型:基于 Stable Audio Open(SAO),包含預訓練自動編碼器、T5 文本嵌入器和在潛在空間操作的擴散 Transformer(DiT)。對 DiT 進行改進以提升效率。

  • 判別器:基于預訓練修正流初始化,包含輸入嵌入層、部分 DiT 塊和輕量級判別器頭部。

(二)訓練與采樣細節

  • 數據集:使用 Freesound 樣本(6,330 小時,472,618 音頻),排除長形式 FMA 音樂。

  • 訓練迭代:修正流模型訓練 670k 迭代,每個加速算法在 8 個 H100 GPU 上微調 100k 迭代,批次大小 256,學習率 5×10?7。

  • 噪聲分布:pgen(t) 為從 -6 到 2 的對數信噪比空間中的均勻分布;pdisc(s) 為移位對數正態分布,側重中高信噪比區域。

(三)客觀評估指標

  • 音頻質量與語義對齊:采用 FDopenl3、KLpasst 和 CLAP 分數指標。

  • 多樣性評估

    • 現有指標:報告 recall 和 coverage 指標(Rpasst 和 Cpasst),衡量 PASST 空間中的分布多樣性。

    • 新提出指標:CLAP 條件多樣性分數(CCDS),計算相同提示生成樣本對的 CLAP 余弦距離平均值,距離低表示多樣性低,反之則高。

  • 速度評估:報告實時因子(RTF,生成音頻時長除以延遲)和 H100 上的 VRAM 峰值使用量。

(四)主觀評估

  • 評估方式:使用 webMUSHRA 進行聽力測試,參與者對多樣性、音頻質量和提示遵循性進行 5 分制評分。

  • 評估重點:關注與音樂制作相關的提示(如 “拉丁放克鼓組 115 BPM”)和空間復雜場景(如 “跑車經過”),以及更廣泛、更模糊的提示(如 “燃燒的火焰” 和 “水”)以評估多樣性。

(五)基線模型

  • Stable Audio Open(SAO):質量基線和加速參考點,模型較大且未針對速度優化。

  • 預訓練修正流(RF):基礎加速模型。

  • Presto:基于蒸餾的音頻擴散加速方法,使用基模型和輔助分數模型最小化逆向 KL 損失并結合 GAN 損失。

  • 消融實驗:對 ARC 進行消融,分別省略 LC 或用標準最小二乘對抗損失(LLS)替換 LR。

(六)結果與討論

  • 性能對比:SAO 雖質量最佳但速度慢;加速模型(ARC、Presto 等)速度提升顯著(比 SAO 快 100 倍,比預訓練 RF 快 10 倍),指標表現相近。

  • Presto 的權衡:提升基 RF 模型質量,但嚴重損害多樣性且惡化 FDopenl3。

  • ARC 的表現:進一步提升生成多樣性,FDopenl3 表現最佳,但 MOS 質量評分略低于預訓練 RF。其輸出多樣性更高,但提示遵循性稍低。

  • 消融實驗結果

    • 僅用 LR 訓練導致提示遵循性差,此時多樣性高因生成器變成無條件模型。

    • 相對論損失在對抗加對比后訓練中優于最小二乘損失。

    • 模型在 8 步時表現最佳,與小加速模型可能比大模型需要更多步數的發現一致。

  • CCDS 指標有效性:CCDS 與聽力測試多樣性結果完全一致,表明其可用于自動評估多樣性。

(七)邊緣設備優化

  • 優化手段:使用 Arm 的 KleidiAI 庫(通過 XNNPACK 庫集成到 LiteRT 運行時),對 Vivo X200 pro 手機進行動態 Int8 量化,僅對部分層進行量化,運行時動態量化激活。

  • 優化效果:推理時間從 15.3 秒(原始 F32)降至 6.6 秒,峰值運行時 RAM 使用量從 6.5GB 降至 3.6GB。高端(H100)和消費級(3090)GPU 分別實現 75ms 和 187ms 的速度。

(八)創意應用

  • 響應速度要求:為在創意工作流中作為“樂器”,文本到音頻模型需響應迅速。降低消費級 GPU 延遲至 200ms 以下,提升音效設計靈感。

  • 音頻到音頻能力:利用乒乓采樣實現風格遷移,無需額外訓練。可通過語音錄音初始化初始噪聲樣本實現語音到音頻控制,或用強節奏錄音初始化進行節拍對齊生成。

  • 局限性:模型內存和存儲需求高(占數 GB RAM 和磁盤空間),對集成到多應用和高效分發構成挑戰。

四、結論

  • ARC 的創新性:首個不依賴蒸餾或 CFG 的文本到音頻模型加速方法,通過擴展對抗相對論損失并結合新穎對比判別器損失,大幅提升高斯流模型運行速度,同時保持質量并提升生成多樣性。

  • 評估指標貢獻:提出的 CCDS 多樣性評估指標與感知評估一致,為自動評估多樣性提供合理工具。

  • 未來展望:期望更高效和多樣性的文本到音頻模型能支持更廣泛的創意應用。認識到此類模型的創意潛力,論文還探索音頻到音頻實驗,并建議未來工作可聚焦于用針對性數據集微調以實現更精確的聲音設計。

五、核心技術匯總表格

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/81163.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/81163.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/81163.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AI畫圖Stable Diffusion web UI學習筆記(中)

本文記錄講解AI畫圖工具Stable Diffusion web UI的部分基本使用方法,以便進行學習。AI畫圖Stable Diffusion web UI學習筆記分為上、中、下三篇文章。 我在 AI畫圖Stable Diffusion web UI學習筆記(上)_webui-CSDN博客 這篇文章中介紹了Stabl…

安全與智能的雙向奔赴,安恒信息先行一步

人類文明發展的長河中,每一次技術變革都重新書寫了安全的定義。 從蒸汽機的轟鳴到電力的普及,從互聯網的誕生到人工智能的崛起,技術創新與變革從未停止對于安全的挑戰。今天,我們又站在一個關鍵的歷史節點:AI大模型的…

【Reality Capture 】02:Reality Capture1.5中文版軟件設置與介紹

文章目錄 一、如何設置中文二、如何設置界面分區三、如何切換二三維窗口四、工具欄有多個視圖選項卡RealityCapture是虛幻引擎旗下一款三維建模軟件,跟我們常用的三維建模軟件一樣,可以從圖像或激光掃描中創建實景三維模型和正射影像等產品。可用于建筑、測繪、游戲和視覺特效…

真題卷001——算法備賽

藍橋杯2024年C/CB組國賽卷 1.合法密碼 問題描述 小藍正在開發自己的OJ網站。他要求用戶的密碼必須符合一下條件: 長度大于等于8小于等于16必須包含至少一個數字字符和至少一個符號字符 請計算一下字符串,有多少個子串可以當作合法密碼。字符串為&am…

17.three官方示例+編輯器+AI快速學習webgl_buffergeometry_lines

本實例主要講解內容 這個Three.js示例展示了如何使用BufferGeometry創建大量線段,并通過**變形目標(Morph Targets)**實現動態變形效果。通過隨機生成的點云數據,結合頂點顏色和變形動畫,創建出一個視覺效果豐富的3D線條場景。 核心技術包括…

InfluxDB 2.7 連續查詢實戰指南:Task 替代方案詳解

InfluxDB 2.7 引入了 Task 功能,作為連續查詢(CQ)的現代替代方案。本文詳細介紹了如何使用 Task 實現傳統 CQ 的功能,包括語法解析、示例代碼、參數對比以及典型應用場景。通過實際案例和最佳實踐,幫助開發者高效遷移并…

Pytorch張量和損失函數

文章目錄 張量張量類型張量例子使用概率分布創建張量正態分布創建張量 (torch.normal)正態分布創建張量示例標準正態分布創建張量標準正態分布創建張量示例均勻分布創建張量均勻分布創建張量示例 激活函數常見激活函數 損失函數(Pytorch API)L1范數損失函數均方誤差損失函數交叉…

大模型在數據分析領域的研究綜述

大模型在業務指標拆解中的應用場景與方法研究 隨著人工智能技術的快速發展,大模型(Large Language Models, LLMs)在數據分析領域的應用日益廣泛。尤其是在業務指標拆解這一復雜任務中,大模型展現了其獨特的價值和潛力。通過對多維…

JAVA:ResponseBodyEmitter 實現異步流式推送的技術指南

1、簡述 在許多場景下,我們希望后端能夠以流式、實時的方式推送數據給前端,比如消息通知、日志實時展示、進度條更新等。Spring Boot 提供了 ResponseBodyEmitter 機制,可以讓我們在 Controller 中異步地推送數據,從而實現實時流式輸出。 樣例代碼:https://gitee.com/lh…

Spring Boot循環依賴的陷阱與解決方案:如何打破“Bean創建死循環”?

引言 在Spring Boot開發中,你是否遇到過這樣的錯誤信息? The dependencies of some of the beans in the application context form a cycle 這表示你的應用出現了循環依賴。盡管Spring框架通過巧妙的機制解決了部分循環依賴問題,但在實際開…

如何閱讀、學習 Tcc (Tiny C Compiler) 源代碼?如何解析 Tcc 源代碼?

閱讀和解析 TCC(Tiny C Compiler) 的源代碼需要對編譯器的基本工作原理和代碼結構有一定的了解。以下是分步驟的指南,幫助你更高效地學習和理解 TCC 的源代碼: 1. 前置知識準備 C 語言基礎:TCC 是用 C 語言編寫的&…

Java Set系列集合詳解:HashSet、LinkedHashSet、TreeSet底層原理與使用場景

Java Set系列集合詳解:HashSet、LinkedHashSet、TreeSet底層原理與使用場景 一、Set系列集合概述 1. 核心特點 無序性:存取順序不一致(LinkedHashSet除外)。唯一性:元素不重復。無索引:無法通過索引直接訪…

解決 CentOS 7 鏡像源無法訪問的問題

在國內使用 CentOS 系統時,經常會遇到鏡像源無法訪問或者下載速度慢的問題。尤其是默認的 CentOS 鏡像源通常是國外的,如果你的網絡環境無法直接訪問國外服務器,就會出現無法下載包的情況。本文將介紹如何修改 CentOS 7 的鏡像源為國內鏡像源…

云計算與大數據進階 | 26、解鎖云架構核心:深度解析可擴展數據庫的5大策略與挑戰(上)

在云應用/服務的 5 層架構里,數據庫服務層穩坐第 4 把交椅,堪稱其中的 “硬核擔當”。它的復雜程度常常讓人望而生畏,不少人都將它視為整個架構中的 “終極挑戰”。 不過,也有人覺得可擴展存儲系統才是最難啃的 “硬骨頭”&#…

Linux——UDP/TCP協議理論

1. UDP協議 1.1 UDP協議格式 系統內的UDP協議結構體: 注1:UDP協議的報頭大小是確定的,為8字節 注2:可以通過報頭中,UDP長度將UDP協議的報頭和有效載荷分離,有效載荷將存儲到接收緩沖區中等待上層解析。 注…

考研復習全年規劃

25考研以330分成功上岸。 備考期間,我深知學習規劃的重要性,為大家精心整理了一份初試備考時間線任務規劃,希望能為正在備考的同學們提供參考。如果你對如何規劃學習路線仍感迷茫,不妨參考這份時間表,合理分配時間&…

PhpStudy | PhpStudy 環境配置 —— PhpStudy 目錄結構 環境變量配置 · Windows 篇

🌟想了解這個工具的其它相關筆記?看看這個:[網安工具] 服務器環境配置工具 —— PhpStudy 使用手冊 在前面的章節中,筆者詳細介紹了如何在 Windows 和 Linux 系統中安裝 PhpStudy,但可能會有崽崽在安裝完成后發現依舊…

DDS(數據分發服務) 和 P2P(點對點網絡) 的詳細對比

1. 核心特性對比 維度 DDS P2P 實時性 微秒級延遲,支持硬實時(如自動駕駛) 毫秒至秒級,依賴網絡環境(如文件傳輸) 架構 去中心化發布/訂閱模型,節點自主發現 完全去中心化,節…

java中XML的使用

文章目錄 什么是XML特點XML作用XML的編寫語法基本語法特殊字符編寫 約束XML的書寫格式DTD文檔schema文檔屬性命名空間XML命名空間的作用 解析XML的方法??DOM解析XMLDOM介紹DOM解析包:org.w3c.dom常用接口DOM解析包的使用保存XML文件添加DOM節點修改/刪除DOM節點 S…

Spring Boot異步任務失效的8大原因及解決方案

Spring Boot異步任務失效的8大原因及解決方案 摘要:在使用Spring Boot的@Async實現異步任務時,你是否遇到過異步不生效的問題?本文總結了8種常見的異步失效場景,并提供對應的解決方案,幫助你徹底解決異步任務失效的難題。 一、異步失效的常見場景 1. 未啟用異步支持 ? …