【AI論文】對抗性后期訓練快速文本到音頻生成

摘要:文本到音頻系統雖然性能不斷提高,但在推理時速度很慢,因此對于許多創意應用來說,它們的延遲是不切實際的。 我們提出了對抗相對對比(ARC)后訓練,這是第一個不基于蒸餾的擴散/流模型的對抗加速算法。 雖然過去的對抗性后訓練方法難以與昂貴的蒸餾方法進行比較,但ARC后訓練是一個簡單的程序,它(1)將最近的相對論對抗性公式擴展到擴散/流后訓練,(2)將其與一種新的對比鑒別器目標相結合,以鼓勵更好的提示依從性。 我們將ARC后訓練與Stable Audio Open的一些優化相結合,構建了一個能夠在H100上大約75毫秒內生成大約12秒的44.1kHz立體聲音頻,在移動邊緣設備上大約7秒的模型,據我們所知,這是最快的文本到音頻模型。Huggingface鏈接:Paper page,論文鏈接:2505.08175

研究背景和目的

研究背景

近年來,文本到音頻(Text-to-Audio, T2A)生成系統取得了顯著進展,能夠在各種應用場景中生成高質量的音頻內容。然而,這些系統在推理(inference)階段普遍存在速度較慢的問題,生成一段音頻往往需要數秒甚至數分鐘的時間。這種高延遲極大地限制了T2A系統在創意應用領域的實用性,如實時音樂創作、游戲音效生成、虛擬助手交互等。在這些場景中,用戶期望系統能夠即時響應并生成符合要求的音頻內容,而現有的T2A系統顯然無法滿足這一需求。

為了解決這一問題,研究人員開始探索加速T2A系統的方法。目前,主流的加速技術主要基于蒸餾(distillation),即通過訓練一個較小的模型來模擬較大模型的行為,從而在保持一定生成質量的同時提高推理速度。然而,蒸餾方法存在諸多局限性,如訓練成本高、需要大量存儲資源來保存教師模型生成的軌跡-輸出對、以及可能導致生成多樣性的降低等。此外,蒸餾方法往往依賴于分類器無引導(Classifier-Free Guidance, CFG)技術來提高生成質量,但CFG同時也會帶來生成多樣性的降低和過度飽和(over-saturation)的問題。

研究目的

本研究旨在提出一種不依賴于蒸餾的對抗性加速算法,用于加速基于擴散模型或流模型的文本到音頻生成系統。具體而言,研究目的包括:

  1. 開發一種新的對抗性后訓練(post-training)方法:通過引入相對論對抗性損失(Relativistic Adversarial Loss)和對比損失(Contrastive Loss),在保持生成質量的同時顯著提高推理速度。
  2. 優化模型架構和采樣策略:通過改進模型架構和采用更高效的采樣策略,進一步減少推理時間,使得T2A系統能夠在邊緣設備上實時運行。
  3. 評估加速效果和生成質量:通過客觀指標和主觀評價,驗證所提方法在加速效果和生成質量方面的優越性,并與現有加速方法進行比較。
  4. 探索創意應用潛力:通過實際案例展示加速后的T2A系統在創意應用領域的潛力,如音樂創作、聲音設計等。

研究方法

1. 基礎模型選擇與預訓練

本研究選擇Stable Audio Open(SAO)作為基礎模型,該模型是一個基于擴散模型的文本到音頻生成系統,能夠生成高質量的立體聲音頻。SAO模型由預訓練的自動編碼器、T5文本嵌入器和擴散Transformer(DiT)組成,總參數量約為1.06B。為了加速推理,研究對SAO模型進行了優化,減少了DiT的維度和層數,最終得到一個參數量約為0.34B的輕量級模型。

2. 對抗性相對對比后訓練(ARC Post-Training)

ARC后訓練是本研究的核心方法,它結合了相對論對抗性損失和對比損失來優化預訓練的擴散模型。具體而言,ARC后訓練包括以下步驟:

  • 初始化:將預訓練的擴散模型作為生成器(G)和鑒別器(D)的初始化模型。
  • 相對論對抗性損失(LR):通過引入相對論對抗性損失,鼓勵生成器生成更逼真的音頻樣本,同時使鑒別器能夠更準確地區分真實樣本和生成樣本。相對論對抗性損失通過比較成對的真實樣本和生成樣本(共享相同的文本提示)來計算損失,從而提供更強的梯度信號。
  • 對比損失(LC):為了增強生成器對文本提示的遵循能力,研究引入了對比損失。對比損失通過訓練鑒別器來區分具有正確和錯誤文本提示的音頻樣本,從而鼓勵鑒別器關注語義特征而不是高頻特征。這有助于提高生成音頻與文本提示之間的一致性。
  • 聯合優化:在訓練過程中,交替更新生成器和鑒別器的參數,以最小化相對論對抗性損失和對比損失的總和。
3. 采樣策略優化

為了進一步提高推理速度,研究采用了乒乓采樣(Ping-Pong Sampling)策略。乒乓采樣通過交替進行去噪和再加噪操作來迭代優化樣本,從而減少了對傳統ODE求解器的依賴。這種采樣策略使得模型能夠在更少的采樣步驟內生成高質量的音頻樣本。

4. 邊緣設備優化

為了使加速后的T2A系統能夠在邊緣設備上實時運行,研究還進行了邊緣設備優化。具體而言,研究采用了Arm的KleidiAI庫和LiteRT運行時,通過動態Int8量化技術來減少模型大小和推理時間。動態Int8量化技術允許在推理過程中動態量化激活值,從而在保持一定生成質量的同時顯著減少內存占用和推理時間。

研究結果

1. 加速效果

實驗結果表明,ARC后訓練顯著提高了T2A系統的推理速度。在H100 GPU上,優化后的模型能夠在約75毫秒內生成12秒的44.1kHz立體聲音頻,相比原始SAO模型(約100秒)加速了超過100倍。在移動邊緣設備上(如Vivo X200 Pro智能手機),優化后的模型也能在約7秒內完成生成任務,實現了實時音頻生成。

2. 生成質量

通過客觀指標(如FD openl3、KL passt、CLAP分數等)和主觀評價(如webMUSHRA測試)發現,ARC后訓練在保持生成質量的同時顯著提高了推理速度。具體而言,優化后的模型在音頻質量、語義對齊和提示遵循能力方面均表現出色,且生成多樣性顯著高于現有蒸餾方法(如Presto)。

3. 邊緣設備性能

邊緣設備優化實驗表明,通過動態Int8量化技術,優化后的模型在保持一定生成質量的同時顯著減少了內存占用和推理時間。在Vivo X200 Pro智能手機上,優化后的模型能夠在約7秒內完成生成任務,且峰值運行時RAM使用量從6.5GB降低到3.6GB。

研究局限

盡管本研究在加速文本到音頻生成系統方面取得了顯著進展,但仍存在以下局限性:

  1. 模型大小和存儲需求:優化后的模型仍然占用較大的存儲空間(數GB),這可能限制了其在某些應用場景中的部署和分發。
  2. 計算資源需求:盡管ARC后訓練顯著提高了推理速度,但在資源受限的設備上(如低端智能手機),實時音頻生成可能仍然面臨挑戰。
  3. 生成多樣性評估:盡管本研究提出了CLAP條件多樣性分數(CCDS)來評估條件生成多樣性,但該指標可能無法全面反映生成音頻的多樣性。未來研究可以探索更全面的多樣性評估方法。
  4. 特定領域性能:本研究主要關注通用音頻生成任務,對于特定領域(如音樂、語音合成等)的音頻生成任務,ARC后訓練的性能可能需要進一步驗證和優化。

未來研究方向

針對本研究的局限性和現有技術的不足,未來研究可以從以下幾個方面展開:

  1. 模型壓縮與輕量化:探索更高效的模型壓縮和輕量化技術,以減少模型大小和存儲需求。例如,可以采用知識蒸餾、剪枝、量化等技術來進一步壓縮模型。
  2. 邊緣設備優化:針對資源受限的邊緣設備,研究更高效的推理加速策略。例如,可以探索更高效的采樣策略、硬件加速技術(如專用神經網絡處理器)等。
  3. 多樣性評估與增強:研究更全面的多樣性評估方法,以更準確地評估生成音頻的多樣性。同時,探索增強生成多樣性的技術,如條件變分自編碼器(CVAE)、生成對抗網絡(GAN)的變種等。
  4. 特定領域應用:針對特定領域(如音樂、語音合成等)的音頻生成任務,研究專門的加速和優化方法。例如,可以結合領域知識來設計更高效的模型架構和訓練策略。
  5. 多模態融合:探索文本到音頻生成系統與其他模態(如圖像、視頻)的融合技術,以實現更豐富的多媒體內容生成。例如,可以研究文本到視頻生成系統中的音頻同步和生成技術。
  6. 實時交互與反饋:研究實時交互和反饋機制,以使用戶能夠在生成過程中實時調整參數和提供反饋。這將有助于提高生成音頻的滿意度和實用性。

結論

本研究提出了一種不依賴于蒸餾的對抗性加速算法——對抗性相對對比后訓練(ARC Post-Training),用于加速基于擴散模型或流模型的文本到音頻生成系統。實驗結果表明,ARC后訓練在保持生成質量的同時顯著提高了推理速度,使得T2A系統能夠在邊緣設備上實時運行。未來研究可以進一步探索模型壓縮與輕量化、邊緣設備優化、多樣性評估與增強、特定領域應用、多模態融合以及實時交互與反饋等方向,以推動T2A技術在更多領域的應用和發展。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/80418.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/80418.shtml
英文地址,請注明出處:http://en.pswp.cn/web/80418.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Word文檔圖片和圖表自動添加序號

0 Preface/Foreword Word文檔是辦公常用的文檔,里面經常會插入圖片或者表格,當表格和圖片數量過多時,如果有些圖片需要刪除或者添加,那么大概率需要修改大量圖片的序號或者引用記錄,如果通過手工一個一個修改&#xf…

軟件架構設計--期末復習

質量屬性 參考視頻:【13.5質量屬性-架構評估】 在軟件架構中,質量屬性是衡量系統設計優劣的關鍵指標,通常分為運行時屬性和非運行時屬性。以下是一些常見的質量屬性: 一、軟件架構中的質量屬性 運行時屬性: 性能&am…

多指標組合策略思路

一種基于多種技術指標和日歷因素的綜合交易策略,旨在通過復雜的條件判斷來預測市場的短期走勢,并據此進行買賣操作。 策略概述 該策略的核心思想是通過結合多個技術指標和日歷因素來判斷市場的短期趨勢,并在合適的時機進行買入或賣出操作。 具…

STM32 HAL驅動程序 內部Flash

hal_flash.c #include "hal_flash.h"volatile uint32_t flashWriteOffset SYS_APP_BAK_SAVE_ADDR_BASE; volatile uint32_t flashReadOffset SYS_APP_BAK_SAVE_ADDR_BASE;/* MCU OTA */ /*擦除指定的Flash頁*/ void flash_erase_page(uint8_t flashPage , uint32_…

電子電路:什么是電流離散性特征?

關于電荷的量子化,即電荷的最小單位是電子的電荷量e。在宏觀電路中,由于電子數量極大,電流看起來是連續的。但在微觀層面,比如納米器件或單電子晶體管中,單個電子的移動就會引起可觀測的離散電流。 還要提到散粒噪聲,這是電流離散性的表現之一。當電流非常小時,例如在二…

AI agent與lang chain的學習筆記 (1)

文章目錄 智能體的4大要素一些上手的例子與思考。創建簡單的AI agent.從本地讀取文件,然后讓AI智能體總結。 也可以自己定義一些工具 來完成一些特定的任務。我們可以使用智能體總結一個視頻。用戶可以隨意問關于視頻的問題。 智能體的4大要素 AI 智能體有以下幾個…

react+html2canvas+jspdf將頁面導出pdf

主要使用html2canvasjspdf 1.將前端頁面導出為pdf 2.處理導出后圖表的截斷問題 export default function AIReport() {const handleExport async () > {try {// 需要導出的內容idconst element document.querySelector(#AI-REPORT-CONTAINER);if (!element) {message.err…

FFmpeg:多媒體處理的終極利器

FFmpeg詳細介紹 1. 定義與基本概述 FFmpeg是一套開源的跨平臺多媒體處理工具集,最初由法國程序員Fabrice Bellard于2000年開發,其名稱源自“Fast Forward MPEG”,體現了其高效處理MPEG格式的能力。它不僅是命令行工具,還包含多個庫和開發套件,支持視頻轉碼、剪輯、合并、…

【應用開發十】pwm

1 應用層操作PWM 與LED設備一樣,操作PWD也是通過sysfs方式 1) 所在目錄:/sys/class/pwm,該目錄下的文件為pwmchipX,為PWM控器,I.MX6ULL有八個pwm控制器 1.1 pwm 控制器 PWM控制器里內容(即pw…

LeetCode算 法 實 戰 - - - 雙 指 針 與 移 除 元 素、快 慢 指 針 與 刪 除 有 序 數 組 中 的 重 復 項

LeetCode算 法 實 戰 - - - 雙 指 針 與 移 除 元 素、快 慢 指 針 與 刪 除 有 序 數 組 中 的 重 復 項 第 一 題 - - - 移 除 元 素方 法 一 - - - 雙 重 循 環方 法 二 - - - 雙 指 針方 法 三 - - - 相 向 雙 指 針(面 對 面 移 動) 第 二 題 - - -…

設計模式系列(03):設計原則(二):DIP、ISP、LoD

本文為設計模式系列第3篇,聚焦依賴倒置、接口隔離、迪米特法則三大設計原則,系統梳理定義、實際業務場景、優缺點、最佳實踐與常見誤區,適合系統學習與團隊協作。 目錄 1. 引言2. 依賴倒置原則(DIP)3. 接口隔離原則(ISP)4. 迪米特法則(LoD)5. 常見誤區與反例6. 最佳實…

計算機圖形學中MVP變換的理論推導

計算機圖形學中MVP變換的理論推導 課程地址:Computing the Pixel Coordinates of a 3D Point 知識鋪墊:矩陣的真實內涵 矩陣的每一列/行(左乘和右乘的區別)代表了新坐標系的基向量在原基向量構成的坐標系中的坐標,這…

先說愛的人為什么先離開

2025年5月19日,15~23℃,賊好的一天,無事發生 待辦: 2024年稅務申報 《高等數學2》取消考試資格學生名單 《物理[2]》取消考試資格名單 5月24日、25日監考報名 《高等數學2》備課 《物理[2]》備課 職稱申報材料 教學技能大賽PPT 遇…

面試中的線程題

原文鏈接:線程題大全 Java 并發庫同步輔助類 CountDownLatch 工作機制:初始化一個計數器,此計數器的值表示需要等待的事件數量。 提供了兩個主要方法: await():當一個線程調用此方法時,它將阻塞&#…

Linux夢開始的地方

1.概率 經過C語言,數據結構,C的學習我們現在要開始學習Linux的學習了。我們學習Linux是從四部分來進行的: 1.Linux初識,Linux環境,Linux指令,Linux開發環境。 2.Linux系統。 3.Linux網絡 4.MySQL Lin…

“二維前綴和”算法原理及模板

在學習本篇內容前建議先學習一下“一維前綴和” 一維前綴和 算法https://blog.csdn.net/czt230610/article/details/148012923?fromshareblogdetail&sharetypeblogdetail&sharerId148012923&sharereferPC&sharesourceczt230610&sharefromfrom_link接下來…

軟件設計師CISC與RISC考點分析——求三連

一、考點分值占比與趨勢分析(CISC與RISC) 綜合知識分值統計表 年份考題數量分值分值占比考察重點2018111.33%指令特征對比2019111.33%控制器實現方式2020222.67%寄存器數量/流水線技術2021111.33%尋址方式對比2022222.67%指令復雜度/譯碼方式2023111.3…

順 序 表:數 據 存 儲 的 “ 有 序 陣 地 ”

順 序 表:數 據 存 儲 的 “ 有 序 陣 地 ” 線 性 表順 序 表 - - - 順 序 存 儲 結 構順 序 表 的 操 作 實 現代 碼 全 貌 與 功 能 介 紹順 序 表 的 功 能 說 明代 碼 效 果 展 示代 碼 詳 解SeqList.hSeqList.ctest.c 總 結 💻作 者 簡 介&#xf…

網絡安全深度解析:21種常見網站漏洞及防御指南

一、高危漏洞TOP 10 1. SQL注入(SQLi) 原理:通過構造惡意SQL語句突破系統過濾機制 典型場景: - 聯合查詢注入: union select 1,version(),3--+ - 布爾盲注:and (select substr(user(),1,1)=r) - 時間盲注:;if(now()=sysdate(),sleep(5),0)/ 防御方案: - 嚴格參數化查…

代碼上傳gitte倉庫

把代碼push上去就行