Fast Text-to-Audio Generation with Adversarial Post-Training 論文解析
一、引言與背景
-
文本到音頻系統的局限性:當前文本到音頻生成系統性能雖佳,但推理速度慢(需數秒至數分鐘),限制了其在創意領域的應用。
-
研究目標:加速高斯流模型(擴散模型或修正流模型),避免傳統蒸餾方法的缺陷。
-
現有加速方法的不足:
-
蒸餾方法需大量資源(在線方法需同時存儲多個模型,離線方法需預生成軌跡-輸出對),且可能繼承教師模型的低多樣性和過飽和偽影。
-
非蒸餾的對抗式后訓練方法在圖像領域有一定探索,但在音頻領域尚未有成熟方案。
-
二、ARC 方法論
(一)修正流預訓練
-
目標:學習在文本條件 c 下,將數據分布 p0 和先驗分布 p1(如各向同性高斯噪聲)之間的轉換模型,以從 p1 生成 p0 樣本。
-
前向腐蝕過程:通過添加噪聲將數據轉化為噪聲表示(公式 1)。
-
逆向生成過程:解常微分方程(ODE,公式 2),預測流的瞬時速度(公式 3)進行訓練。
(二)對抗相對論-對比后訓練(ARC)
-
核心思想:用對抗損失替代基于 l2 的條件均值損失,利用判別器提供分布級反饋,減少所需采樣步驟。
-
優勢:避免蒸餾方法的高成本,無需生成和存儲軌跡-輸出對,也無需依賴預訓練教師模型性能。
-
聯合優化目標(公式 4):結合對抗相對論損失(LR)和對比損失(LC)。
(三)對抗相對論損失(LR)
-
訓練流程(圖 1):
-
對真實樣本 x0 添加噪聲得 xt,經生成器得生成樣本 ?x0。
-
再對 ?x0 和 x0 添加噪聲,輸入判別器。
-
計算真實樣本和生成樣本在判別器空間的相對差異(公式 5 至 7)。
-
-
關鍵特性:與標準 GAN 不同,LR 基于成對數據計算,生成器使生成樣本在判別器空間相對真實樣本更真實,判別器則相反。因文本條件任務中成對樣本共享相同文本提示,提供更強梯度信號。
(四)對比損失(LC)
-
提出背景:對抗損失單獨使用會導致文本遵循性變差。
-
實現方式(圖 2):將判別器訓練為音頻-文本對比模型,最大化正確和錯誤提示對應真實樣本在判別器空間的差異(公式 8)。
-
作用:使判別器關注語義特征,提升提示遵循性,且無需使用 Classifier-Free Guidance(CFG),避免其對多樣性和輸出過飽和的負面影響。
(五)乒乓采樣
-
適用場景:ARC 后訓練模型直接估計不同噪聲水平下的干凈輸出,而非預測瞬時速度。
-
工作原理:交替進行去噪和重新加噪,逐步優化樣本質量。從初始噪聲樣本開始,反復去噪和加噪,最終逼近干凈數據。
(六)加速作為獎勵建模
- 與語言模型偏好后訓練的聯系:ARC 的相對論目標類似于語言模型基于人類偏好對贏得-輸掉樣本對訓練偏好模型。判別器隱式作為獎勵模型,生成器則最大化相對獎勵。
三、實驗與評估
(一)模型架構
-
生成模型:基于 Stable Audio Open(SAO),包含預訓練自動編碼器、T5 文本嵌入器和在潛在空間操作的擴散 Transformer(DiT)。對 DiT 進行改進以提升效率。
-
判別器:基于預訓練修正流初始化,包含輸入嵌入層、部分 DiT 塊和輕量級判別器頭部。
(二)訓練與采樣細節
-
數據集:使用 Freesound 樣本(6,330 小時,472,618 音頻),排除長形式 FMA 音樂。
-
訓練迭代:修正流模型訓練 670k 迭代,每個加速算法在 8 個 H100 GPU 上微調 100k 迭代,批次大小 256,學習率 5×10?7。
-
噪聲分布:pgen(t) 為從 -6 到 2 的對數信噪比空間中的均勻分布;pdisc(s) 為移位對數正態分布,側重中高信噪比區域。
(三)客觀評估指標
-
音頻質量與語義對齊:采用 FDopenl3、KLpasst 和 CLAP 分數指標。
-
多樣性評估:
-
現有指標:報告 recall 和 coverage 指標(Rpasst 和 Cpasst),衡量 PASST 空間中的分布多樣性。
-
新提出指標:CLAP 條件多樣性分數(CCDS),計算相同提示生成樣本對的 CLAP 余弦距離平均值,距離低表示多樣性低,反之則高。
-
-
速度評估:報告實時因子(RTF,生成音頻時長除以延遲)和 H100 上的 VRAM 峰值使用量。
(四)主觀評估
-
評估方式:使用 webMUSHRA 進行聽力測試,參與者對多樣性、音頻質量和提示遵循性進行 5 分制評分。
-
評估重點:關注與音樂制作相關的提示(如 “拉丁放克鼓組 115 BPM”)和空間復雜場景(如 “跑車經過”),以及更廣泛、更模糊的提示(如 “燃燒的火焰” 和 “水”)以評估多樣性。
(五)基線模型
-
Stable Audio Open(SAO):質量基線和加速參考點,模型較大且未針對速度優化。
-
預訓練修正流(RF):基礎加速模型。
-
Presto:基于蒸餾的音頻擴散加速方法,使用基模型和輔助分數模型最小化逆向 KL 損失并結合 GAN 損失。
-
消融實驗:對 ARC 進行消融,分別省略 LC 或用標準最小二乘對抗損失(LLS)替換 LR。
(六)結果與討論
-
性能對比:SAO 雖質量最佳但速度慢;加速模型(ARC、Presto 等)速度提升顯著(比 SAO 快 100 倍,比預訓練 RF 快 10 倍),指標表現相近。
-
Presto 的權衡:提升基 RF 模型質量,但嚴重損害多樣性且惡化 FDopenl3。
-
ARC 的表現:進一步提升生成多樣性,FDopenl3 表現最佳,但 MOS 質量評分略低于預訓練 RF。其輸出多樣性更高,但提示遵循性稍低。
-
消融實驗結果:
-
僅用 LR 訓練導致提示遵循性差,此時多樣性高因生成器變成無條件模型。
-
相對論損失在對抗加對比后訓練中優于最小二乘損失。
-
模型在 8 步時表現最佳,與小加速模型可能比大模型需要更多步數的發現一致。
-
-
CCDS 指標有效性:CCDS 與聽力測試多樣性結果完全一致,表明其可用于自動評估多樣性。
(七)邊緣設備優化
-
優化手段:使用 Arm 的 KleidiAI 庫(通過 XNNPACK 庫集成到 LiteRT 運行時),對 Vivo X200 pro 手機進行動態 Int8 量化,僅對部分層進行量化,運行時動態量化激活。
-
優化效果:推理時間從 15.3 秒(原始 F32)降至 6.6 秒,峰值運行時 RAM 使用量從 6.5GB 降至 3.6GB。高端(H100)和消費級(3090)GPU 分別實現 75ms 和 187ms 的速度。
(八)創意應用
-
響應速度要求:為在創意工作流中作為“樂器”,文本到音頻模型需響應迅速。降低消費級 GPU 延遲至 200ms 以下,提升音效設計靈感。
-
音頻到音頻能力:利用乒乓采樣實現風格遷移,無需額外訓練。可通過語音錄音初始化初始噪聲樣本實現語音到音頻控制,或用強節奏錄音初始化進行節拍對齊生成。
-
局限性:模型內存和存儲需求高(占數 GB RAM 和磁盤空間),對集成到多應用和高效分發構成挑戰。
四、結論
-
ARC 的創新性:首個不依賴蒸餾或 CFG 的文本到音頻模型加速方法,通過擴展對抗相對論損失并結合新穎對比判別器損失,大幅提升高斯流模型運行速度,同時保持質量并提升生成多樣性。
-
評估指標貢獻:提出的 CCDS 多樣性評估指標與感知評估一致,為自動評估多樣性提供合理工具。
-
未來展望:期望更高效和多樣性的文本到音頻模型能支持更廣泛的創意應用。認識到此類模型的創意潛力,論文還探索音頻到音頻實驗,并建議未來工作可聚焦于用針對性數據集微調以實現更精確的聲音設計。