論文概述?
這篇論文提出了一種名為WF-VAE(Wavelet Flow VAE)?的新型視頻變分自編碼器(Video VAE),旨在解決潛在視頻擴散模型(LVDM)中的關鍵瓶頸問題,包括高計算成本和潛在空間不連續性。WF-VAE利用小波變換(Wavelet Transform)來分解視頻信號,并通過能量流路徑優化信息編碼,顯著提升了效率和重建質量。同時,論文引入了Causal Cache機制,支持無損的分塊推理(block-wise inference),解決了長視頻處理中的閃爍和失真問題。實驗表明,WF-VAE在PSNR、LPIPS等指標上優于現有方法,同時將吞吐量提高2倍、內存消耗降低4倍。
?背景與動機?
視頻變分自編碼器(Video VAE)是LVDM的核心組件,用于將視頻壓縮到低維潛在空間,以降低擴散模型的訓練成本。然而,隨著視頻分辨率和時長增加,現有VAE面臨兩大挑戰:
- ?計算瓶頸?:現有方法(如OD-VAE、Allegro)使用密集3D卷積架構,導致高內存消耗和低吞吐量。例如,處理512×512分辨率視頻時,基線模型內存占用可高達55GB,而編碼速度慢至0.37秒/幀。
- ?潛在空間不連續?:分塊推理策略(如Open-Sora和CogVideoX所用)會導致視頻重疊區域的失真和閃爍,破壞潛在空間完整性。例如,分塊推理使PSNR下降高達6.4。
這些問題源于現有VAE未能有效利用視頻的時空冗余信息。因此,論文提