Paper Title: Packing Input Frame Context in Next-Frame Prediction Models for Video Generation
論文發布于2025年4月17日
Abstract部分
在這篇論文中,FramePack是一種新提出的網絡結構,旨在解決視頻生成中的兩個主要問題:遺忘和漂移。
具體來說,遺忘指的是在生成視頻時,模型難以保持和記住視頻的早期幀內容,導致時間依賴性喪失;
而漂移則是指隨著視頻生成過程的進行,錯誤逐漸累積,導致后續幀的視覺質量不斷退化。FramePack通過壓縮輸入幀,使得無論視頻的長度如何,Transformer模型的上下文長度都保持固定。
傳統的視頻生成模型會面臨隨著視頻長度增加,計算量和內存需求呈平方增長的問題。而FramePack通過壓縮技術,使得模型在處理長視頻時的計算負擔不增加,從而提高了計算效率和批次大小。
反漂移采樣方法是該方法的另一大創新,通過先確定視頻幀的端點,然后逆向生成中間幀,這樣可以避免誤差積累,提高視頻生成的穩定性和質量。
最后,實驗結果表明,FramePack不僅能夠提高現有視頻擴散模型的性能,特別是在視覺質量方面,而且它使得模型的訓練和推理過程更加高效,適合應用于長時間視頻的生成。
Introduction部分
在這一部分,論文引入了視頻生成中常見的兩個問題:遺忘和漂移。
-
遺忘是指在生成視頻時,模型無法保持對視頻早期內容的記憶,導致時間上的一致性喪失。模型的記憶逐漸“淡化”,無法長期保留視頻的上下文信息。
-
漂移則是指由于誤差的逐步積累,視頻的視覺質量隨著生成的幀越來越遠而下降。這種現象通常發生在視頻生成過程中,尤其是在逐幀生成時,誤差會逐漸加大,導致后續幀的質量越來越差。
當試圖同時解決遺忘和漂移這兩個問題時,往往會遇到一個根本性困境:任何通過增強記憶來減輕遺忘的方法,都可能加速誤差的傳播,從而加劇漂移;
而任何通過中斷誤差傳播或削弱時間依賴性(例如掩蔽或重新加入噪聲)來減少漂移的方法,也可能使遺忘問題更加嚴重。
遺忘問題導致了一種簡單的解決方案——編碼更多的幀,但由于Transformer的二次注意力復雜性(或者類似FlashAttn等的子二次優化),這一做法很快變得計算上不可行。
此外,視頻幀之間存在大量的時間冗余,使得簡單的全上下文方法效率較低。
連續幀之間的視覺特征重復性很大,揭示了設計有效壓縮系統的潛力,以促進記憶。
漂移問題由多個方面的記憶機制所影響。
漂移的來源在于個別幀中發生的初始錯誤,而其影響則是這些錯誤在隨后的幀中傳播和累積,最終導致視覺質量下降。
一方面,較強的記憶機制可以增強時間一致性,減少初始錯誤的發生,從而緩解漂移;
另一方面,較強的記憶機制也會記住更多的錯誤,因此當錯誤發生時,會加速誤差的傳播,進一步加劇漂移。
這種記憶機制與漂移之間的悖論關系,要求我們設計出巧妙的訓練和采樣方法,以便于錯誤修正或中斷誤差傳播。
Related Work部分
2.1 Anti-forgetting and Anti-drifting
在這一部分,文章討論了反遺忘和反漂移的幾種方法以及它們在視頻生成中的應用:
-
噪聲調度和歷史幀增強:這是一種通過調整歷史幀中的噪聲水平來應對漂移的方法。通過減少對歷史幀的依賴,可以減緩漂移的發生,類似于 DiffusionForcing 和 RollingDiffusion 等方法。這些方法通過改變噪聲分布來改善視頻生成的質量和穩定性。
-
無分類器指導(CFG):這種方法通過在不同位置應用不同的噪聲級別來調節遺忘和漂移之間的權衡。通過調整指導的噪聲水平,可以更好地平衡這兩種問題。
-
錨幀:在視頻生成過程中,可以將參考圖像作為“錨點”,幫助穩定生成過程,避免漂移現象。通過在生成的初期就確定一些重要的幀(如關鍵幀或參考幀),可以幫助模型更好地生成后續的幀。
-
壓縮潛在空間:通過壓縮視頻的潛在空間,視頻擴散模型的計算效率得到了提升。例如, LTXVideo 和 Pyramid-Flow 等方法通過降低潛在空間的維度來減少計算負擔,同時仍能保持生成質量。
-
遺忘與漂移的權衡:模型需要在增強記憶力與避免漂移之間找到平衡。更強的記憶機制可以改善視頻生成的時間一致性,但也可能導致更多的誤差積累,從而加劇漂移。這種關系表明,在設計模型時,需要平衡記憶強度和錯誤傳播的控制。