將輸入幀上下文打包到下一個幀的預測模型中用于視頻生成

Paper Title: Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

論文發布于2025年4月17日

Abstract部分

在這篇論文中,FramePack是一種新提出的網絡結構,旨在解決視頻生成中的兩個主要問題:遺忘漂移
具體來說,遺忘指的是在生成視頻時,模型難以保持和記住視頻的早期幀內容,導致時間依賴性喪失;
漂移則是指隨著視頻生成過程的進行,錯誤逐漸累積,導致后續幀的視覺質量不斷退化。FramePack通過壓縮輸入幀,使得無論視頻的長度如何,Transformer模型的上下文長度都保持固定。
傳統的視頻生成模型會面臨隨著視頻長度增加,計算量和內存需求呈平方增長的問題。而FramePack通過壓縮技術,使得模型在處理長視頻時的計算負擔不增加,從而提高了計算效率和批次大小。
反漂移采樣方法是該方法的另一大創新,通過先確定視頻幀的端點,然后逆向生成中間幀,這樣可以避免誤差積累,提高視頻生成的穩定性和質量。
最后,實驗結果表明,FramePack不僅能夠提高現有視頻擴散模型的性能,特別是在視覺質量方面,而且它使得模型的訓練和推理過程更加高效,適合應用于長時間視頻的生成。

Introduction部分

在這一部分,論文引入了視頻生成中常見的兩個問題:遺忘漂移

  • 遺忘是指在生成視頻時,模型無法保持對視頻早期內容的記憶,導致時間上的一致性喪失。模型的記憶逐漸“淡化”,無法長期保留視頻的上下文信息。

  • 漂移則是指由于誤差的逐步積累,視頻的視覺質量隨著生成的幀越來越遠而下降。這種現象通常發生在視頻生成過程中,尤其是在逐幀生成時,誤差會逐漸加大,導致后續幀的質量越來越差。

當試圖同時解決遺忘和漂移這兩個問題時,往往會遇到一個根本性困境:任何通過增強記憶來減輕遺忘的方法,都可能加速誤差的傳播,從而加劇漂移
而任何通過中斷誤差傳播或削弱時間依賴性(例如掩蔽或重新加入噪聲)來減少漂移的方法,也可能使遺忘問題更加嚴重
遺忘問題導致了一種簡單的解決方案——編碼更多的幀,但由于Transformer的二次注意力復雜性(或者類似FlashAttn等的子二次優化),這一做法很快變得計算上不可行。
此外,視頻幀之間存在大量的時間冗余,使得簡單的全上下文方法效率較低。
連續幀之間的視覺特征重復性很大,揭示了設計有效壓縮系統的潛力,以促進記憶。

漂移問題由多個方面的記憶機制所影響。
漂移的來源在于個別幀中發生的初始錯誤,而其影響則是這些錯誤在隨后的幀中傳播和累積,最終導致視覺質量下降。
一方面,較強的記憶機制可以增強時間一致性,減少初始錯誤的發生,從而緩解漂移;
另一方面,較強的記憶機制也會記住更多的錯誤,因此當錯誤發生時,會加速誤差的傳播,進一步加劇漂移。
這種記憶機制與漂移之間的悖論關系,要求我們設計出巧妙的訓練和采樣方法,以便于錯誤修正或中斷誤差傳播。

Related Work部分

2.1 Anti-forgetting and Anti-drifting

在這一部分,文章討論了反遺忘和反漂移的幾種方法以及它們在視頻生成中的應用:

  1. 噪聲調度和歷史幀增強:這是一種通過調整歷史幀中的噪聲水平來應對漂移的方法。通過減少對歷史幀的依賴,可以減緩漂移的發生,類似于 DiffusionForcingRollingDiffusion 等方法。這些方法通過改變噪聲分布來改善視頻生成的質量和穩定性。

  2. 無分類器指導(CFG):這種方法通過在不同位置應用不同的噪聲級別來調節遺忘和漂移之間的權衡。通過調整指導的噪聲水平,可以更好地平衡這兩種問題。

  3. 錨幀:在視頻生成過程中,可以將參考圖像作為“錨點”,幫助穩定生成過程,避免漂移現象。通過在生成的初期就確定一些重要的幀(如關鍵幀或參考幀),可以幫助模型更好地生成后續的幀。

  4. 壓縮潛在空間:通過壓縮視頻的潛在空間,視頻擴散模型的計算效率得到了提升。例如, LTXVideoPyramid-Flow 等方法通過降低潛在空間的維度來減少計算負擔,同時仍能保持生成質量。

  5. 遺忘與漂移的權衡:模型需要在增強記憶力與避免漂移之間找到平衡。更強的記憶機制可以改善視頻生成的時間一致性,但也可能導致更多的誤差積累,從而加劇漂移。這種關系表明,在設計模型時,需要平衡記憶強度和錯誤傳播的控制。

2.2 Long Video

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/78540.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/78540.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/78540.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

STM32 串口USART

目錄 常見的通信方式 串行通信和并行通信 全雙工,半雙工和單工通信 同步通信和異步通信 通信速率 常見的通信協議 串口基礎知識 電平特性 串口傳輸協議 STM32F103的USART資源 端口引腳 數據寄存器單元 發送接收控制單元 實現串口發送 printf…

Taro on Harmony :助力業務高效開發純血鴻蒙應用

背景 純血鴻蒙逐漸成為全球第三大操作系統,業界也掀起了適配鴻蒙原生的浪潮,用戶遷移趨勢明顯,京東作為國民應用,為鴻蒙用戶提供完整的購物體驗至關重要。   去年 9 月,京東 AP…

gem5-gpu教程05 內存建模

memory-modeling|Details on how memory is modeled in gem5-gpu gem5-gpu’s Memory Simulation gem5-gpu在很大程度上避開了GPGPU-Sim的單獨功能模擬,而是使用了gem5的執行中執行模型。因此,當執行存儲/加載時,內存會被更新/讀取。沒有單獨的功能路徑。(順便說一句,這…

【python】lambda用法(結合例子理解)

目錄 lambda 是什么? 為什么叫 lambda? 語法 舉例 1. 最簡單的 lambda:單個數字處理 2. 用 lambda 排序一組字符串(按照長度排序) 3. 在列表里找出絕對值最小的數字 4. 給 map() 用 lambda 5. 組合使用:篩選出偶數 lambda 和 def 的對比 lambda 適合用在什么地…

【ROS2】機器人操作系統安裝到Ubuntu22.04簡介(手動)

主要參考: https://book.guyuehome.com/ROS2/1.系統架構/1.3_ROS2安裝方法/ 官方文檔:https://docs.ros.org/en/humble/Installation.html 虛擬機與ubuntu系統安裝 略,見參考文檔 ubutun換國內源,略 1. 設置本地語言 確保您有…

C 調用 C++:extern “C” 接口詳解與實踐 C/C++混合編譯

C 調用 C:extern “C” 接口詳解與實踐 核心問題在于 C 編譯器會對函數名進行“修飾”(Name Mangling)以支持函數重載等特性,而 C 編譯器則不會。此外,C 語言本身沒有類、對象等概念。為了解決這個問題,我…

汽車制造行業如何在數字化轉型中抓住機遇?

近年來,隨著新一輪科技革命和產業變革的深入推進,汽車制造行業正迎來一場前所未有的數字化轉型浪潮。無論是傳統車企還是新勢力品牌,都在積極探索如何通過數字化技術提升競爭力、開拓新市場。那么,在這場變革中,汽車制…

k8s學習記錄(五):Pod親和性詳解

一、前言 上一篇文章初步探討了 Kubernetes 的節點親和性,了解到它在 Pod 調度上比傳統方式更靈活高效。今天我們繼續討論親和性同時Kubernetes 的調度機制。 二、Pod親和性 上一篇文章中我們介紹了節點親和性,今天我們講解一下Pod親和性。首先我們先看…

HarmonyOS:Navigation實現導航之頁面設置和路由操作

導讀 設置標題欄模式設置菜單欄設置工具欄路由操作頁面跳轉頁面返回頁面替換頁面刪除移動頁面參數獲取路由攔截 子頁面頁面顯示類型頁面生命周期頁面監聽和查詢 頁面轉場關閉轉場自定義轉場共享元素轉場 跨包動態路由系統路由表自定義路由表 示例代碼 Navigation組件適用于模塊…

雪花算法

目錄 一、什么是雪花算法 二、使用雪花算法 ?三、使用UUID 使用自增主鍵是數據庫中常用的唯一標識,今天嘗試使用mybatisplus來實現三種方式的主鍵ID 使用起來也很簡單 用注解指定一下使用那種方式的主鍵 一、什么是雪花算法 一種特殊的算法可以計算得到一個唯…

HarmonyOs @hadss/hmrouter路由接入

參考文檔:官方文檔 在根目錄oh-package.json5配置 {"dependencies": {"hadss/hmrouter": "^1.0.0-rc.11"} }加入路由編譯插件 hvigor/hvigor-config.json文件 {"dependencies": {"hadss/hmrouter-plugin": &…

C++學習筆記(三十八)——STL之修改算法

STL 算法分類: 類別常見算法作用排序sort、stable_sort、partial_sort、nth_element等排序搜索find、find_if、count、count_if、binary_search等查找元素修改copy、replace、replace_if、swap、fill等修改容器內容刪除remove、remove_if、unique等刪除元素歸約for…

Crawl4AI 部署安裝及 n8n 調用,實現自動化工作流(保證好使)

Crawl4AI 部署安裝及 n8n 調用,實現自動化工作流(保證好使) 簡介 Crawl4AI 的介紹 一、Crawl4AI 的核心功能 二、Crawl4AI vs Firecrawl Crawl4AI 的本地部署 一、前期準備 二、部署步驟 1、檢查系統的網絡環境 2、下載 Crawl4AI 源…

32單片機——外部中斷

STM32F103ZET6的系統中斷有10個,外部中斷有60個 1、中斷的概念 中斷是為使單片機具有對外部或內部隨機發生的事件實時處理而設置的,中斷功能的存在,很大程度上提高了單片機處理外部或內部事件的能力 eg::你打開火&…

UG NX二次開發(C#)-獲取具有相同屬性名稱的體對象

文章目錄 1、前言2、在UG NX中的屬性的賦予3、通過UG NX二次開發獲取相同屬性的體對象1、前言 UG NX中每個對象都可以屬于屬性的,包括體、面、邊、特征、基準等。在QQ群中有個群有提出一個問題,就是獲取相同屬性的體對象,然后將這個體對象導出到一個part文件中。我們今天先…

手動實現legend 與 echarts圖交互 通過元素和js事件實現圖標某項的高亮 顯示與隱藏

通過html實現legend的樣式 提供調用echarts的api實現與echarts圖表交互的效果 實現餅圖element實現類似于legend與echartstu表交互效果 效果圖 配置代碼 <template><div style"height: 400px; width: 500px;background-color: #CCC;"><v-chart:opti…

SpringBoot與BookKeeper整合,實現金融級別的日志存儲系統

BookKeeper的優勢 高吞吐量和低延遲 分布式架構: Apache BookKeeper采用分布式的架構設計&#xff0c;能夠支持高并發的寫入和讀取操作。 批量寫入: 支持批量寫入日志條目&#xff0c;顯著提高寫入效率。 異步I/O: 使用異步I/O操作&#xff0c;減少等待時間&#xff0c;提升…

【Bug】 [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed

當你在進行深度學習相關操作時&#xff0c;若因缺少本地的 CA 證書而無法下載資源&#xff0c;下面為你介紹幾種解決辦法&#xff1a; 方法一&#xff1a;更新 CA 證書 在大多數 Linux 發行版中&#xff0c;你可以使用包管理器來更新 CA 證書。例如&#xff0c;在基于 Debian…

Vue3中AbortController取消請求的用法詳解

在 Vue3 中&#xff0c;AbortController 用于取消 fetch 請求&#xff0c;避免組件卸載后仍執行異步操作導致的潛在問題&#xff08;如內存泄漏或更新已銷毀組件的狀態&#xff09;。以下是詳細用法和最佳實踐&#xff1a; 一、基本用法 創建 AbortController 實例 在組件 setu…

【刷題Day26】Linux命令、分段分頁和中斷(淺)

說下你常用的 Linux 命令&#xff1f; 文件與目錄操作&#xff1a; ls&#xff1a;列出當前目錄的文件和子目錄&#xff0c;常用參數如-l&#xff08;詳細信息&#xff09;、-a&#xff08;包括隱藏文件&#xff09;cd&#xff1a;切換目錄&#xff0c;用于在文件系統中導航m…