FIFO-Diffusion,一個無需額外訓練即可生成長視頻的框架。通過確保每個幀引用足夠多的先前幀來生成高質量、一致的長視頻。

簡單來講,FIFO-Diffusion先通過一些模型如VideoCraft2、zeroscope、Opem-Sora Plan等與FIFO-Diffusion的組合生成短視頻,然后取結尾的幀(也可以取多幀),再用這一幀的圖片生成另一段短視頻,然后拼接起來。FIFO-Diffusion對如何取幀、生成新視頻的時候引用往前的多少幀,以及如何去噪加噪做了算法優化。

相關鏈接

論文:arxiv.org/abs/2405.11473

項目:jjihwan.github.io/projects/FIFO-Diffusion

代碼:github.com/jjihwan/FIFO-Diffusion_public

論文閱讀

FIFO-Diffusion:無需訓練即可從文本生成無限視頻

摘要

我們提出了一種基于預訓練擴散模型的新穎推理技術,用于文本條件視頻生成。我們的方法稱為 FIFO-Diffusion,從概念上講,無需訓練即可生成無限長的視頻。這是通過迭代執行對角去噪來實現的,該去噪同時處理隊列中噪聲級別不斷增加的一系列連續幀;

我們的方法在頭部將完全去噪的幀出隊,同時在尾部將新的隨機噪聲幀入隊。然而,對角去噪是一把雙刃劍,因為靠近尾部的幀可以通過前向參考利用更干凈的幀,但這種策略會導致訓練和推理之間的差異。因此,我們引入潛在分區來減少訓練與推理之間的差距,并引入前向降噪來利用前向引用的優勢。

我們已經在現有的文本到視頻生成基線上展示了所提出的方法的有希望的結果和有效性。

方法

f = 4對角去噪示意圖。被實線包圍的框架是 被虛線包圍的幀是模型輸入的去噪版本。去噪后 當隨機噪聲進入隊列時,右上角完全去噪的實例被退出隊列。

長視頻生成的分塊自回歸方法與FIFO-Diffusion方法的比較。隨機噪聲(黑色)被迭代去噪到圖像中模型的潛勢(白色)。紅色的盒子指出預訓練中的去噪網絡基本模型,綠框表示通過額外訓練得到的預測網絡。

上圖為f = 4, n = 2時的潛在分區和前向去噪示意圖。

  • (a)潛在分區將擴散過程劃分為n個部分,以減少最大噪聲水平差異。

  • (b)在(a)上lookahead denoings使所有框架都能用足夠數量的以前框架來代替所有幀,而計算的計算是(a)的兩倍。

實驗

基于(a) Open-Sora計劃的FIFO-Diffusion生成的長視頻插圖。(b) VideoCrafter2,(c)基于VideoCrafter2的多個提示。電話上的號碼每個幀的左上角表示幀索引。

(a)森林里寧靜的冬日景色。森林被一層厚厚的雪覆蓋著,這……”

(b)“一個充滿活力的水下場景,一個潛水者探索沉船,2K,逼真的。”

(c)“一只老虎在草原上行走→站立→休息,逼真,4k,高清”

“一個漂浮在太空中的宇航員,高質量,4K分辨率。”

不同基線結果比較

VideoCrafter2

視頻生成的FIFO擴散與VideoCrafter2。左上角的數字每一幀表示幀索引。

VideoCrafter1

視頻生成的FIFO擴散與VideoCrafter1。左上角的數字 每一幀表示幀索引。

zeroscope

用zeroscope的FIFO擴散產生的視頻。

Open-Sora Plan

使用Open-Sora計劃的fifo擴散生成的視頻。

長視頻生成方法比較

與其他長視頻生成技術,Gen-L-Video, FreeNoise和LaVie SEINE。

(一)“一個充滿活力的水下場景,一個潛水者探索沉船,2K,逼真的。”

(二)“寧靜禪宗花園的全景,高品質,4K分辨率。”

結論

我們介紹了一種新穎的推理算法,即FIFO擴散,該算法允許從文本中生成無限長的視頻,而無需在短視頻片段上預測的視頻擴散模型。 我們的方法是通過進行對角線降解來實現的,后者以第一次出局的方式處理潛在的噪聲水平的增加。

在每一步中,一個完全去噪的實例被去排隊,而一個新的隨機實例被去排隊噪音是排隊的。雖然對角去噪具有關鍵的權衡,但我們提出了潛在分區克服其固有的局限性,前瞻性去噪,發揮其優勢。 把它們結合在一起,FIFO-Diffusion成功地生成了高質量的長視頻,展示了上下文一致性的精彩的場景和動態運動表達。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/14644.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/14644.shtml
英文地址,請注明出處:http://en.pswp.cn/web/14644.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【MySQL精通之路】存儲引擎-MySQL8.0中的差異

存儲引擎是MySQL組件,用于處理不同表類型的SQL操作。 InnoDB是默認的、最通用的存儲引擎,Oracle默認使用其創建表。(MySQL 8.0中的CREATE TABLE語句默認創建InnoDB表。) MySQL Server使用可插拔存儲引擎體系結構,使存儲…

linux命令日常使用思考

linux命令日常使用思考 復制的相關問題scp和cp的區別root192.168.5.229-r的理解 更新版本的相關問題svn info 根目錄和家目錄的區別根目錄家目錄 復制的相關問題 scp和cp的區別 安全性:SCP 是基于 SSH 的加密傳輸協議,可以保證數據在傳輸過程中的安全性…

vue期末復習選擇題1

1. 下面哪一項描述是錯誤的?(B) A.$("ul li:gt(5):not(:last)")選取ul標記里面索引值大于5且不是最后一個的li元素B.$("div").find("span")選取div元素的子元素spanC.$("div.showmore > a")選取…

Axure RP 9 for Mac/win:重新定義交互原型設計的未來

在當今數字化時代,交互原型設計已成為產品開發中不可或缺的一環。Axure RP 9作為一款功能強大的交互原型設計軟件,憑借其出色的性能和用戶友好的界面,贏得了廣大設計師的青睞。 Axure RP 9不僅支持Mac和Windows兩大主流操作系統,…

Excel實現將A列和B列的內容組合到一個新的列(例如C列)中,其中A列的每個值都與B列的所有值組合。

利用Excel中vba代碼宏實現 原始數據: 自動生成后數據: vba實現代碼: Sub CombineColumns()Dim ws As WorksheetDim lastRowA As Long, lastRowB As Long, i As Long, j As LongDim MyIndex As IntegerDim strCombine As String, strColA As…

主流容器工具對比以及重點推薦學習的企業級工具

常見的主流容器工具包括但不限于以下幾種: 1. Docker: Docker 是最流行的容器平臺之一,它允許開發者將應用及其依賴打包到一個輕量級、可移植的容器中,然后可以在任何支持Docker的系統上運行。 2. Kubernetes:Kubern…

【Python】 去除字符串中的所有空白字符

基本原理 在Python中,字符串(String)是不可變的數據類型,這意味著一旦創建了一個字符串,就不能修改它的內容。然而,我們可以創建一個新的字符串,它包含原始字符串中的字符,但不包含…

局域網傳文件怎么操作?輕松實現文件共享!

在現代的辦公和生活中,局域網傳文件已經成為一種非常常見和方便的方式,可以快速、安全地在局域網內進行文件傳輸。無需依賴互聯網,局域網傳文件可以幫助團隊成員之間共享文件、備份數據、進行協作等。本文將介紹三種常見的方法,幫…

MySQL——存儲過程,觸發器

BaiduComate: # 問題1: # 問題1: 幫我創建兩個表student與score表,要求student表有id,createDate,userName,phone,age,sex,introduce, 要求score表有id&…

Vue3實戰Easy云盤(四):使用空間+文件預覽+文件分享+文件下載

一、空間使用 Framework.vue中 (1)引入接口 const api {getUseSpace: "/getUseSpace",logout: "/logout", }; (2)回調 // 使用空間 const useSpaceInfo ref({ useSpace: 0, totalSpace: 1 }); const g…

達夢數據庫和Oracle對比

達夢數據庫和Oracle對比 達夢數據庫(DM)是中國自主研發的一款數據庫管理系統,在功能和應用上與 Oracle 數據庫有諸多類似,但也有其獨特的特點。以下是對達夢數據庫(DM)和 Oracle 數據庫的詳細對比&#xf…

unreal engine 5.0.3 創建游戲項目

根據虛幻官網介紹,虛幻引擎5可免費用于創建線性內容、定制項目和內部項目。你可以免費用它開發游戲,只有當你的產品營收超過100萬美元時,才收取5%的分成費用。所以目前國內也有許多游戲廠商在使用UE制作游戲。UE5源碼也已開源,有U…

[數據集][目標檢測]吸煙檢測數據集VOC+YOLO格式1449張1類別

數據集格式:Pascal VOC格式YOLO格式(不包含分割路徑的txt文件,僅僅包含jpg圖片以及對應的VOC格式xml文件和yolo格式txt文件) 圖片數量(jpg文件個數):1449 標注數量(xml文件個數):1449 標注數量(txt文件個數):1449 標注…

huggingface筆記:LLama 2

1 前提tip 1.1 使用什么數據類型訓練模型? Llama2模型是使用bfloat16訓練的 上傳到Hub的檢查點使用torch_dtype float16,這將通過AutoModel API將檢查點從torch.float32轉換為torch.float16。在線權重的數據類型通常無關緊要,這是因為模型…

QT 使用QZipWriter進行文件壓縮

目錄 1、QZipWriter 2、主要功能 3、示例 1、QZipWriter QZipWriter 是 Qt 提供的一個類,用于創建和管理 ZIP 文件。它屬于 Qt 的 QtGui 模塊,雖然在 Qt 6 中已經被移除,但在早期的 Qt 版本中,它被用作一種簡便的方式來創建 ZI…

CMMI模型的分析

CMMI模型的分析 CMMI(Capability Maturity Model Integration,能力成熟度模型集成)是由美國卡內基梅隆大學軟件工程研究所(SEI)開發的一個過程級改進訓練和評估程序。CMMI模型為組織提供了一套綜合的指南,用于改進其過程和提升性能。 CMMI 3.0是CMMI模型的最新版本,于…

AWS計算之AWS Elastic Beanstalk

AWS Elastic Beanstalk是一項用于簡化應用程序部署和管理的托管服務。它允許開發人員上傳他們的應用程序代碼,并自動處理底層的部署、擴展、負載均衡和監控任務,從而使開發人員能夠專注于應用程序的開發而不必擔心基礎架構的管理細節。 借助Elastic Bea…

機器學習300問】95、什么是KNN算法?它和K-means什么關系?

一、KNN算法的定義 KNN(K-Nearest Neighbors)算法,是一種簡單而有效的監督學習方法。它既可以用在分類任務,也可用在回歸任務中。KNN算法的核心思想:在特征空間中,如果有一個數據點周圍的大多數鄰居屬于某個…

5. JVM面試題匯總

Java全棧面試題匯總目錄-CSDN博客 1. 說一下JVM的主要組成部分及其作用? JVM包含兩個子系統和兩個組件,兩個子系統為Class loader(類裝載)、Execution engine(執行引擎);兩個組件為Runtime data area(運行時數據區)、Native Interface(本地接口)。 Cl…

linux mail命令及其歷史

一、【問題描述】 最近隔壁組有人把crontab刪了,crontab這個命令有點反人類,它的參數特別容易誤操作: crontab - 是刪除計劃表 crontab -e 是編輯,總之就是特別容易輸入錯誤。 好在可以通過mail命令找回,但是mai…