對標Gen-2!Meta發布新模型,進軍文生視頻賽道

隨著擴散模型的飛速發展,誕生了Midjourney、DALL·E 3、Stable Difusion等一大批出色的文生圖模型。但在文生視頻領域卻進步緩慢,因為文生視頻多數采用逐幀生成的方式,這類自回歸方法運算效率低下、成本高。

即便使用先生成關鍵幀,再生成中間幀新方法。如何插值幀數,保證生成視頻的連貫性也有很多技術難點。

科技、社交巨頭Meta則提出了一種全新的文生視頻模型Emu Video。該模型使用了分解式生成方法,先生成一張圖像,再以該圖像和文本作為條件生成視頻,不僅生成的視頻逼真符合文本描述,算力成本也非常低。

論文:https://emu-video.metademolab.com/assets/emu_video.pdf

在線demo:https://emu-video.metademolab.com/#/demo

Emu Video的核心技術創新在于,使用了分解式生成方法。之前,其他文生視頻模型是直接從文本描述映射到高維視頻空間。

但由于視頻維度非常高,直接映射非常困難。Emu Video的策略是首先生成一張圖像,然后以該圖像和文本作為條件,生成隨后的視頻幀

由于圖像空間維度較低,生成第一幀更容易,然后生成后續幀只需要預測圖像如何變化,這樣整個任務難度很大程度降低。

圖片

技術流程方面, Emu Video利用先前訓練好的文本到圖像模型來固定空間參數,初始化視頻模型

然后僅需要訓練時間參數來進行文本到視頻任務。在訓練時,模型以視頻片段及相應文本描述作為樣本進行學習。

圖片

在推理時,給定一段文本后,先用文本到圖像部分生成第一幀圖像,再輸入該圖像及文本到視頻部分生成完整的視頻。

文本到圖像

Emu Video使用了一個訓練好的文本到圖像模型,可以生成很逼真的圖片。為了讓生成的圖片更有創意,這個模型在海量的圖像和文本描述進行預訓練,學到了很多圖像的風格,例如,朋克、素描、油畫、彩繪等。

圖片

文本到圖像模型采用了U-Net結構,包含編碼器和解碼器。編碼器包含多層卷積塊,并降采樣獲得較低分辨率的特征圖。

解碼器包含對稱的上采樣和卷積層,最終輸出圖像。兩個文本編碼器(T5和CLIP模型)被并行加入,分別對文本進行編碼產生文本特征。

圖像到視頻

這個模塊使用了跟文本到圖像模塊類似的結構,也是一個編碼器-解碼器結構。不同的是增加了處理時間信息的模塊,也就是說可以學習如何把圖片中的內容變化成一個視頻。

在訓練的過程中,研究人員輸入一小段視頻,隨機抽取其中的一幀圖片,讓這個模塊學習根據這張圖片和對應的文本生成整段視頻

在實際使用時,先用第一個模塊生成第一幀圖片,然后輸入這張圖片和文本給第二個模塊,讓它生成整個視頻。

圖片

這種分解的方法讓第二個模塊的任務變得比較簡單,只需要預測圖片會隨著時間而怎么變化和運動,就可以生成流暢逼真的視頻。

為了生成更高質量逼真的視頻,研究人員進行了一些技術優化:1)采用零終端信噪比的散度噪聲計劃,能夠直接生成高清視頻,無需級聯多個模型。之前的計劃在訓練和測試階段信噪比存在偏差,導致生成質量下降。

2)利用預訓練文本到圖像模型固定參數,保留圖像質量和多樣性,生成第一幀時不需額外訓練數據和計算成本。

3)設計多階段訓練策略,先在低分辨率訓練快速采樣視頻信息,再在高分辨率進行微調,避免全程高分辨率的計算量大。

圖片

在人類評估中顯示,Emu Video生成的4秒長視頻比其他方法更具質量和遵循文本的要求。語義一致性超過86%,質量一致性超過91%,明顯優于Gen-2、Pika Labs、Make-A Video等知名商業模型。

本文素材來源Meta官網,如有侵權請聯系刪除

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/207189.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/207189.shtml
英文地址,請注明出處:http://en.pswp.cn/news/207189.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Flink Window中典型的增量聚合(ReduceFunction / AggregateFunction)

一、什么是增量聚合函數 在Flink Window中定義了窗口分配器,我們只是知道了數據屬于哪個窗口,可以將數據收集起來了;至于收集起來到底要做什么,其實還完全沒有頭緒,這也就是窗口函數所需要做的事情。所以在窗口分配器…

聽GPT 講Rust源代碼--src/tools(9)

File: rust/src/tools/rust-analyzer/crates/ide-assists/src/handlers/apply_demorgan.rs 在Rust源代碼中,apply_demorgan.rs文件位于rust-analyzer工具的ide-assists庫中,其作用是實現一個輔助函數,用于在代碼中應用De Morgan定律的變換。 …

Android : 籃球記分器app _簡單應用

示例圖: 1.導包 在build.gradle 中 加入 // 使用androidx版本庫implementation androidx.lifecycle:lifecycle-extensions:2.1.0-alpha03 2. 開啟dataBinding android{...// 步驟1.開啟data bindingdataBinding {enabled true}...} 3.寫個類繼承 ViewModel pac…

整數與IP地址間的轉換

原理:ip地址的每段可以看成是一個0-255的整數,把每段拆分成一個二進制形式組合起來,然后把這個二進制數轉變成一個長整數。 舉例:一個ip地址為10.0.3.193 每段數字相對應的二進制數 10 00001010 0 00000000 3 00000011 193 110000…

自下而上-存儲全棧(TiDB/RockDB/SPDK/fuse/ceph/NVMe/ext4)存儲技術專家成長路線

數字化時代的到來帶來了大規模數據的產生,各行各業都面臨著數據爆炸的挑戰。 隨著云計算、物聯網、人工智能等新興技術的發展,對存儲技術的需求也越來越多樣化。不同應用場景對存儲的容量、性能、可靠性和成本等方面都有不同的要求。具備存儲技術知識和技…

機器學習-聚類問題

前言 聚類算法又叫做”無監督分類“,目標是通過對無標記訓練樣本來揭示數據的內在性質及 規律,為進一步的數據分析提供基礎。 Kmeans 作為聚類算法的典型代表,Kmeans可以說是最簡單的聚類算法,沒有之一,那她是怎么完…

MySQL為何偏愛B+樹索引

一、MySQL、B樹概念 MySQL是一種關系型數據庫,它使用SQL語言來操作數據。SQL語言可以實現對數據的增刪改查等操作,但是如果數據量很大,那么這些操作的效率就會很低。為了提高效率,MySQL引入了索引的概念。 索引是一種數據結構&am…

人體關鍵點檢測1:人體姿勢估計數據集

人體關鍵點檢測1:人體姿勢估計數據集 目錄 人體關鍵點檢測1:人體姿勢估計數據集 1.人體姿態估計 2.人體姿勢估計數據集 (1)COCO數據集 (2)MPII數據集 (3)Human3.6M &#xf…

PostgreSQL 主鍵和唯一鍵的區別

主鍵和唯一鍵的區別 主鍵(Primary Key): 主鍵是用于唯一標識表中的每一條記錄的鍵。主鍵必須是唯一的,不允許為空。一個表只能有一個主鍵。主鍵可以由一個或多個字段組成。主鍵的值在整個表中必須是唯一的,用于確保數據…

編譯器:swc 究竟比 babel 快在哪里?

前言 swc 與 babel 都是 JavaScript 編譯器,它們的主要功能是將 ES2015 以及 TypeScript, Flow, JSX 等語法轉換為瀏覽器或環境中的向后兼容的 JavaScript 代碼。 哪里快了? 1. 開發語言的優勢 swc 是用 Rust 語言開發的,而 babel 是用 Java…

MS5228/5248/5268:2.7V 到 5.5V、 12/14/16Bit、內置基準、八通道數模轉換器

MS5228/MS5248/MS5268 是一款 12/14/16bit 八通道輸出的電壓型 DAC ,內部集成上電復位電路、可選內部基準、接口采用四線串口模式, 最高工作頻率可以到 40MHz ,可以兼容 SPI 、 QSPI 、 DSP 接口和 Microwire 串口。輸出接到一個 …

IP地址/16或者/24的意義

IP地址/16或者/24的意義 2023-04-26 16:54 獵手家園 閱讀(533) 評論(0) 編輯 收藏 舉報 當創建VPC專有網絡時,許多人會遇到填寫IPv4地址的情況,通常使用的格式是xxx.xxx.xxx.xxx/16或者xxx.xxx.xxx.xxx/24。那么這個斜杠后面的數字代表什么意思呢&#…

<習題集><LeetCode><鏈表><2/19/21/23/24>

目錄 2. 兩數相加 19. 刪除鏈表的倒數第 N 個結點 21. 合并兩個有序鏈表 23. 合并 K 個升序鏈表 24. 兩兩交換鏈表中的節點 2. 兩數相加 https://leetcode.cn/problems/add-two-numbers/ public ListNode addTwoNumbers(ListNode l1, ListNode l2) {//head是cur鏈表頭節點…

pdf轉png的兩種方法

背景:pdf在一般公司,沒有辦公系統,又不是word/wps/Office系統,讀不出來,識別不了,只能將其轉化為圖片png,因此在小公司或者一般公司就需要pdf轉png的功能。本文將詳細展開。 1、fitz庫(也就是PyMuPDF) 直接pip安裝PyMuPDF即可使用,直接使用fitz操作,無需其他庫。 …

Go語言實現深度學習的正向傳播和反向傳播

文章目錄 開發前言開發理論圖解理論數據類型數學函數數據節點統一抽象變量數據節點常量數據節點單目運算封裝雙目運算封裝算子節點統一抽象基礎算子加法算子減法算子乘法算子除法算子指數算子對數算子正切算子正弦算子余弦算子數據流圖正向傳播反向傳播正向訓練反向訓練運行示例…

我的記事本

url uniform resource locator. 統一資源定位符 請求狀態碼 1XX:信息響應 2XX:成功響應 3XX:重定向消息 4XX:客戶端錯誤響應 5XX:服務器端錯誤響應 IP地址分類 本機回環IP地址:127.0.0.1 ~ 127.255.255.254 局域網IP(私網IP) 192.168.0.0 &am…

船舶機電設備振動數據采集監控系統解決方案

船舶運行中,通常需要通過振動數據采集系統對船舶的各個機電設備運行進行監控,有助于在設備故障時快速預警,進行診斷、分析和維護,保證船舶機電設備正常工作,從而確保工作人員及船舶的安全。 船舶各種機電設備會產生大…

vLLM介紹

簡介 vLLM 工程github地址 Paged attention論文地址 vLLM開發者介紹 Woosuk Kwon vLLM: A high-throughput and memory-efficient inference and serving engine for LLMs. SkyPilot: A framework for easily and cost effectively running machine learning workloads on …

【模型量化】神經網絡量化基礎及代碼學習總結

1 量化的介紹 量化是減少神經網絡計算時間和能耗的最有效的方法之一。在神經網絡量化中,權重和激活張量存儲在比訓練時通常使用的16-bit或32-bit更低的比特精度。當從32-bit降低到8-bit,存儲張量的內存開銷減少了4倍,矩陣乘法的計算成本則二…

ALNS算法中隨機化重要性的評價

文章概述 本研究分析了在海上提貨和交付問題中使用的ALNS元啟發式算法中的隨機化成分。研究者提出了簡單的確定性替代方案,并通過實驗比較了隨機化和確定性成分的性能。結果表明,初始實現的簡單確定性替代方案能夠與隨機化成分的性能相匹配。這項研究為…