LanDiff:賦能視頻創作,語言與擴散模型的融合力量

自從 Wan 2.1 發布以來,AI 視頻生成領域似乎進入了一個發展瓶頸期,但這也讓人隱隱感到:“DeepSeek 時刻”即將到來!就在前幾天,浙江大學與月之暗面聯合推出了一款全新的文本到視頻(T2V)生成模型——**LanDiff** 。這款模型通過融合語言模型和擴散模型的優勢,為高質量視頻生成帶來了突破性進展。接下來,我們一起來深入了解這款引人注目的技術成果。

LanDiff 被譽為視頻生成領域的“混血兒”,它巧妙地將擅長語義理解的語言模型與專注于圖像質量的擴散模型結合在一起 。具體來說,LanDiff 首先利用語義分詞器將視頻內容壓縮成簡潔的“故事大綱”,這一步類似于搭建骨架;隨后,擴散模型在此基礎上逐步細化,將大綱轉化為細節豐富、視覺效果出色的完整視頻 。這種“先搭框架再精雕細琢”的設計,不僅確保了生成內容高度契合文本描述,還顯著提升了視頻的視覺質量。

在性能表現上,LanDiff 同樣令人驚艷。根據 VBench 基準測試結果顯示,LanDiff 以 **85.43 的高分**成功登頂,遠超其他開源模型的表現 。尤其值得一提的是,LanDiff 在長視頻生成任務中展現出了強大的能力,能夠穩定輸出連貫且高質量的內容,充分證明了其在復雜場景下的適應性和魯棒性 。這一創新無疑為視頻生成領域注入了新的活力,也為未來的應用拓展提供了更多可能性。

核心特色 | Method

LanDiff是一種混合架構,它通過粗到精的生成范式,結合了語言模型和擴散模型的優點,其架構圖如下。模型的核心架構主要分為以下三個部分:視頻語義分詞器基于LLM的語義Token生成器基于擴散模型的感知特征生成器。

視頻語義Tokenizer | Video Semantic Tokenizer

“壓縮與理解的雙重魔法”:LanDiff 中的視頻語義 Tokenizer

在 LanDiff 模型中,視頻語義 Tokenizer 被譽為整個架構的“壓縮大師”,其核心任務是將復雜的視頻信息壓縮成簡潔的語義表達,同時保留視頻的核心語義和細節。這種能力不僅減輕了后續語言模型和擴散模型的負擔,還顯著提升了生成效率和質量 。

---

查詢分詞:聚焦關鍵信息


Tokenizer 的一大創新在于**查詢分詞(Query Tokens)**,這是一種隨機初始化的標記機制,用于與視頻的語義特征交互,提取出最能代表視頻內容的關鍵信息。這些查詢 tokens 就像“信息雷達”,能夠在龐大的視頻數據中精準鎖定重要語義點,從而實現高效的語義壓縮與理解 。

---

視頻語義表示:選擇更優的特征提取方式


LanDiff 并未直接使用自編碼器學習的特征,而是選擇了預訓練的**自監督學習特征(SSL)** 作為視頻表示,并采用 Theia 模型進行視覺特征提取。這種設計的原因在于,SSL 特征能夠更好地保留視頻的高層次語義信息,而 Theia 模型經過多個視覺任務模型(如 CLIP、SAM、DINOv2、ViT 和 Depth-Anything)的提煉,確保了編碼后的特征具有豐富的語義內涵 。

---

Tokenizer 的具體實現


在技術實現上,LanDiff 的 Tokenizer 采用了基于 Transformer 的結構,并結合查詢嵌入來聚合視覺特征,從而實現極高的壓縮率。具體流程如下:

1. 語義特征提取
? ?首先,使用 Theia 模型提取視頻的語義特征,并將其扁平化處理,以便后續操作 。
2. 查詢 tokens 的引入
? ?然后,引入一組隨機初始化的查詢 tokens,并將它們與提取的語義特征拼接在一起。這些查詢 tokens 在語義特征中扮演了“信息提取器”的角色。
3. Transformer 編碼?
? ?使用 Transformer 編碼器對拼接后的特征進行編碼,最終僅保留查詢 tokens 的編碼結果,作為后續處理的基礎。
4. 向量量化
? ?接下來,通過訓練 VQ-VAE 模型對查詢 tokens 的編碼特征進行向量量化,得到離散的語義 tokens。這一過程以最小化視頻語義特征的重建損失為目標,并采用 EMA(指數移動平均)的方式更新模型參數。
5. 解碼階段??
? ?在解碼階段,量化后的特征被用作條件輸入,并在其前添加一系列 mask tokens,形成解碼器的輸入序列 。

視頻幀分組策略:高效壓縮與建模
LanDiff 的視頻幀分組策略靈感來源于 MP4 視頻編碼算法,通過將視頻幀分為**關鍵幀(I-Frame)** 和**非關鍵幀(P-Frame)**,大幅減少了計算量和數據量:
1. 分組與建模?

?
? ?將 N 幀視頻劃分為 N/T 組,每組包含 T 幀。每一組獨立建模,確保處理效率。

2. 關鍵幀與非關鍵幀的差異化處理

??
? ?- 關鍵幀(I-Frame):完整編碼每組的第一幀,賦予大量查詢 tokens,以實現高質量重建。 ?
? ?- 非關鍵幀(P-Frame):僅捕捉時間上的變化,參考先前的關鍵幀進行編碼,并分配少量查詢 tokens,迫使模型專注于幀間差異。

3. 掩碼機制


? ?在編碼過程中,對特征序列應用幀級別的因果掩碼,確保每個 token 只能關注相應幀及之前的幀特征 。

4. 解碼中的上下文依賴

?
? ?在解碼階段,每個幀對應的 mask token 不僅可以看到自身的查詢 tokens,還可以參考先前幀的特征和查詢 tokens,從而實現上下文依賴的高效解碼。

壓縮率與質量的雙贏

LanDiff 的視頻語義 Tokenizer 在壓縮率和生成質量之間實現了完美的平衡。對于一段分辨率為 480x720 的一秒視頻,LanDiff 平均僅需生成約 200 個 tokens,而常見的 MagViT2 tokenizer 則需要生成約 10,000 個 tokens 。這意味著 LanDiff 的序列長度僅為 MagViT2 的 1/50,顯著降低了計算復雜度和資源消耗。與此同時,LanDiff 在語義保留和視頻重建質量方面依然表現出色,真正實現了高效壓縮與高質量輸出的雙贏 。

用于語義Token生成的語言模型

語言模型與高效分詞器的結合:通過訓練高效的分詞器,利用語言模型進行自回歸生成語義化的分詞,從而實現從文本到視頻的生成過程。

多模態特征提取:借助預訓練的T5-XXL模型提取文本特征,并利用視頻語義Tokenizer(在前一節中介紹)將視頻轉換為離散的分詞序列,實現文本與視頻的跨模態融合。

可控生成條件:引入幀條件和運動分數條件等控制條件,增強對生成視頻的控制能力,以滿足不同場景的需求。

模型結構與訓練:采用LLaMA模型結構,從頭開始訓練,并使用交叉熵損失函數,確保模型的生成性能和穩定性。

用于生成感知特征的擴散模型

目標:將上一章節中生成的語義tokens轉換為VAE潛在向量,作為視頻detokenizer,負責將語義tokens轉換成視頻。
架構:
- 采用類似于MMDiT的架構。
- 使用視頻tokenizer解碼器將語義tokens解碼為語義特征 \(\hat{F}\)。
- 以語義特征 \(\hat{F}\) 作為條件,指導擴散模型生成視頻。
- 引入類似于ControlNet風格的控制模塊,基于語義特征指導模型生成感知特征。在訓練期間,主模型的參數保持不變,控制模塊復制主模型前半部分層的參數,并在經過一個用零初始化的線性層后添加到主模型的輸出。
- 為了使語義特征在空間維度上與目標VAE特征匹配,額外添加了一個上采樣模塊。
訓練:

Chunk-wise流式策略:

?
模型參數:
- 整個視頻detokenizer的總參數為3B,其中可訓練的控制模塊參數數量為1B。
- 以CogVideoX-2B模型作為視頻detokenizer的基礎模型。

為了不重復之前的表述,我將對這段內容進行重新組織和潤色,同時保留原文的核心觀點和信息,以下是改寫后的內容:

我們暫且不深入探討更多的實驗細節與評測數據,但可以肯定的是,該模型的表現無疑是處于行業頂尖水平(SOTA)。至于模型是否開源,目前尚未有明確消息。不過,LanDiff的成功無疑凸顯了混合架構在突破單一方法固有局限性方面的巨大潛力,為依據文本描述生成連貫、語義忠實且視覺效果卓越的視頻開辟了新的道路。當下,從單模態生成邁向多模態生成,從Janus到dLLM,越來越多的研究致力于實現語言模型與擴散模型的融合。基于此,我們有充分的理由相信,文本到視頻生成技術的融合與成功,必將為創意表達與內容創作注入新的活力,帶來前所未有的機遇。

開源地址:LanDiff

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/901440.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/901440.shtml
英文地址,請注明出處:http://en.pswp.cn/news/901440.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【本地圖床搭建】寶塔+Docker+MinIO+PicGo+cpolar:打造本地化“黑科技”圖床方案

寫在前面:本博客僅作記錄學習之用,部分圖片來自網絡,如需引用請注明出處,同時如有侵犯您的權益,請聯系刪除! 文章目錄 前言寶塔安裝DockerMinIO 安裝與設置cploar內網穿透PicGo下載與安裝typora安裝總結互動…

centos-LLM-生物信息-BioGPT-使用1

參考: GitHub - microsoft/BioGPT https://github.com/microsoft/BioGPT BioGPT:用于生物醫學文本生成和挖掘的生成式預訓練轉換器 |生物信息學簡報 |牛津學術 — BioGPT: generative pre-trained transformer for biomedical text generation and mini…

高效爬蟲:一文掌握 Crawlee 的詳細使用(web高效抓取和瀏覽器自動化庫)

更多內容請見: 爬蟲和逆向教程-專欄介紹和目錄 文章目錄 一、Crawlee概述1.1 Crawlee介紹1.2 為什么 Crawlee 是網頁抓取和爬取的首選?1.3 為什么使用 Crawlee 而不是 Scrapy1.4 Crawlee的安裝二、Crawlee的基本使用2.1 BeautifulSoupCrawler的使用方式2.2 ParselCrawler的使…

架構總覽怎么寫,才算工業級?

??系統架構文檔是整個項目最重要的起點,但很多人第一章就“寫穿了”: 不是寫得太細,就是沒有重點。想要寫出高質量、能協作、能傳承的架構文檔,這一篇會告訴你應該怎么做—— ? 架構總覽的終極目標 明確邊界、定義角色、畫清數據流 別講執行細節,別深入函數調用。 ? 架…

優先級隊列(堆二叉樹)底層的實現:

我們繼續來看我們的優先級隊列: 優先級隊列我們說過,他也是一個容器適配器,要依賴我們的容器來存儲數據; 他的第二個參數就是我們的容器,這個容器的默認的缺省值是vector,然后他的第三個參數,我…

GIC驅動程序分析

今天呢,我們就來具體的講一下GIC的驅動源碼啦,這個才是重點來著,我們來看看: GIC中的重要函數和結構體: 沿著中斷的處理流程,GIC涉及這4個重要部分: CPU從異常向量表中調用handle_arch_irq&am…

java操作redis庫,開箱即用

application.yml spring:application:name: demo#Redis相關配置redis:data:# 地址host: localhost# 端口,默認為6379port: 6379# 數據庫索引database: 0# 密碼password:# 連接超時時間timeout: 10slettuce:pool:# 連接池中的最小空閑連接min-idle: 0# 連接池中的最…

Cribl 通過Splunk search collector 來收集數據

今天利用Spliunk search collector 來收集數據啦:還是要先cribl 的官方文檔: Splunk Search Collector | Cribl Docs Splunk Search Collector Cribl Stream supports collecting search results from Splunk queries. The queries can be both simple and complex, as well a…

What Was the “Game Genie“ Cheat Device, and How Did It Work?

什么是“Game Genie”作弊裝置,它是如何工作的? First released in 1991, the Game Genie let players enter special codes that made video games easier or unlocked other functions. Nintendo didnt like it, but many gamers loved it. Heres wha…

位運算題目:連接連續二進制數字

文章目錄 題目標題和出處難度題目描述要求示例數據范圍 解法思路和算法代碼復雜度分析 題目 標題和出處 標題:連接連續二進制數字 出處:1680. 連接連續二進制數字 難度 5 級 題目描述 要求 給定一個整數 n \texttt{n} n,將 1 \text…

第十六屆藍橋杯Java b組(試題C:電池分組)

問題描述: 輸入格式: 輸出格式: 樣例輸入: 2 3 1 2 3 4 1 2 3 4 樣例輸出: YES NO 說明/提示 評測用例規模與約定 對于 30% 的評測用例,1≤T≤10,2≤N≤100,1≤Ai?≤10^3。對于 100…

63. 評論日記

2025年4月14日18:53:30 雷軍這次是真的累了_嗶哩嗶哩_bilibili

電商中的訂單支付(內網穿透)

支付頁面 接口文檔 Operation(summary"獲取訂單信息") GetMapping("auth/{orderId}") public Reuslt<OrderInfo> getOrderInfo(Parameter(name"orderId",description"訂單id",requiredtrue) PathVaariable Long orderId){OrderI…

MySQL表的使用(4)

首先回顧一下之前所學的增刪查改&#xff0c;這些覆蓋了平時使用的80% 我們上節課中學習到了MySQL的約束 其中Primary key 是主鍵約束&#xff0c;我們今天要學習的是外鍵約束 插入一個表 外鍵約束 父表 子表 這條記錄中classid為5時候&#xff0c;不能插入&#xff1b; 刪除…

Kotlin作用域函數

在 Kotlin 中&#xff0c;.apply 是一個 作用域函數&#xff08;Scope Function&#xff09;&#xff0c;它允許你在一個對象的上下文中執行代碼塊&#xff0c;并返回該對象本身。它的設計目的是為了 對象初始化 或 鏈式調用 時保持代碼的簡潔性和可讀性。 // 不使用 apply va…

C#集合List<T>與HashSet<T>的區別

在C#中&#xff0c;List和HashSet都是用于存儲元素的集合&#xff0c;但它們在內部實現、用途、性能特性以及使用場景上存在一些關鍵區別。 內部實現 List&#xff1a;基于數組實現的&#xff0c;可以包含重復的元素&#xff0c;并且元素是按照添加的順序存儲的。 HashSet&…

Python 實現的運籌優化系統數學建模詳解(最大最小化模型)

一、引言 在數學建模的實際應用里&#xff0c;最大最小化模型是一種極為關鍵的優化模型。它的核心目標是找出一組決策變量&#xff0c;讓多個目標函數值里的最大值盡可能小。該模型在諸多領域&#xff0c;如資源分配、選址規劃等&#xff0c;都有廣泛的應用。本文將深入剖析最大…

數據庫的種類及常見類型

一&#xff0c;數據庫的種類 最常見的數據庫類型分為兩種&#xff0c;關系型數據庫和非關系型數據庫。 二&#xff0c;關系型數據庫介紹 生產環境主流的關系型數據庫有 Oracle、SQL Server、MySQL/MariaDB等。 關系型數據庫在存儲數據時實際就是采用的一張二維表&#xff0…

PE文件(十五)綁定導入表

我們在分析Windows自帶的一些程序時&#xff0c;常常發現有的程序&#xff0c;如notepad&#xff0c;他的IAT表在文件加載內存前已經完成綁定&#xff0c;存儲了函數的地址。這樣做可以使得程序是無需修改IAT表而直接啟動&#xff0c;這時程序啟動速度變快。但這種方式只適用于…

計算機網絡分層模型:架構與原理

前言 計算機網絡通過不同的層次結構來實現通信和數據傳輸&#xff0c;這種分層設計不僅使得網絡更加模塊化和靈活&#xff0c;也使得不同類型的通信能夠順利進行。在網絡協議和通信體系中&#xff0c;最廣為人知的分層模型有 OSI模型 和 TCP/IP模型。這兩種模型分別定義了計算…