Wan-Video 模型介紹:包括 Wan-Video-1.3B-T2V 和 Wan-Video-14B-T2V 兩個版本,分別支持文本到視頻(T2V)和圖像到視頻(I2V)生成。14B 版本需要更高的 VRAM 配置。
Wan2.1 是一套全面開放的視頻基礎模型,旨在突破視頻生成的界限。Wan2.1 具有以下幾個關鍵特性:
-
SOTA 性能:Wan2.1 在多個基準測試中始終優于現有的開源模型和最先進的商業解決方案。
-
支持消費級 GPU:T2V-1.3B 型號僅需 8.19 GB VRAM,可兼容幾乎所有消費級 GPU。它可在約 4 分鐘內用 RTX 4090 生成一段 5 秒的 480P 視頻(未使用量化等優化技術),性能甚至可與一些閉源型號相媲美。
-
多任務:Wan2.1 在文本轉視頻、圖像轉視頻、視頻編輯、文本轉圖像、視頻轉音頻方面表現出色,推動了視頻生成領域的發展。
-
視覺文本生成:Wan2.1是第一個能夠生成中英文文本的視頻模型,具有強大的文本生成功能,可增強其實際應用。
-
強大的視頻 VAE:Wan-VAE 提供卓越的效率和性能,可對任意長度的 1080P 視頻進行編碼和解碼,同時保留時間信息,使其成為視頻和圖像生成的理想基礎。
相關鏈接
-
推理鏈接:https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/wanvideo?continueFlag=79104c0ee2c31191b38f9b2c59a528d9
-
模型鏈接:https://huggingface.co/Wan-AI?continueFlag=79104c0ee2c31191b38f9b2c59a528d9
-
comfyui:https://github.com/kijai/ComfyUI-WanVideoWrapper?continueFlag=79104c0ee2c31191b38f9b2c59a528d9
-
官網:https://wan.video/welcome?spm=a2ty_o02.30011076.0.0.118ce41e6cpA82
介紹
Wan2.1-I2V-14B
I2V-14B 模型的表現超越了領先的閉源模型以及所有現有的開源模型,達到了 SOTA 性能。它能夠根據輸入的文本和圖像生成展示復雜視覺場景和運動模式的視頻,包括 480P 和 720P 分辨率的模型。
Wan2.1-T2V-14B
T2V-14B 模型在開源和閉源模型中創下了 SOTA 性能新高,展現出其能夠生成具有大量運動動態的高質量視覺效果的能力。它還是唯一能夠同時生成中英文文本的視頻模型,并支持 480P 和 720P 分辨率的視頻生成。
Wan2.1-T2V-1.3B
T2V-1.3B 模型支持在幾乎所有消費級 GPU 上生成視頻,僅需 8.19 GB BRAM 即可生成 5 秒的 480P 視頻,在 RTX 4090 GPU 上輸出時間僅為 4 分鐘。通過預訓練和蒸餾過程,它超越了更大的開源模型,甚至達到了與一些先進的閉源模型相當的性能。
Wan2.1 以主流的擴散變換器范式為基礎,通過一系列創新顯著提升了生成能力,包括我們新穎的時空變分自動編碼器 (VAE)、可擴展的預訓練策略、大規模數據構建和自動化評估指標。這些貢獻共同提升了模型的性能和多功能性。
3D 變分自動編碼器
我們提出了一種專為視頻生成而設計的新型 3D 因果 VAE 架構。我們結合了多種策略來改善時空壓縮、減少內存使用并確保時間因果關系。這些增強功能不僅使我們的 VAE 更高效、更可擴展,而且更適合與 DiT 等基于擴散的生成模型集成。
為了高效支持任意長視頻的編碼和解碼,我們在 3D VAE 的因果卷積模塊中實現了特征緩存機制。具體來說,視頻序列幀數遵循 1 + T 輸入格式,因此我們將視頻分成 1 + T/4 個塊,與潛在特征的數量一致。在處理輸入視頻序列時,該模型采用逐塊策略,其中每個編碼和解碼操作僅處理與單個潛在表示相對應的視頻塊。基于時間壓縮比,每個處理塊中的幀數最多限制為 4,從而有效防止 GPU 內存溢出。 實驗結果表明,我們的視頻 VAE 在兩個指標上都表現出了極具競爭力的性能,展現了卓越視頻質量和高處理效率的雙重優勢。值得注意的是,在相同的硬件環境(即單個 A800 GPU)下,我們的 VAE 的重建速度比現有的 SOTA 方法(即 HunYuanVideo)快 2.5 倍。由于我們的 VAE 模型的小尺寸設計和特征緩存機制,這種速度優勢將在更高分辨率下得到進一步體現。
視頻傳播 DiT
Wan2.1 采用主流 Diffusion Transformers 范式中的 Flow Matching 框架進行設計。在我們的模型架構中,我們利用 T5 Encoder 對輸入的多語言文本進行編碼,并在每個 Transformer 塊內加入交叉注意力機制,將文本嵌入到模型結構中。此外,我們還使用 Linear 層和 SiLU 層來處理輸入的時間嵌入,并分別預測六個調制參數。此 MLP 在所有 Transformer 塊之間共享,每個塊都學習一組不同的偏差。我們的實驗結果表明,在相同的參數規模下,這種方法可以顯著提高性能。因此,我們在 1.3B 和 14B 模型中都實現了此架構。
模型擴展和訓練效率
在訓練過程中,我們使用 FSDP 進行模型分片,當與上下文并行 (CP) 結合時,FSDP 組和 CP 組相交,而不是形成模型并行 (MP) 和 CP/DP 的嵌套組合。在 FSDP 中,DP 大小等于 FSDP 大小除以 CP 大小。在滿足內存和單批次延遲要求后,我們使用 DP 進行擴展。
在Inference過程中,為了降低擴展到多GPU時生成單個視頻的延遲,需要選擇Context Parallel進行分布式加速。另外當模型很大時,需要進行模型分片。
-
模型分片策略:對于 14B 這樣的大型模型,必須考慮模型分片。考慮到序列長度通常很長,FSDP 與 TP 相比通信開銷較小,并且允許計算重疊。因此,我們選擇 FSDP 方法進行模型分片,與我們的訓練方法一致(注意:僅分片權重而不實現數據并行)。
-
上下文并行策略:采用與訓練時相同的 2D 上下文并行方法:對外層(機器間)采用 RingAttention,對內層(機器內)采用 Ulysses。 在萬14B大模型上,采用2D Context Parallel和FSDP并行策略,DiT實現了接近線性的加速比,如下圖所示。
下表中我們測試了不同Wan2.1模型在不同GPU上的計算效率,結果以總時間(s)/峰值GPU內存(GB)的格式呈現。
圖像轉視頻
圖像到視頻 (I2V) 任務旨在根據輸入提示將給定圖像動畫化為視頻,從而增強視頻生成的可控性。我們引入額外的條件圖像作為第一幀來控制視頻合成。具體而言,條件圖像沿時間軸與零填充幀連接,形成指導幀。然后,這些指導幀由 3D 變分自動編碼器 (VAE) 壓縮為條件潛在表示。此外,我們引入了一個二元掩碼,其中 1 表示保留的幀,0 表示需要生成的幀。掩碼的空間大小與條件潛在表示匹配,但掩碼與目標視頻共享相同的時間長度。然后,將此掩碼重新排列為與 VAE 的時間步幅相對應的特定形狀。噪聲潛在表示、條件潛在表示和重新排列的掩碼沿通道軸連接并傳遞通過提出的 DiT 模型。由于 I2V DiT 模型的輸入通道比文本轉視頻 (T2V) 模型多,因此使用了額外的投影層,并用零值初始化。此外,我們使用 CLIP 圖像編碼器從條件圖像中提取特征表示。這些提取的特征由三層多層感知器 (MLP) 投影,用作全局上下文。然后通過解耦交叉注意力將此全局上下文注入 DiT 模型。
數據
我們整理并去重了一個包含大量圖像和視頻數據的候選數據集。在數據整理過程中,我們設計了一個四步數據清理流程,重點關注基本維度、視覺質量和運動質量。通過強大的數據處理流程,我們可以輕松獲得高質量、多樣化、大規模的圖像和視頻訓練集。
與 SOTA 的比較
為了評估 Wan2.1 的性能,我們將 Wan2.1 與領先的開源和閉源模型進行了比較。我們使用精心設計的 1,035 個內部提示集進行測試,這些提示集涵蓋了 14 個主要維度和 26 個子維度,涵蓋了運動質量、視覺質量、風格和多目標等方面。最終,我們根據每個維度的重要性通過加權平均計算總分。詳細結果如下表所示。從這些結果可以看出,我們的模型在與閉源和開源模型的全面比較中取得了最佳性能。