阿里發布新開源視頻生成模型Wan-Video,支持文生圖和圖生圖,最低6G就能跑,ComFyUI可用!

Wan-Video 模型介紹:包括 Wan-Video-1.3B-T2V 和 Wan-Video-14B-T2V 兩個版本,分別支持文本到視頻(T2V)和圖像到視頻(I2V)生成。14B 版本需要更高的 VRAM 配置。

Wan2.1 是一套全面開放的視頻基礎模型,旨在突破視頻生成的界限。Wan2.1 具有以下幾個關鍵特性:

  • SOTA 性能:Wan2.1 在多個基準測試中始終優于現有的開源模型和最先進的商業解決方案。

  • 支持消費級 GPU:T2V-1.3B 型號僅需 8.19 GB VRAM,可兼容幾乎所有消費級 GPU。它可在約 4 分鐘內用 RTX 4090 生成一段 5 秒的 480P 視頻(未使用量化等優化技術),性能甚至可與一些閉源型號相媲美。

  • 多任務:Wan2.1 在文本轉視頻、圖像轉視頻、視頻編輯、文本轉圖像、視頻轉音頻方面表現出色,推動了視頻生成領域的發展。

  • 視覺文本生成:Wan2.1是第一個能夠生成中英文文本的視頻模型,具有強大的文本生成功能,可增強其實際應用。

  • 強大的視頻 VAE:Wan-VAE 提供卓越的效率和性能,可對任意長度的 1080P 視頻進行編碼和解碼,同時保留時間信息,使其成為視頻和圖像生成的理想基礎。

相關鏈接

  • 推理鏈接:https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/wanvideo?continueFlag=79104c0ee2c31191b38f9b2c59a528d9

  • 模型鏈接:https://huggingface.co/Wan-AI?continueFlag=79104c0ee2c31191b38f9b2c59a528d9

  • comfyui:https://github.com/kijai/ComfyUI-WanVideoWrapper?continueFlag=79104c0ee2c31191b38f9b2c59a528d9

  • 官網:https://wan.video/welcome?spm=a2ty_o02.30011076.0.0.118ce41e6cpA82

介紹

Wan2.1-I2V-14B

I2V-14B 模型的表現超越了領先的閉源模型以及所有現有的開源模型,達到了 SOTA 性能。它能夠根據輸入的文本和圖像生成展示復雜視覺場景和運動模式的視頻,包括 480P 和 720P 分辨率的模型。

Wan2.1-T2V-14B

T2V-14B 模型在開源和閉源模型中創下了 SOTA 性能新高,展現出其能夠生成具有大量運動動態的高質量視覺效果的能力。它還是唯一能夠同時生成中英文文本的視頻模型,并支持 480P 和 720P 分辨率的視頻生成。

Wan2.1-T2V-1.3B

T2V-1.3B 模型支持在幾乎所有消費級 GPU 上生成視頻,僅需 8.19 GB BRAM 即可生成 5 秒的 480P 視頻,在 RTX 4090 GPU 上輸出時間僅為 4 分鐘。通過預訓練和蒸餾過程,它超越了更大的開源模型,甚至達到了與一些先進的閉源模型相當的性能。

Wan2.1 以主流的擴散變換器范式為基礎,通過一系列創新顯著提升了生成能力,包括我們新穎的時空變分自動編碼器 (VAE)、可擴展的預訓練策略、大規模數據構建和自動化評估指標。這些貢獻共同提升了模型的性能和多功能性。

3D 變分自動編碼器

我們提出了一種專為視頻生成而設計的新型 3D 因果 VAE 架構。我們結合了多種策略來改善時空壓縮、減少內存使用并確保時間因果關系。這些增強功能不僅使我們的 VAE 更高效、更可擴展,而且更適合與 DiT 等基于擴散的生成模型集成。

為了高效支持任意長視頻的編碼和解碼,我們在 3D VAE 的因果卷積模塊中實現了特征緩存機制。具體來說,視頻序列幀數遵循 1 + T 輸入格式,因此我們將視頻分成 1 + T/4 個塊,與潛在特征的數量一致。在處理輸入視頻序列時,該模型采用逐塊策略,其中每個編碼和解碼操作僅處理與單個潛在表示相對應的視頻塊。基于時間壓縮比,每個處理塊中的幀數最多限制為 4,從而有效防止 GPU 內存溢出。 實驗結果表明,我們的視頻 VAE 在兩個指標上都表現出了極具競爭力的性能,展現了卓越視頻質量和高處理效率的雙重優勢。值得注意的是,在相同的硬件環境(即單個 A800 GPU)下,我們的 VAE 的重建速度比現有的 SOTA 方法(即 HunYuanVideo)快 2.5 倍。由于我們的 VAE 模型的小尺寸設計和特征緩存機制,這種速度優勢將在更高分辨率下得到進一步體現。

視頻傳播 DiT

Wan2.1 采用主流 Diffusion Transformers 范式中的 Flow Matching 框架進行設計。在我們的模型架構中,我們利用 T5 Encoder 對輸入的多語言文本進行編碼,并在每個 Transformer 塊內加入交叉注意力機制,將文本嵌入到模型結構中。此外,我們還使用 Linear 層和 SiLU 層來處理輸入的時間嵌入,并分別預測六個調制參數。此 MLP 在所有 Transformer 塊之間共享,每個塊都學習一組不同的偏差。我們的實驗結果表明,在相同的參數規模下,這種方法可以顯著提高性能。因此,我們在 1.3B 和 14B 模型中都實現了此架構。

模型擴展和訓練效率

在訓練過程中,我們使用 FSDP 進行模型分片,當與上下文并行 (CP) 結合時,FSDP 組和 CP 組相交,而不是形成模型并行 (MP) 和 CP/DP 的嵌套組合。在 FSDP 中,DP 大小等于 FSDP 大小除以 CP 大小。在滿足內存和單批次延遲要求后,我們使用 DP 進行擴展。

在Inference過程中,為了降低擴展到多GPU時生成單個視頻的延遲,需要選擇Context Parallel進行分布式加速。另外當模型很大時,需要進行模型分片。

  • 模型分片策略:對于 14B 這樣的大型模型,必須考慮模型分片。考慮到序列長度通常很長,FSDP 與 TP 相比通信開銷較小,并且允許計算重疊。因此,我們選擇 FSDP 方法進行模型分片,與我們的訓練方法一致(注意:僅分片權重而不實現數據并行)。

  • 上下文并行策略:采用與訓練時相同的 2D 上下文并行方法:對外層(機器間)采用 RingAttention,對內層(機器內)采用 Ulysses。 在萬14B大模型上,采用2D Context Parallel和FSDP并行策略,DiT實現了接近線性的加速比,如下圖所示。

下表中我們測試了不同Wan2.1模型在不同GPU上的計算效率,結果以總時間(s)/峰值GPU內存(GB)的格式呈現。

圖像轉視頻

圖像到視頻 (I2V) 任務旨在根據輸入提示將給定圖像動畫化為視頻,從而增強視頻生成的可控性。我們引入額外的條件圖像作為第一幀來控制視頻合成。具體而言,條件圖像沿時間軸與零填充幀連接,形成指導幀。然后,這些指導幀由 3D 變分自動編碼器 (VAE) 壓縮為條件潛在表示。此外,我們引入了一個二元掩碼,其中 1 表示保留的幀,0 表示需要生成的幀。掩碼的空間大小與條件潛在表示匹配,但掩碼與目標視頻共享相同的時間長度。然后,將此掩碼重新排列為與 VAE 的時間步幅相對應的特定形狀。噪聲潛在表示、條件潛在表示和重新排列的掩碼沿通道軸連接并傳遞通過提出的 DiT 模型。由于 I2V DiT 模型的輸入通道比文本轉視頻 (T2V) 模型多,因此使用了額外的投影層,并用零值初始化。此外,我們使用 CLIP 圖像編碼器從條件圖像中提取特征表示。這些提取的特征由三層多層感知器 (MLP) 投影,用作全局上下文。然后通過解耦交叉注意力將此全局上下文注入 DiT 模型。

數據

我們整理并去重了一個包含大量圖像和視頻數據的候選數據集。在數據整理過程中,我們設計了一個四步數據清理流程,重點關注基本維度、視覺質量和運動質量。通過強大的數據處理流程,我們可以輕松獲得高質量、多樣化、大規模的圖像和視頻訓練集。

與 SOTA 的比較

為了評估 Wan2.1 的性能,我們將 Wan2.1 與領先的開源和閉源模型進行了比較。我們使用精心設計的 1,035 個內部提示集進行測試,這些提示集涵蓋了 14 個主要維度和 26 個子維度,涵蓋了運動質量、視覺質量、風格和多目標等方面。最終,我們根據每個維度的重要性通過加權平均計算總分。詳細結果如下表所示。從這些結果可以看出,我們的模型在與閉源和開源模型的全面比較中取得了最佳性能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/71760.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/71760.shtml
英文地址,請注明出處:http://en.pswp.cn/web/71760.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

閉包函數是什么?

閉包函數是 JavaScript 中一個非常重要且強大的概念,下面將從定義、形成條件、作用、示例以及優缺點等方面詳細介紹閉包函數。 定義 閉包是指有權訪問另一個函數作用域中的變量的函數。簡單來說,即使該函數執行完畢,其作用域內的變量也不會…

nuxt2 打包優化使用“compression-webpack-plugin”插件

在使用 Nuxt.js 構建項目時,為了提高性能,通常會考慮對靜態資源進行壓縮。compression-webpack-plugin 是一個常用的 Webpack 插件,用于在生產環境中對文件進行 Gzip 壓縮。這對于減少網絡傳輸時間和提高頁面加載速度非常有幫助。下面是如何在…

大型語言模型訓練的三個階段:Pre-Train、Instruction Fine-tuning、RLHF (PPO / DPO / GRPO)

前言 如果你對這篇文章可感興趣,可以點擊「【訪客必讀 - 指引頁】一文囊括主頁內所有高質量博客」,查看完整博客分類與對應鏈接。 當前的大型語言模型訓練大致可以分為如下三個階段: Pre-train:根據大量可獲得的文本資料&#…

模型壓縮技術(二),模型量化讓模型“輕裝上陣”

一、技術應用背景 在人工智能蓬勃發展的浪潮下,大模型在自然語言處理、計算機視覺等諸多領域大放異彩,像知名的GPT以及各類開源大語言模型,其規模與復雜度持續攀升。然而,這一發展也帶來了挑戰,模型越大,對…

機器學習:愚者未完成的詩篇(零)

當算法在數據海洋中打撈支離破碎的韻律時,機器學習系統展現出的智慧如同斷臂的維納斯雕像——完美與殘缺構成令人戰栗的美學悖論。愚者,在詞語的混沌中編織邏輯經緯,卻總在即將觸及詩性本質的瞬間,暴露出認知維度的致命裂隙。 一…

【算法題】小魚的航程

問題: 分析 分析題目,可以看出,給你一個開始的星期,再給一個總共天數,在這些天內,只有周六周日休息,其他全要游泳250公里。 那分支處理好啦 當星期為6時,需要消耗2天,…

GStreamer —— 2.5、Windows下Qt加載GStreamer庫后運行 - “教程5:GUI 工具包集成(gtk)“(附:完整源碼)

運行效果 簡介 上一個教程演示了時間管理及seek操作。本教程介紹如何將 GStreamer 集成到圖形用戶中 接口 (GUI) 工具包,如 GTK。基本上 GStreamer 負責媒體播放,而 GUI 工具包處理 用戶交互。最有趣的部分是那些 庫必須進行交互&…

NLTK和jieba

NLTK與jieba概述 自然語言處理(NLP)領域是計算機科學領域與人工智能領域中的一個重要方向,主要研究方向是實現人與計算機之間用自然語言進行有效通信的各種理論和方法。 在自然語言處理領域中,文本類型的數據占據著很大的市場&a…

linux查看定時任務與設置定時任務

一、查看定時任務 使用 cron 查看當前用戶的定時任務: bash crontab -l # 查看當前用戶的cron任務 查看系統級定時任務: bash 系統級任務通常存放在以下位置: cat /etc/crontab # 系統主配置文件 ls /etc/cron.d/ # 系統級任務片段 ls /…

DeepSeek-R1本地化部署(Mac)

一、下載 Ollama 本地化部署需要用到 Ollama,它能支持很多大模型。官方網站:https://ollama.com/ 點擊 Download 即可,支持macOS,Linux 和 Windows;我下載的是 mac 版本,要求macOS 11 Big Sur or later,Ol…

支持向量簡要理解

決策方程符合感知機區分理論,我們基于線性代數來看這滿足子空間理論,可以獲取得到超平面。 支持向量機的目標是尋找最與超平面最近的點的最大距離,而距離計算如上,符合數學上計算點到線(面)的距離公式。 …

使用OpenCV和MediaPipe庫——實現人體姿態檢測

目錄 準備工作如何在Windows系統中安裝OpenCV和MediaPipe庫? 安裝Python 安裝OpenCV 安裝MediaPipe 驗證安裝 代碼邏輯 整體代碼 效果展示 準備工作如何在Windows系統中安裝OpenCV和MediaPipe庫? 安裝Python 可以通過命令行運行python --versio…

5G學習筆記之BWP

我們只會經歷一種人生,我們選擇的人生。 參考:《5G NR標準》、《5G無線系統指南:如微見著,賦能數字化時代》 目錄 1. 概述2. BWP頻域位置3. 初始與專用BWP4. 默認BWP5. 切換BWP 1. 概述 在LTE的設計中,默認所有終端均能處理最大2…

創建Electron35 + vue3 + electron-builder項目,有很過坑,記錄過程

環境: node v20.18.0 npm 11.1.0 用到的所有依賴: "dependencies": {"core-js": "^3.8.3","vue": "^3.2.13","vue-router": "^4.5.0"},"devDependencies": {"ba…

Linux下安裝elasticsearch(Elasticsearch 7.17.23)

Elasticsearch 是一個分布式的搜索和分析引擎,能夠以近乎實時的速度存儲、搜索和分析大量數據。它被廣泛應用于日志分析、全文搜索、應用程序監控等場景。 本文將帶你一步步在 Linux 系統上安裝 Elasticsearch 7.17.23 版本,并完成基本的配置&#xff0…

NVIDIA顯卡驅動、CUDA、cuDNN 和 TensorRT 版本匹配指南

一、驅動安裝 1、下載驅動 前往NVIDIA驅動下載頁,輸入顯卡型號和操作系統類型,選擇≥目標CUDA版本要求的驅動版本?。 2、安裝驅動? ?Windows?:雙擊安裝包按向導操作。?Linux?:建議使用apt或官方.run文件安裝?。 3、驗證…

plt和cv2有不同的圖像表示方式和顏色通道順序

在處理圖像時,matplotlib.pyplot (簡稱 plt) 和 OpenCV (簡稱 cv2) 有不同的圖像表示方式和顏色通道順序。了解這些區別對于正確處理和顯示圖像非常重要。 1. 圖像形狀和顏色通道順序 matplotlib.pyplot (plt) 形狀:plt 通常使用 (height, width, cha…

基于PyTorch的深度學習5——神經網絡工具箱

可以學習如下內容: ? 介紹神經網絡核心組件。 ? 如何構建一個神經網絡。 ? 詳細介紹如何構建一個神經網絡。 ? 如何使用nn模塊中Module及functional。 ? 如何選擇優化器。 ? 動態修改學習率參數。 5.1 核心組件 神經網絡核心組件不多,把這些…

模擬調制技術詳解

內容摘要 本文系統講解模擬調制技術原理及Matlab實現,涵蓋幅度調制的四種主要類型:雙邊帶抑制載波調幅(DSB-SC)、含離散大載波調幅(AM)、單邊帶調幅(SSB)和殘留邊帶調幅(…

aws(學習筆記第三十一課) aws cdk深入學習(batch-arm64-instance-type)

aws(學習筆記第三十一課) aws cdk深入學習 學習內容: 深入練習aws cdk下部署batch-arm64-instance-type 1. 深入練習aws cdk下部署batch-arm64-instance-type 代碼鏈接 代碼鏈接 代碼鏈接 -> batch-arm64-instance-type之前代碼學習 之前學習代碼鏈接 -> aw…