阿里開源通義萬相 Wan2.1-VACE,開啟視頻創作新時代

0.前言

阿里巴巴于2025年5月14日正式開源了其最新的AI視頻生成與編輯模型——通義萬相Wan2.1-VACE。這一模型是業界功能最全面的視頻生成與編輯工具,能夠同時支持多種視頻生成和編輯任務,包括文生視頻、圖像參考視頻生成、視頻重繪、局部編輯、背景延展以及視頻時長延展等全系列基礎生成和編輯能力。

image-20250515102130124

image-20250515102329040

下面詳細給大家介紹一下它的技術和能力亮點。

1.核心技術與能力亮點

  1. 全面可控的生成能力****全面可控的生成能力
    通義萬相2.1-VACE 支持對視頻生成進行細粒度控制,可基于多種控制信號生成內容,包括:

    • 人體姿態光流

    • 結構保留

    • 空間運動

    • 色彩渲染
      同時,它還支持基于主體和背景參考的視頻生成。

      image-20250514233019828

  2. 強大的局部與全局編輯能力

    • 局部編輯:可指定視頻中的局部區域進行元素替換、添加或刪除。
    • 時間軸編輯:給定任意視頻片段,可通過首尾幀補全生成完整視頻。
    • 空間擴展:支持視頻擴展生成,典型應用包括視頻背景替換 —— 在保持主體不變的前提下,根據文本提示更換背景。

    image-20250514233053833

  3. 多形態信息輸入
    為解決專業創作者面臨的 “僅用文本提示難以精準控制元素一致性、布局、運動和姿態” 的局限,One2.1V 在 2.1 模型基礎上進一步升級,成為集成文本、圖像、視頻、掩碼和控制信號的統一視頻編輯模型:

    • 圖像輸入:支持參考圖像(物體相關)或視頻幀輸入。
    • 視頻輸入:可通過擦除部分內容、局部編輯或擴展等操作實現視頻重生成。
    • 掩碼輸入:用戶可通過 0/1 二進制信號指定編輯區域。
    • 控制信號輸入:支持深度圖、光流布局、灰度圖、線稿和姿態等信號。

    image-20250514233157823

  4. 統一的模型架構
    其核心技術突破在于采用單一模型處理傳統需要多個 “專業模型” 的任務,這得益于動態輸入模塊和繼承自 2.1 模型的強大視頻生成能力。這意味著,圖像參考(元素一致性)、視頻重創作(姿態遷移、運動 / 結構控制、色彩重渲染)、局部編輯(主體重塑 / 移除、背景 / 時長擴展)等功能均可通過 通義萬相2.1-VACE實現。

    視頻條件單元 VCU

    通義萬相團隊深入分析和總結了文生視頻、參考圖生視頻、視頻生視頻,基于局部區域的視頻生視頻4大類視頻生成和編輯任務的輸入形態,提出了一個更加靈活統一的輸入范式:視頻條件單元 VCU

    image-20250514233629046

    多模態輸入的token序列化FINE-TUNING

    image-20250515094315580

    在多模態輸入處理中,token 序列化是 Wan2.1 視頻擴散 Transformer 架構精準解析輸入信息的關鍵環節,而 VACE 成功攻克了這一難題。其處理流程可分為概念解耦、編碼轉換與特征融合三個核心步驟。

    在概念解耦階段,VACE 針對 VCU 輸入的 Frame 序列,創新性地將圖像元素按性質拆分。對于需保留原始視覺信息的 RGB 像素,以及承載控制指令等需重新生成的像素內容,分別構建可變幀序列與不變幀序列,為后續處理奠定基礎。

    進入編碼轉換環節,三類序列分別經歷專屬編碼路徑。可變幀序列與不變幀序列借助 VAE(變分自編碼器),轉化為與 DiT 模型噪聲維度匹配、通道數為 16 的隱空間表征;mask 序列則通過變形與采樣技術,編碼為時空維度統一、通道數達 64 的特征向量,實現不同模態數據的規范化表達。

    最終的特征融合步驟,VACE 將 Frame 序列與 mask 序列的隱空間特征深度整合,并通過可訓練參數模塊,精準映射為適配 DiT 模型的 token 序列,成功搭建起多模態輸入與 Transformer 架構之間的高效信息橋梁。

  5. 無縫的任務組合能力
    統一模型的一大優勢是天然支持自由組合各種基礎功能,無需為每種獨特功能單獨訓練新模型。典型組合場景包括:

    • 結合圖像參考與主體重塑,實現視頻物體替換。
    • 結合運動控制與幀參考,控制靜態圖像的姿態。
    • 結合圖像參考、幀參考、背景擴展與時長擴展,將靜態風景圖轉化為橫版視頻,并可添加參考圖像中的元素。

    image-20250514233430350

? 上面給大家展示了模型的能力, 效果到底如何呢?下面手把手帶大家在魔搭社區部署和搭建,我們感受一下把。

2.模型部署

模型社區啟動資源

? 登錄魔搭社區https://modelscope.cn/

? image-20250514234641226

搜索模型 通義萬相2.1-VACE-1.3B

image-20250514234742263

我們點擊右上角nodebook快速開發- 使用魔搭平臺提供的免費實例

image-20250514234925203

這里我們選擇PAI-DSW,選擇GPU環境,點擊啟動按鈕等待服務器分配資源

image-20250515115011600

啟動按鈕點擊后,我們稍等幾分鐘

image-20250515090704181

啟動完成后我們點擊查看nodebook進入調試界面

image-20250515090758060

模型下載

我們進入nodebook調試界面看到下面的界面

image-20250515001136448

接下來我們需要把模型權重下載下來。

我們打開一個終端命令

image-20250515001312585

在shell窗口中,我們輸入下面命令下載模型權重

pip install modelscope
modelscope download --model Wan-AI/Wan2.1-VACE-1.3B --local_dir  /mnt/workspace/Wan2.1-VACE-1.3B

image-20250515001443979

模型推理

接下來我們在github上下載模型推理代碼,我們在shell窗口輸入如下命令

git clone https://ghfast.top/https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

image-20250515002429222

接下來我們安裝一下模型推理依賴

pip install -r requirements.txt
pip install torch==2.5.1 torchvision==0.20.1 --index-url https://download.pytorch.org/whl/cu124

image-20250515002602296

image-20250515002821022

看到上面的畫面我們就完成推理代碼python依賴包的安裝。

檢查一下torch

pip show torch

image-20250515084513893

cli inference

接下來來我們使用cli 命令行測試驗證一下模型是否能夠推理成功

cd /mnt/workspace/Wan2.1
python generate.py --task vace-1.3B --size 832*480 --ckpt_dir /mnt/workspace/Wan2.1-VACE-1.3B --src_ref_images /mnt/workspace/Wan2.1/examples/girl.png,/mnt/workspace/Wan2.1/examples/i2v_input.JPG --prompt "在一個歡樂而充滿節日氣氛的場景中,穿著鮮艷紅色春服的小女孩正與她的小貓嬉戲。她的春服上繡著金色吉祥圖案,散發著喜慶的氣息,臉上洋溢著燦爛的笑容。小貓帶著眼睛。小女孩歡快地用手輕輕撫摸著小貓頭部,共同享受著這溫馨的時刻。周圍五彩斑斕的燈籠和彩帶裝飾著環境,陽光透過灑在她們身上,營造出一個充滿友愛與幸福的新年氛圍。"

程序運行加載模型,第一次運行會比較慢一點。

image-20250515093951313

推理結束

image-20250515095437857

完成推理后我們看一下視頻生成的效果

image-20250515120017414

手有點脫離身體,不過確實把小女孩和貓合成在一個視頻里面,哈哈。

gradio inference

接下來我們使用gradio web頁面的方式實現模型推理

cd /mnt/workspace/Wan2.1
python gradio/vace.py --ckpt_dir /mnt/workspace/Wan2.1-VACE-1.3B

頁面啟動完成

image-20250515095948507

頁面打開(我們借用官方的提供的gradio,頁面有點丑)

image-20250515100044314

先測試一個簡單,上傳一個貓頭鷹飛翔的圖片 ,圖片的長設置832 寬度設置480

貓頭鷹在天空中自由的飛翔

image-20250515105632880

生成的效果

image-20250515105655952

? 以上我們用2種方式實現了基于Wan2.1-VACE模型的推理。從提供的DEMO和模型的代碼里面來看有不少好玩的東西。由于我這里用了魔搭社區免費GPU算力,實現的推理效果可能和官方宣傳有點差異。但是我測試下來總體還可以,由于時間關系也沒有做詳細的測試。

3.總結:

今天主要帶大家了解了阿里巴巴于 2025 年 5 月 14 日開源的 AI 視頻生成與編輯模型 —— 通義萬相 Wan2.1-VACE,并詳細介紹了其部署和推理過程。該模型具有全面可控的生成能力、強大的局部與全局編輯能力、多形態信息輸入、統一的模型架構以及無縫的任務組合能力等亮點,是業界功能最全面的視頻生成與編輯工具。由于時間關系,本次測試未進行詳細的對比和評估。不過,從模型的功能和提供的 DEMO 來看,通義萬相 Wan2.1-VACE 具有很大的應用潛力,能夠為視頻生成和編輯領域帶來新的可能性。感興趣的小伙伴可以按照本文步驟去嘗試,探索該模型更多的應用場景。今天的分享就到這里結束了,我們下一篇文章見。

#WanVACE

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/83408.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/83408.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/83408.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

解決“VMware另一個程序已鎖定文件的一部分,進程無法訪問“

問題描述 打開VMware里的虛擬機時,彈出"另一個程序已鎖定文件的一部分,進程無法訪問"如圖所示: 這是VM虛擬機的保護機制。虛擬機運行時,為防止數據被篡改,會將所運行的文件保護起來。當虛擬機崩潰或者強制…

基于大數據的租房信息可視化系統的設計與實現【源碼+文檔+部署】

課題名稱 基于大數據的租房信息可視化系統的設計與實現 學 院 專 業 計算機科學與技術 學生姓名 指導教師 一、課題來源及意義 租房市場一直是社會關注的熱點問題。隨著城市化進程的加速,大量人口涌入城市,導致租房需求激增。傳統的租…

Vue3封裝公共圖片組件

對圖片加載做的處理: 圖片加載狀態響應式管理圖片訪問錯誤的處理機制圖片懶加載可通過slot支持自定義加載動畫其他監聽事件的處理及向上傳遞 …<!-- components/CustomImage.vue --> <template><div class="custom-image-wrapper"><!-- 主圖 -…

車道線檢測----CLRKDNet

今天的最后一篇 車道線檢測系列結束 CLRKDNet&#xff1a;通過知識蒸餾加速車道檢測 摘要&#xff1a;道路車道是智能車輛視覺感知系統的重要組成部分&#xff0c;在安全導航中發揮著關鍵作用。在車道檢測任務中&#xff0c;平衡精度與實時性能至關重要&#xff0c;但現有方法…

Python-感知機以及實現感知機

感知機定義 如果有一個算法&#xff0c;具有1個或者多個入參&#xff0c;但是返回值要么是0&#xff0c;要么是1&#xff0c;那么這個算法就叫做感知機&#xff0c;也就是說&#xff0c;感知機是個算法 感知機有什么用 感知機是用來表示可能性的大小的&#xff0c;我們可以認…

STM32 ADC+DMA+TIM觸發采樣實戰:避坑指南與源碼解析

知識點1【TRGO的介紹】 1、TRGO的概述 TRGO&#xff1a;Trigger Output&#xff08;觸發輸出&#xff09;&#xff0c;是定時器的一種功能。 它可以作為外設的啟動信號&#xff0c;比如ADC轉換&#xff0c;DAC輸出&#xff0c;DMA請求等。 對于ADC來說&#xff0c;可以通過…

Qwen3技術報告解讀

https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf 節前放模型&#xff0c;大晚上的發技術報告。通義&#xff0c;真有你的~ 文章目錄 預訓練后訓練Long-CoT Cold StartReasoning RLThinking Mode FusionGeneral RLStrong-to-Weak Distillation 模型結構…

【網絡編程】十、詳解 UDP 協議

文章目錄 Ⅰ. 傳輸層概述1、進程之間的通信2、再談端口號端口號的引出五元組標識一個通信端口號范圍劃分常見的知名端口號查看知名端口號協議號 VS 端口號 3、兩個問題一個端口號是否可以被多個進程綁定&#xff1f;一個進程是否可以綁定多個端口號&#xff1f; 4、部分常見指令…

實現RTSP低延遲播放器,挑戰與解決方案

隨著低延遲直播需求的快速增長&#xff0c;RTSP&#xff08;Real-Time Streaming Protocol&#xff09;播放器逐漸成為實時視頻流傳輸中的核心技術之一。與WebRTC&#xff08;Web Real-Time Communication&#xff09;相比&#xff0c;RTSP在實時性和網絡延遲方面面臨諸多挑戰&…

【springcloud學習(dalston.sr1)】Eureka單個服務端的搭建(含源代碼)(三)

該系列項目整體介紹及源代碼請參照前面寫的一篇文章【springcloud學習(dalston.sr1)】項目整體介紹&#xff08;含源代碼&#xff09;&#xff08;一&#xff09; springcloud學習&#xff08;dalston.sr1&#xff09;系統文章匯總如下&#xff1a; 【springcloud學習(dalston…

GPU與NPU異構計算任務劃分算法研究:基于強化學習的Transformer負載均衡實踐

點擊 “AladdinEdu&#xff0c;同學們用得起的【H卡】算力平臺”&#xff0c;H卡級別算力&#xff0c;按量計費&#xff0c;靈活彈性&#xff0c;頂級配置&#xff0c;學生專屬優惠。 引言 在邊緣計算與AI推理場景中&#xff0c;GPU-NPU異構計算架構已成為突破算力瓶頸的關鍵技…

探索C語言中的二叉樹:原理、實現與應用

一、引言 二叉樹作為一種重要的數據結構&#xff0c;在計算機科學領域有著廣泛的應用&#xff0c;無論是在操作系統的文件系統管理&#xff0c;還是在數據庫的索引構建中&#xff0c;都能看到它的身影。在C語言中&#xff0c;我們可以利用指針靈活地構建和操作二叉樹。接下來&…

使用libUSB-win32的簡單讀寫例程參考

USB上位機程序的編寫&#xff0c;函數的調用過程. 調用 void usb_init(void); 進行初始化 調用usb_find_busses、usb_find_devices和usb_get_busses這三個函數&#xff0c;獲得已找到的USB總線序列&#xff1b;然后通過鏈表遍歷所有的USB設備&#xff0c;根據已知的要打開USB設…

vue注冊用戶使用v-model實現數據雙向綁定

定義數據模型 Login.vue //定義數據模型 const registerData ref({username: ,password: ,confirmPassword: })使用 v-model 實現數據模型的key與注冊表單中的元素之間的雙向綁定 <!-- 注冊表單 --><el-form ref"form" size"large" autocompl…

【Arthas實戰】常見使用場景與命令分享

簡介: Arthas是一款Java診斷工具&#xff0c;適用于多種場景&#xff0c;如接口響應變慢、CPU占用過高、熱更新需求等。其核心命令包括實時監控面板&#xff08;dashboard&#xff09;、線程狀態查看&#xff08;thread&#xff09;、方法調用鏈路追蹤&#xff08;trace&#x…

Jenkins 最佳實踐

1. 在Jenkins中避免調度過載 過載Jenkins以同時運行多個作業可能導致資源競爭、構建速度變慢和系統性能問題。分配作業啟動時間可以防止瓶頸&#xff0c;并確保更順暢的執行。如何實現&#xff1f; 在Cron表達式中使用H&#xff1a;引入抖動&#xff08;jitter&#xff09;&a…

pytest框架 - 第二集 allure報告

一、斷言assert 二、Pytest 結合 allure-pytest 插件生成美觀的 Allure 報告 (1) 安裝 allure 環境 安裝 allure-pytest 插件&#xff1a;pip install allure-pytest在 github 下載 allure 報告文件 地址&#xff1a;Releases allure-framework/allure2 GitHub下載&#x…

人工智能時代:解鎖職業新身份,從“認證師”到“工程師”的進階之路

在人工智能技術浪潮席卷全球的今天,技術的飛速迭代正在重塑職業版圖。從算法優化到倫理決策,從系統測試到應用開發,AI技術不再只是程序員的專屬領域,而是成為各行各業從業者必須掌握的“生存技能”。當企業爭相布局AI賽道,個人如何在這場變革中搶占先機?答案或許藏在兩個…

【帶文檔】網上點餐系統 springboot + vue 全棧項目實戰(源碼+數據庫+萬字說明文檔)

&#x1f4cc; 一、項目概括 本系統共包含三個角色&#xff1a; 管理員&#xff1a;系統運營管理者 用戶&#xff1a;點餐消費用戶 美食店&#xff1a;上傳菜品與處理訂單的店鋪賬號 通過對這三類角色的權限與業務分工設計&#xff0c;系統實現了點餐流程的全鏈路數字化&a…

window nvidia-smi命令 Failed to initialize NVML: Unknown Error

如果驅動目錄下的可以執行&#xff0c;那可能版本原因 "C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi"復制"C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe"替換 C:\Windows\System32\nvidia-smi.exe 或者 把C:\Windows\System3…