Wan2 1-VACE

Wan2 1-VACE

pingmian/2025/6/30 16:39:30/文章來源:https://blog.csdn.net/m0_68784427/article/details/148999585

簡介

VACE是阿里新開源的視頻編輯/生成框架，號稱能夠執行任意的視頻編輯/生成。總體而言，該模型在整體結構上并沒有太大改變，僅僅是在原Wan2.1模型的基礎上，加了一個接受mask和視頻輸入的controlnet而已。但是這篇文章認為，所有的圖片編輯/生成任務，可以通過一個統一的框架完成。筆者認為，這種思想才是本文的價值所在。這里需要特別注意，VACE框架，在模型層面上，接受的輸入有三個：文本prompt、視頻、mask，且這三者均是必需的。

模型結構

我們先來大致看一眼模型結構：
在這里插入圖片描述

改圖直接從原始論文中截取，左側的灰色方塊表示了采用的transformer結構，其中a只是例子。實際上采用的是b，文章中將其描述為上下文適配器微調。實際上就是一個controlnet的結構。右側的黃色塊則表示了該controlnet結構，或者說上下文適配器，的輸入輸出：

輸入：

reactive frame（反應幀，需要修改的像素）
inactivate frame （非活動幀，不需要修改的像素）
mask

可以看到前兩者是相反的概念，只需要原始視頻和mask即可得到。實際調用的時候也是只需要輸入原始視頻和mask。

輸出：

上下文編碼

輸出很簡單，就是上下文編碼，實際上就是把該模塊的所有輸入編碼到了一起。

其余流程與正常的視頻生成模型的流程一致，此處不再展開。

統一的視頻編輯/生成架構

文章認為，所有的視頻編輯/生成任務都可以歸類于以下4種任務或其組合：

t2v 文本到視頻
r2v 參考到視頻，即給定參考圖，根據參考圖生成視頻，參考圖可以是背景也可以是前景
v2v 視頻到視頻，例如黑白視頻上色，風格遷移等
mv2v（mask video to video）局部編輯，例如框選出視頻中的貓，將其換成狗

其他任務，如根據參考圖進行局部編輯，可以視作是r2v和mv2v這兩種基本任務的組合。

也就是說，僅需要用一個框架定義好以上4種任務如何執行，便可以實現任意視頻生成/編輯任務。

那么，這個框架需要如何定義呢？作者給出了如下表格：
在這里插入圖片描述

此處對該表格做個簡單的介紹，但是在此之前請記住VACE框架，在模型層面上，接受的輸入有三個：文本prompt、視頻、mask，且這三者均是必需的。

如果是t2v，文生視頻任務，那么只需要將原始視頻全部初始化為0，并將mask設為全白（即每一幀都需要完全重畫）
如果是r2v，參考到視頻任務，那么只需要把參考圖拼在0初始化的視頻開頭，mask設置為參考圖所在的那幾幀全黑（完全不重畫），后續的所有幀全白（全部重畫）
如果是v2v，視頻到視頻，那就直接輸入參考視頻，然后將mask設置為全白（每一幀都要重畫）
如果是mv2v，只需要在v2v的基礎上，將全白的mask修改為正常的mask即可

那么，其他任務怎么通過這些任務的組合來完成呢？就拿前面提到的根據參考圖進行局部編輯為例，只需要把參考圖拼在視頻開頭，然后原本的mask視頻前面拼接上幾個全黑的幀即可。

性能評價

文中規定的這幾個任務表現還不錯，但是組合起來之后可能需要一定程度上的微調。如果是根據參考圖進行局部編輯，模型對參考圖的跟隨能力比較弱。

速度請參考官方文檔，我個人認為1.3B的速度還是相當快的，內存占用也不算高。

視頻長度方面，模型默認處理81幀，不過筆者目前將其拓展為153幀，看起來質量沒有明顯下滑。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/86777.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/86777.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/86777.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

基于 opencv+yolov8+easyocr的車牌追蹤識別

基于 opencv+yolov8+easyocr的車牌追蹤識別

（本項目所有代碼打包至我的資源中，大家可在我的文章底部選擇下載） 目錄需求實現效果學習視頻大致思路代碼實現資源下載需求通過車輛識別技術，識別視頻中每個車輛及其車牌號，車輛應進行追蹤，避免重復…

閱讀更多...

sqlserver函數與過程（二）

sqlserver函數與過程（二）

過程 SQLserver 過程是具有特定功能，可多次對數據表操作的獨立模塊。返回值通常用return 返回整數 0，1…。(可選）也可通過output 參數或select 語句返回結果集。 1.過程的定義本過程定義了一個過程，輸入一個動態SQL語句&#…

閱讀更多...

OpenCV學習3

OpenCV學習3

1、創建圖像窗口滑動條 OpenCV 4中通過createTrackbar()函數在顯示圖像的窗口上創建滑動條。 int cv::createTrackbar(const String &trackbarname,const String &winname, int *value, int count, TrackbarCallback onChange 0, void *us…

閱讀更多...

SRS流媒體服務器之本地測試rtc推流bug

SRS流媒體服務器之本地測試rtc推流bug

SRS環境版本 commit 44f0c36b61bc7c3a1d51cb60be0ec184c840f09d Author: winlin <winlinvip.126.com> Date: Wed Aug 2 10:34:41 2023 0800 Release v4.0-r5, 4.0 release5, v4.0.271, 145574 lines. bug1: 無法推流 WebRTC推流必須是HTTPS或者localhost：Ht…

閱讀更多...

物理服務器是指的什么？作用有哪些？-哈爾濱云前沿

物理服務器是指的什么？作用有哪些？-哈爾濱云前沿

物理服務器是一種基于傳統硬件架構構建的服務器，物理服務器是具有處理器、硬盤和網絡接口等硬件組件的獨立服務器，可以用于托管和存儲數據服務，，是計算機網絡的核心組件之一，本文就來詳細了解一下物理服務器。物理服務…

閱讀更多...

Lua現學現賣

Lua現學現賣

一、Lua的變量類型全局變量：MyVar 局部變量：local MyVar 二、Lua的數據類型 1.nil：一個空值類似C的nullptr 2.Boolean：true/false 類似C的bool 3.string：字符串類似C的std::string 4.Number：數字類似C…

閱讀更多...

（24）如何在 Qt 里創建 c++ 類，以前已經學習過如何在 Qt 里引入資源圖片文件。以及如何為繼承于 Qt已有類的自定義類重新實現虛函數

（24）如何在 Qt 里創建 c++ 類，以前已經學習過如何在 Qt 里引入資源圖片文件。以及如何為繼承于 Qt已有類的自定義類重新實現虛函數

（1） 如何在Qt里創建 c 類 ： 效果圖如下 ： （2）開始完善自定義類里面的成員函數 ： 接著 ： 以及 ： 接著重新實現這些繼承來的虛函數就可以了。 （3&#xff09…

閱讀更多...

怎樣優化HDFS的網絡傳輸

怎樣優化HDFS的網絡傳輸

優化HDFS（Hadoop Distributed File System）的網絡傳輸可以從多個方面入手，以下是一些常見的優化策略： 1. 網絡硬件升級增加帶寬：使用更高帶寬的網絡設備，如10Gbps或更高速度的交換機和網卡。減少延遲&am…

閱讀更多...

深入探索 Pdfium.Net：在 .NET 中處理和渲染 PDF 文件

深入探索 Pdfium.Net：在 .NET 中處理和渲染 PDF 文件

在現代軟件開發中，PDF 文件的處理變得愈加重要，尤其是在文檔管理、報表生成和在線內容展示等領域。為了高效地處理和渲染 PDF 文件，開發者通常會選擇一些強大的 PDF 處理庫。而 Pdfium.Net，作為 PDFium 庫的 .NET 封裝&#xff0c…

閱讀更多...

當無人機遇到AI智能體：多領域自主空中智能和無人機智能體綜述

當無人機遇到AI智能體：多領域自主空中智能和無人機智能體綜述

作者：Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee 單位：康奈爾大學生物與環境工程系，希臘伯羅奔尼撒大學信息與電信系論文標題：UAVs Meet Agentic AI: A Multidomain Survey of Autonomous Aerial Intelligenc…

閱讀更多...

從 0 到 1 玩轉 React：打造你的趣味美食相冊

從 0 到 1 玩轉 React：打造你的趣味美食相冊

想象一下，你想制作一個超酷的 “美食相冊” 網頁，能展示各種美食圖片，還能隨時切換查看不同美食。這聽起來是不是很有趣？別擔心，React 能幫你輕松實現！作為前端開發領域最受歡迎的庫之一，React …

閱讀更多...

深入淺出：RocketMQ與Kafka的雙劍合璧，實現高可用與高吞吐

深入淺出：RocketMQ與Kafka的雙劍合璧，實現高可用與高吞吐

本文在創作過程中借助 AI 工具輔助資料整理與內容優化。圖片來源網絡。文章目錄引言一、RocketMQ與Kafka的江湖地位1.1 RocketMQ的獨門絕技1.2 Kafka的凌厲攻勢二、雙劍合璧的策略：雙寫隊列2.1 策略概述2.2 代碼實現三、雙劍合璧的實戰應用3.1 電商訂單處理3.2 …

閱讀更多...

Apache POI-02.入門案例-通過POI向Excel文件寫入文件內容-通過POI讀取Excel文件內容

Apache POI-02.入門案例-通過POI向Excel文件寫入文件內容-通過POI讀取Excel文件內容

一.入門案例向excel文件中寫入并讀出 package com.sky.test;import org.apache.poi.xssf.usermodel.XSSFCell; import org.apache.poi.xssf.usermodel.XSSFRow; import org.apache.poi.xssf.usermodel.XSSFSheet; import org.apache.poi.xssf.usermodel.XSSFWorkbook; impor…

閱讀更多...

MongoDB06 - MongoDB 地理空間

MongoDB06 - MongoDB 地理空間

MongoDB06 - MongoDB 地理空間文章目錄 MongoDB06 - MongoDB 地理空間一：地理空間數據基礎1：地理數據表示方式1.1：GeoJSON 格式1.2：傳統坐標對 2：地理空間索引2.1：2dsphere 索引2.2：2d索引2.3&…

閱讀更多...

Bugku——WEB篇（持續更新ing）

Bugku——WEB篇（持續更新ing）

目錄一、滑稽二、計算器方法一方法二三、alert 四、你必須讓他停下五、頭等艙六、GET 七、POST 方法一方法二八、source 九、矛盾十、備份是個好習慣一、滑稽 1.啟動環境后，訪問URL，頁面出現了一堆滑稽表情 2.按f12(或fnf12)打…

閱讀更多...

Linux 網絡命名空間的奧秘：深入解析struct net與內核模塊編譯陷阱

Linux 網絡命名空間的奧秘：深入解析struct net與內核模塊編譯陷阱

引言：網絡隔離的基石在Linux容器化技術（如Docker）和云計算網絡中，網絡命名空間是實現網絡隔離的核心機制。每個隔離的網絡環境都由一個關鍵的內核數據結構描述——struct net。這個結構體不僅是網絡隔離的技術基礎，也是內核開發者常遇到的編譯陷阱源頭。一、解剖網絡命…

閱讀更多...

idea的EasyCode插件連接瀚高數據庫(APP)

idea的EasyCode插件連接瀚高數據庫(APP)

文章目錄環境癥狀問題原因解決方案環境系統平臺：Linux x86-64 Red Hat Enterprise Linux 7 版本：5.6.5 癥狀客戶在idea工具中使用EasyCode插件連接瀚高數據庫的企業版時，連接設置的url中提示“jdbc:highgo不存在”的錯誤問題原因 E…

閱讀更多...

VMware設置虛擬機為固定IP

VMware設置虛擬機為固定IP

1. 修改虛擬網絡編輯器打開虛擬機網絡“編輯” 點擊“VMnet8” 選擇“NAT”模式修改網關：前面的不要修改，最后一位設置為“1”，然后確定記住這里的網關，后面的配置要保持一致設置子網IP和子網掩碼：一般就…

閱讀更多...

智核引擎融合生成式AI，重塑企業知識圖譜與研發創新范式！

智核引擎融合生成式AI，重塑企業知識圖譜與研發創新范式！

目錄系統架構設計核心實現步驟步驟1：知識圖譜構建與數據預處理步驟2：生成式AI與知識圖譜融合（RAG增強）步驟3：智能推理工作流核心流程可視化企業級部署方案性能優化策略應用場景示例結語本文將手把手實現企業級知識圖…

閱讀更多...

LogisticRegression(solver = ‘lbfgs‘)的ConvergenceWarning問題解決

LogisticRegression(solver = ‘lbfgs‘)的ConvergenceWarning問題解決

👦👦一個帥氣的boy，你可以叫我Love And Program 🖱 ?個人主頁：Love And Program的個人主頁 💖💖如果對你有幫助的話希望三連💨💨支持一下博主 LogisticRegression的Co…

閱讀更多...

最新文章