Wan2 1-VACE

簡介

VACE是阿里新開源的視頻編輯/生成框架,號稱能夠執行任意的視頻編輯/生成。總體而言,該模型在整體結構上并沒有太大改變,僅僅是在原Wan2.1模型的基礎上,加了一個接受mask和視頻輸入的controlnet而已。但是這篇文章認為,所有的圖片編輯/生成任務,可以通過一個統一的框架完成。筆者認為,這種思想才是本文的價值所在。這里需要特別注意,VACE框架,在模型層面上,接受的輸入有三個:文本prompt、視頻、mask,且這三者均是必需的。

模型結構

我們先來大致看一眼模型結構:
在這里插入圖片描述

改圖直接從原始論文中截取,左側的灰色方塊表示了采用的transformer結構,其中a只是例子。實際上采用的是b,文章中將其描述為上下文適配器微調。實際上就是一個controlnet的結構。右側的黃色塊則表示了該controlnet結構,或者說上下文適配器,的輸入輸出:

輸入:

  1. reactive frame(反應幀,需要修改的像素)
  2. inactivate frame (非活動幀,不需要修改的像素)
  3. mask

可以看到前兩者是相反的概念,只需要原始視頻和mask即可得到。實際調用的時候也是只需要輸入原始視頻和mask。

輸出:

上下文編碼

輸出很簡單,就是上下文編碼,實際上就是把該模塊的所有輸入編碼到了一起。

其余流程與正常的視頻生成模型的流程一致,此處不再展開。

統一的視頻編輯/生成架構

文章認為,所有的視頻編輯/生成任務都可以歸類于以下4種任務或其組合:

  1. t2v 文本到視頻
  2. r2v 參考到視頻,即給定參考圖,根據參考圖生成視頻,參考圖可以是背景也可以是前景
  3. v2v 視頻到視頻,例如黑白視頻上色,風格遷移等
  4. mv2v(mask video to video)局部編輯,例如框選出視頻中的貓,將其換成狗

其他任務,如根據參考圖進行局部編輯,可以視作是r2v和mv2v這兩種基本任務的組合。

也就是說,僅需要用一個框架定義好以上4種任務如何執行,便可以實現任意視頻生成/編輯任務。

那么,這個框架需要如何定義呢?作者給出了如下表格:
在這里插入圖片描述

此處對該表格做個簡單的介紹,但是在此之前請記住VACE框架,在模型層面上,接受的輸入有三個:文本prompt、視頻、mask,且這三者均是必需的。

  • 如果是t2v,文生視頻任務,那么只需要將原始視頻全部初始化為0,并將mask設為全白(即每一幀都需要完全重畫)
  • 如果是r2v,參考到視頻任務,那么只需要把參考圖拼在0初始化的視頻開頭,mask設置為參考圖所在的那幾幀全黑(完全不重畫),后續的所有幀全白(全部重畫)
  • 如果是v2v,視頻到視頻,那就直接輸入參考視頻,然后將mask設置為全白(每一幀都要重畫)
  • 如果是mv2v,只需要在v2v的基礎上,將全白的mask修改為正常的mask即可

那么,其他任務怎么通過這些任務的組合來完成呢?就拿前面提到的根據參考圖進行局部編輯為例,只需要把參考圖拼在視頻開頭,然后原本的mask視頻前面拼接上幾個全黑的幀即可。

性能評價

文中規定的這幾個任務表現還不錯,但是組合起來之后可能需要一定程度上的微調。如果是根據參考圖進行局部編輯,模型對參考圖的跟隨能力比較弱。

速度請參考官方文檔,我個人認為1.3B的速度還是相當快的,內存占用也不算高。

視頻長度方面,模型默認處理81幀,不過筆者目前將其拓展為153幀,看起來質量沒有明顯下滑。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/86777.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/86777.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/86777.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于 opencv+yolov8+easyocr的車牌追蹤識別

(本項目所有代碼打包至我的資源中,大家可在我的文章底部選擇下載) 目錄 需求 實現效果 學習視頻 大致思路 代碼實現 資源下載 需求 通過車輛識別技術,識別視頻中每個車輛及其車牌號,車輛應進行追蹤,避免重復…

sqlserver函數與過程(二)

過程 SQLserver 過程是具有特定功能,可多次對數據表操作的獨立模塊。返回值通常用return 返回整數 0,1…。(可選)也可通過output 參數或select 語句返回結果集。 1.過程的定義 本過程定義了一個過程,輸入一個動態SQL語句&#…

OpenCV學習3

1、創建圖像窗口滑動條 OpenCV 4中通過createTrackbar()函數在顯示圖像的窗口上創建滑動條。 int cv::createTrackbar(const String &trackbarname,const String &winname, int *value, int count, TrackbarCallback onChange 0, void *us…

SRS流媒體服務器之本地測試rtc推流bug

SRS環境版本 commit 44f0c36b61bc7c3a1d51cb60be0ec184c840f09d Author: winlin <winlinvip.126.com> Date: Wed Aug 2 10:34:41 2023 0800 Release v4.0-r5, 4.0 release5, v4.0.271, 145574 lines. bug1: 無法推流 WebRTC推流必須是HTTPS或者localhost&#xff1a;Ht…

物理服務器是指的什么?作用有哪些?-哈爾濱云前沿

物理服務器是一種基于傳統硬件架構構建的服務器&#xff0c;物理服務器是具有處理器、硬盤和網絡接口等硬件組件的獨立服務器&#xff0c;可以用于托管和存儲數據服務&#xff0c;&#xff0c;是計算機網絡的核心組件之一&#xff0c;本文就來詳細了解一下物理服務器。 物理服務…

Lua現學現賣

一、Lua的變量類型 全局變量&#xff1a;MyVar 局部變量&#xff1a;local MyVar 二、Lua的數據類型 1.nil&#xff1a;一個空值 類似C的nullptr 2.Boolean&#xff1a;true/false 類似C的bool 3.string&#xff1a;字符串 類似C的std::string 4.Number&#xff1a;數字 類似C…

(24)如何在 Qt 里創建 c++ 類,以前已經學習過如何在 Qt 里引入資源圖片文件。以及如何為繼承于 Qt已有類的自定義類重新實現虛函數

&#xff08;1&#xff09; 如何在Qt里創建 c 類 &#xff1a; 效果圖如下 &#xff1a; &#xff08;2&#xff09;開始完善自定義類里面的成員函數 &#xff1a; 接著 &#xff1a; 以及 &#xff1a; 接著重新實現這些繼承來的虛函數就可以了。 &#xff08;3&#xff09…

怎樣優化HDFS的網絡傳輸

優化HDFS&#xff08;Hadoop Distributed File System&#xff09;的網絡傳輸可以從多個方面入手&#xff0c;以下是一些常見的優化策略&#xff1a; 1. 網絡硬件升級 增加帶寬&#xff1a;使用更高帶寬的網絡設備&#xff0c;如10Gbps或更高速度的交換機和網卡。減少延遲&am…

深入探索 Pdfium.Net:在 .NET 中處理和渲染 PDF 文件

在現代軟件開發中&#xff0c;PDF 文件的處理變得愈加重要&#xff0c;尤其是在文檔管理、報表生成和在線內容展示等領域。為了高效地處理和渲染 PDF 文件&#xff0c;開發者通常會選擇一些強大的 PDF 處理庫。而 Pdfium.Net&#xff0c;作為 PDFium 庫的 .NET 封裝&#xff0c…

當無人機遇到AI智能體:多領域自主空中智能和無人機智能體綜述

作者&#xff1a;Ranjan Sapkota, Konstantinos I. Roumeliotis, Manoj Karkee 單位&#xff1a;康奈爾大學生物與環境工程系&#xff0c;希臘伯羅奔尼撒大學信息與電信系 論文標題&#xff1a;UAVs Meet Agentic AI: A Multidomain Survey of Autonomous Aerial Intelligenc…

從 0 到 1 玩轉 React:打造你的趣味美食相冊

想象一下&#xff0c;你想制作一個超酷的 “美食相冊” 網頁&#xff0c;能展示各種美食圖片&#xff0c;還能隨時切換查看不同美食。這聽起來是不是很有趣&#xff1f;別擔心&#xff0c;React 能幫你輕松實現&#xff01;作為前端開發領域最受歡迎的庫之一&#xff0c;React …

深入淺出:RocketMQ與Kafka的雙劍合璧,實現高可用與高吞吐

本文在創作過程中借助 AI 工具輔助資料整理與內容優化。圖片來源網絡。 文章目錄 引言一、RocketMQ與Kafka的江湖地位1.1 RocketMQ的獨門絕技1.2 Kafka的凌厲攻勢 二、雙劍合璧的策略&#xff1a;雙寫隊列2.1 策略概述2.2 代碼實現 三、雙劍合璧的實戰應用3.1 電商訂單處理3.2 …

Apache POI-02.入門案例-通過POI向Excel文件寫入文件內容-通過POI讀取Excel文件內容

一.入門案例 向excel文件中寫入并讀出 package com.sky.test;import org.apache.poi.xssf.usermodel.XSSFCell; import org.apache.poi.xssf.usermodel.XSSFRow; import org.apache.poi.xssf.usermodel.XSSFSheet; import org.apache.poi.xssf.usermodel.XSSFWorkbook; impor…

MongoDB06 - MongoDB 地理空間

MongoDB06 - MongoDB 地理空間 文章目錄 MongoDB06 - MongoDB 地理空間一&#xff1a;地理空間數據基礎1&#xff1a;地理數據表示方式1.1&#xff1a;GeoJSON 格式1.2&#xff1a;傳統坐標對 2&#xff1a;地理空間索引2.1&#xff1a;2dsphere 索引2.2&#xff1a;2d索引2.3&…

Bugku——WEB篇(持續更新ing)

目錄 一、滑稽 二、計算器 方法一 方法二 三、alert 四、你必須讓他停下 五、頭等艙 六、GET 七、POST 方法一 方法二 八、source 九、矛盾 十、備份是個好習慣 一、滑稽 1.啟動環境后&#xff0c;訪問URL&#xff0c;頁面出現了一堆滑稽表情 2.按f12(或fnf12)打…

Linux 網絡命名空間的奧秘:深入解析struct net與內核模塊編譯陷阱

引言:網絡隔離的基石 在Linux容器化技術(如Docker)和云計算網絡中,網絡命名空間是實現網絡隔離的核心機制。每個隔離的網絡環境都由一個關鍵的內核數據結構描述——struct net。這個結構體不僅是網絡隔離的技術基礎,也是內核開發者常遇到的編譯陷阱源頭。 一、解剖網絡命…

idea的EasyCode插件連接瀚高數據庫(APP)

文章目錄 環境癥狀問題原因解決方案 環境 系統平臺&#xff1a;Linux x86-64 Red Hat Enterprise Linux 7 版本&#xff1a;5.6.5 癥狀 客戶在idea工具中使用EasyCode插件連接瀚高數據庫的企業版時&#xff0c;連接設置的url中提示“jdbc:highgo不存在”的錯誤 問題原因 E…

VMware設置虛擬機為固定IP

1. 修改虛擬網絡編輯器 打開虛擬機網絡“編輯” 點擊“VMnet8” 選擇“NAT”模式 修改網關&#xff1a;前面的不要修改&#xff0c;最后一位設置為“1”&#xff0c;然后確定 記住這里的網關&#xff0c;后面的配置要保持一致 設置子網IP和子網掩碼&#xff1a;一般就…

智核引擎融合生成式AI,重塑企業知識圖譜與研發創新范式!

目錄 系統架構設計核心實現步驟步驟1&#xff1a;知識圖譜構建與數據預處理步驟2&#xff1a;生成式AI與知識圖譜融合&#xff08;RAG增強&#xff09;步驟3&#xff1a;智能推理工作流 核心流程可視化企業級部署方案性能優化策略應用場景示例結語 本文將手把手實現企業級知識圖…

LogisticRegression(solver = ‘lbfgs‘)的ConvergenceWarning問題解決

&#x1f466;&#x1f466;一個帥氣的boy&#xff0c;你可以叫我Love And Program &#x1f5b1; ?個人主頁&#xff1a;Love And Program的個人主頁 &#x1f496;&#x1f496;如果對你有幫助的話希望三連&#x1f4a8;&#x1f4a8;支持一下博主 LogisticRegression的Co…