[ComfyUI]官方已支持Skyreels混元圖生視頻,速度更快,效果更好(附工作流)

一、介紹

昨天有提到官方已經支持了Skyreels,皆大歡喜,效果更好一些,還有GGUF量化版本,進一步降低了大家的顯存消耗。

今天就來分享一下官方流怎么搭建,我體驗下來感覺更穩了一些,生成速度也更快,不愧是官方。

二、相關模型

要使用官方版的混元視頻,你版本要更新到2月19號

然后其他模型很多是通用的,有幾個是新的,反正我網盤里面都有提供

首先是大模型,bf16或者fp8的,還有GGUF的回頭再說

加速lora:skyreels-i2v-smooth-lora-test-00000350.safetensors

CLIP有2個

VAE一個

三、工作流說明

不復雜,官方的流其實和Flux那一套很像,我一共分5個模塊和大家說說

  • 圖片處理,尺寸限制
  • 模型加載,各種模型
  • 提示詞描述
  • 采樣生成視頻
  • 視頻合并輸出

來,今天干貨很多,今年AI視頻領域要大爆發了,快跟上,付費的工具太貴了,還是多期待這種開源的能起來,這樣大家玩AI的成本才能降下來。

圖片處理

首先我們要對圖片做一些尺寸限制,目前 Skyreels 官方有給出推薦的圖片尺寸 544x97,最高幀率是97幀,在這個范圍內都可以調整。

所有我這里對寬高做了一些限制,這里面有個很細節的地方,我設置了短邊最少是544,高度跟著自適應,這種是適合豎屏的,如果是橫屏的你就自己調整一下。

尺寸越大,生成時間越長,關鍵是顯存占用就更多。

我測試了上百次,發現一個問題,之前我用倍數取整8倍,經常會報錯下面這個錯。

后來我調整到16倍了就不報錯了,這個細節大家自己遇到了也可以跟著調整。感覺這個對圖片尺寸有一些限制的。

模型加載,各種模型

這里核心就是加載了Skyreels的I2V模型,以及上篇提到的 加速穩定lora,這2個是核心,中間的Patch Sage Attention KJ以及Patch Model Patcher Order你可以隱藏掉。

我這里開啟了,是要用到SageAttention注意力量化加速的應用,可以提高視頻生成速度。
官網地址:https://github.com/thu-ml/SageAttention

簡單的理解,就是保持質量不變,減少生成時間,這個在視頻領域還是很重要的。

安裝這個,我折騰了好幾個小時,這個東西不能在線安裝,需要把源碼下載下來,本地編譯安裝,才是最新的SageAttention 2.0.1 版本。

安裝對本地的依賴版本要求比較高,我簡單的列一下:
官方也給出了基礎要求,torch要大于2.3,我是安裝2.5.1
CUDA也不能太低,我是安裝了12.4

安裝步驟如下

git clone https://github.com/thu-ml/SageAttention.git
cd sageattention 
python setup.py install  # or pip install -e .

安裝SageAttention之前,需要先安裝上了triton,這個之前一篇講Skyreels的文章說到過。

如果你折騰了半天安裝不上,也可以不用,直接參數選擇禁用即可。

另外,KJ大佬那邊模型也提供了GGUF的模型
https://huggingface.co/Kijai/SkyReels-V1-Hunyuan_comfy/tree/main

大家根據自己實際顯存大小挑選使用把推薦Q4、Q6都試試看,要使用GGUF,你那你需要安裝個GGUF插件。

提示詞描述

這個就是常規的提示詞模塊了,最終接入到InstructPixToPix條件。

要注意的是,這里正負提示詞都需要寫個FPS-24,聽說這樣生成的視頻質量會好一些。

這里的動畫描述詞要自己寫,我自己額外做了一個高級版本,通過圖片反推,再通過DeepSeek R1的思考,直接根據一張圖給出了最適合的圖片動畫描述詞。

效果還不錯,接入了目前最火的DeepSeek R1的API,免費額度也夠我用很久了。

這部分是付費,有需要的到時候再聯系我,教你如何接入DeepSeek R1。

采樣生成視頻

官方版本的采樣一共分兩次,第一次是增加了一些噪點后采樣一次,然后再接一個采樣,有個地方設置要注意,這里用了分離Sigmas,值記得要是總步數的一半,比如我們這里只要20步,那前后各10步。

空Latent視頻這里的總長度就是幀率,49幀就是大概2秒。

其他設置保持不變即可,最后出的視頻再加一個圖像調色后就可以生成視頻了

到這里后面其實還可以做一些優化,比如補幀、以及后期的視頻高清放大,都有方案,以后再慢慢分享,一次分享太多怕大家吸收不過來。

案例演示

下面是幾個我通過DeepSeek R1推理模型給出的動畫提示詞描述,效果感覺比我自己寫牛逼多了。

這些都是直接在ComfyUI工作流里面搞定的,都是自動化,非常方便。

藍色長發如綢緞般輕柔向右側飄動,發尾泛起細微光點漣漪,鱗片服飾下擺隨步伐節奏小幅起伏閃爍,犄角頭飾尖端緩慢上下點動,T臺兩側人群頭部同步小幅度左右轉動注視,背景波浪紋路由中心向兩側傳遞起伏光波,保持CGI材質的光澤流動感與暗色人魚裝束對比,所有動態元素運動軌跡相互牽引,服裝高光區域始終維持鱗片結構的數字渲染質感

混元圖生視頻1

棕色長發末端輕柔向右飄動, 仙女燈串光線柔和明暗起伏, 窗外云層緩慢向左平移, 木地板反光波紋輕微蕩漾, 灰色沙發靠墊隨呼吸節奏微微下陷, 保持寫實攝影質感與極簡家居構圖

自動寫提示詞2

黃葉沿弧形軌跡緩慢飄落,白色貨車沿路面輕微顛簸前行,輪胎勻速旋轉,炊煙呈波浪形向右側蜿蜒上升,左側郵箱因震動左右微幅擺動,云層整體向右緩慢平移,樹枝末梢隨風高頻低幅顫動,楓葉在飄落時伴隨自轉,保持半寫實筆觸的溫暖秋色質感,柏油路面反光點隨云影移動明暗交替,二樓窗簾呈現呼吸般的起伏,輪胎揚起的細小塵埃呈螺旋擴散,所有動態元素活動范圍嚴格控制在局部區域。

hunyuan-_00011

打傘少女的長發絲縷向右輕柔飄動,傘面以中心軸緩慢順時針旋轉,綠色植物葉片隨傘轉動方向起伏搖擺,熒光蝴蝶翅膀高頻顫動伴隨光粒上升軌跡,地面光暈以呼吸節奏明暗脈動,保持霓虹漸變筆觸與柔光彌散效果,禁止人物位移或鏡頭推拉,所有動態幅度控制在傘面投影區域內

hunyuan-_00018

少女騎行時棕色發絲輕柔后揚,藍色裙擺隨踏板節奏小幅起伏,自行車輪勻速轉動輻條閃爍,背景云層緩慢右飄形態緩慢拉伸,海面波紋橫向擴散推擠船體輕微上下浮動,保持動漫風格高飽和色塊與硬朗輪廓線,禁止鏡頭移動或比例變化,動態元素僅限發梢10%、裙擺15%、云層20%區域微動。

hunyuan-_00020

四、云端鏡像

大家如果沒有本地 ComfyUI 環境,或者本地顯卡配置低于 16G 的,可以使用嘟嘟部署的仙宮云鏡像,可直接加載使用。后續分享的工作流都會更像到鏡像中,一周更新一次,方便大學學習。

目前整合了2個鏡像,一個是Flux繪圖用的,另外一個是針對視頻模型的,之所以分開是一些模型兼容問題,分開比較好處理。

今天這個圖生視頻官方版本案例已經弄到鏡像上了,歡迎體驗,鏡像上我也安裝了加速的SageAttention 2.0.1,4秒視頻,5分鐘就出來了,速度和可靈官方接口差用差不多。

鏡像名稱:嘟嘟AI繪畫趣味學


云平臺鏡像地址:

https://www.xiangongyun.com/image/detail/d961a7dc-ade3-4bd5-a7c6-92ac49ff5e4b?r=37BCLY

https://www.xiangongyun.com/image/detail/81716d29-4461-4b0b-ba4b-7b9b7dd569d3?r=37BCLY

新用戶通過邀請碼注冊,總共可獲得 8 元獎勵,體驗 4 個小時的 4090 作圖時長

五、總結

以上就是ShyReels官方版工作流使用說明了,效果真的越來越好了。

簡單版本圖生視頻工作流是免費分享給大家。

但想要帶DeepSeek R1自動生成動畫提示詞模塊的,可以聯系我,這個是付費版本的,售價還是39.9,我會發你完整版工作流,再給你一個詳細的接入文檔,DeepSeek R1目前是主流大模型,接入ComfyUI可以做很多事情。

昨天剛幫一個影視機構搞定批量圖生視頻工作流,省下了大批成本,可靈目前還是偏貴,現在AI視頻開源模型越來越好,我相信以后AI視頻的價格是可以打下來的。

AI時代,值得我們去投入時間研究。

技術的迭代是飛快的,要關注最新的消息才不會掉隊。?

嘟嘟每天分享最新的ComfyUI技術前沿。?

本篇中的工作流和模型網盤鏈接:https://pan.quark.cn/s/ab576aa693ab

我是嘟嘟,專注于 AI 繪畫以及 AI 工具分享,歡迎來一起交流。?

如果覺得文章有幫助,請幫忙點贊收藏關注一下呦~?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/70795.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/70795.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/70795.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

B站pwn教程筆記-3

棧知識、部分保護措施 GDB顯示的棧地址有時候并不是可靠的地址,gdb也是用特殊的進程映像來拿地址的。且gdb默認關閉棧地址隨機化。但是,偏移量是沒有錯誤的。目前還沒學到咋解決 第一個棧幀是main函數棧幀,之前的一些系統函數什么的沒有棧幀…

Qt在Linux嵌入式開發過程中復雜界面滑動時卡頓掉幀問題分析及解決方案

Qt在Linux嵌入式設備開發過程中,由于配置較低,加上沒有GPU,我們有時候會遇到有些組件比較多的復雜界面,在滑動時會出現掉幀或卡頓的問題。要講明白這個問題還得從CPU和GPU的分工說起。 一、硬件層面核心問題根源剖析 CPU&#x…

Spring Boot 項目中,JDK 動態代理和 CGLIB 動態代理的使用

在 Spring Boot 項目中,JDK 動態代理和 CGLIB 動態代理都是實現 AOP (面向切面編程) 的重要技術。 它們的主要區別在于代理對象的生成方式和適用范圍。 下面詳細介紹它們的使用場景: 1. JDK 動態代理 (JDK Dynamic Proxy) 原理: JDK 動態代理…

OpenCV計算攝影學(2)圖像去噪函數denoise_TVL1()

操作系統:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 編程語言:C11 算法描述 原始-對偶算法是用于解決特定類型變分問題(即,尋找一個函數以最小化某個泛函)的算法。特別地,圖像…

在 Windows 下的 Docker 中安裝 R語言

以下是在 Windows 系統的 Docker 中安裝 R 語言的詳細教程,包括 Docker 的安裝、配置以及如何在容器中運行 R 語言的步驟。 步驟 1:安裝 Docker 下載 Docker Desktop 訪問 Docker 官方網站:Docker Desktop: The #1 Containerization Tool for…

【數據挖掘在量化交易中的應用:特征發現與特征提取】

好的,我將撰寫一篇關于金融領域數據挖掘的技術博客,重點闡述特征發現和特征提取,特別是在量化交易中的應用。我會提供具體的實操步驟,并結合Python和TensorFlow進行代碼示例。 完成后,我會通知您進行查看。 數據挖掘…

如何在視頻中提取關鍵幀?

在視頻處理中,提取關鍵幀是一項常見的任務。下面將介紹如何基于FFmpeg和Python,結合OpenCV庫來實現從視頻中提取關鍵幀的功能。 實現思路 使用FFmpeg獲取視頻的關鍵幀時間戳:FFmpeg是一個強大的視頻處理工具,可以通過命令行獲取…

九、數據治理架構流程

一、總體結構 《數據治理架構流程圖》(Data Governance Architecture Flowchart) 水平結構:流程圖采用水平組織,顯示從數據源到數據應用的進程。 垂直結構:每個水平部分進一步劃分為垂直列,代表數據治理的…

Docker 搭建 Gitlab 服務器 (完整詳細版)

參考 Docker 搭建 Gitlab 服務器 (完整詳細版)_docker gitlab-CSDN博客 Docker 安裝 (完整詳細版)_docker安裝-CSDN博客 Docker 日常命令大全(完整詳細版)_docker命令-CSDN博客 1、Gitlab鏡像 # 查找Gitlab鏡像 docker search gitlab # 拉取Gitlab鏡像 docker pull gitlab/g…

Spring MVC 框架學習筆記:從入門到精通的實戰指南

目錄 1. Spring MVC 概述 2. Spring MVC 項目搭建 3. Spring MVC 執行流程 4. Spring MVC RequestMapping 注解 5. Spring MVC 獲取請求參數 6. Spring MVC 常見注解 7. Spring MVC 響應處理 8. Spring MVC SSM 整合 9. Spring MVC 作用域傳參 10. Spring MVC 上傳 1…

RK3568開發筆記-AD7616調試筆記

目錄 前言 一、AD7616介紹 高分辨率 高速采樣速率 寬模擬輸入范圍 集成豐富功能 二、原理圖連接 三、設備樹配置 四、內核驅動配置 五、AD芯片測試 總結 前言 在嵌入式數據采集領域,將模擬信號精準轉換為數字信號至關重要。AD7616 作為一款性能卓越的 16 位模數轉換器…

【對話推薦系統】Towards Topic-Guided Conversational Recommender System 論文閱讀

Towards Topic-Guided Conversational Recommender System 論文閱讀 Abstract1 Introduction2 Related Work2.1 Conversation System2.2 Conversational Recommender System2.3 Dataset for Conversational Recommendation 3 Dataset Construction3.1 Collecting Movies for Re…

ASP.NET Core 8.0學習筆記(二十八)——EFCore反向工程

一、什么是反向工程 1.原則:DBFirst 2.反向工程:根據數據庫表來反向生成實體類 3.生成命令:Scaffold-DbContext ‘連接字符串’ 字符串示例: Server.;DatabaseDemo1;Trusted_Connectiontrue; MultipleActiveResultSets true;Tru…

springcloud和dubbo的區別

Spring Cloud和Dubbo作為微服務架構中非常流行的兩個框架,它們在多個方面存在顯著的區別。以下是對兩者區別的詳細分析: 1. 初始定位和生態環境 Spring Cloud:定位為微服務架構下的一站式解決方案,依托于Spring平臺,…

【大模型LLM】DeepSeek LLM Scaling Open-Source Language Models with Longtermism

深度探索LLM:以長期主義擴展開源語言模型 0.論文摘要 開源大語言模型(LLMs)的快速發展確實令人矚目。然而,以往文獻中描述的擴展規律得出了不同的結論,這為LLMs的擴展蒙上了一層陰影。我們深入研究了擴展規律&#…

C#快速調用DeepSeek接口,winform接入DeepSeek查詢資料 C#零門檻接入DeepSeek C#接入DeepSeek源代碼下載

下載地址<------完整源碼 在數字化轉型加速的背景下&#xff0c;企業應用系統對智能服務的需求日益增長。DeepSeek作為先進的人工智能服務平臺&#xff0c;其自然語言處理、圖像識別等核心能力可顯著提升業務系統的智能化水平。傳統開發模式下&#xff0c;C#開發者需要耗費大…

Qt常用控件之多行輸入框QTextEdit

多行輸入框QTextEdit QTextEdit 是一個多行輸入框控件&#xff0c;支持富文本和 markdown 格式&#xff0c;當文本內容超出編輯框的范圍時能自動提供滾動條。 QPlainTextEdit 是只支持富文本格式的多行輸入框&#xff0c;屬性和使用上與 QTextEdit 幾乎沒有區別。 QTextEdit屬…

VC++零基礎入門之系列教程 【附錄E MFC快速參考指南】

附錄E MFC快速參考指南 E.1 創建窗口 使用M F C CWnd wnd; W n d . C r e a t e E x ( E xSt y l e , C l a s s N a m e , Wi n d o w N a m e , S t y l e , x , y, Wi d t h , H e i g h t , P a r e n t , M e n u , P a r a m ) ; 使用A P I HWND hwnd=::CreateWi n d …

【前端】react+ts 輪播圖的實現

一、場景描述 在很多網站的頁面中都有輪播圖&#xff0c;所以我想利用react.js和ts實現一個輪播圖。自動輪播圖已經在前面實現過了&#xff0c;如&#xff1a;https://blog.csdn.net/weixin_43872912/article/details/145622444?sharetypeblogdetail&sharerId145622444&a…

python與C系列語言的差異總結(4)

如果具有傳統編譯型語言的經驗&#xff0c;大家可能會對是否使用字典而猶豫不決&#xff0c;擔心字典的效率比列表或數組低。事實上Python字典的執行速度已經相當快了。Python語言的許多內部特性都依賴于字典&#xff0c;為提高字典的效率已經投入了大量的心血。Python的所有數…