使用HunyuanVideo搭建文本生視頻大模型

1.摘要

HunyuanVideo是一個全新的開源視頻基礎模型,其視頻生成性能堪比領先的閉源模型,甚至超越它們。我們采用了多項模型學習的關鍵技術,通過有效的模型架構和數據集擴展策略,我們成功訓練了一個擁有超過 130 億個參數的視頻生成模型,使其成為所有開源模型中規模最大的模型。

部署環境為:linux服務器,GPU大小為64G

2. 安裝

2.1 下載項目代碼

git clone https://github.com/tencent/HunyuanVideo

cd HunyuanVideo

2.2 linux 環境部署

#1. Create conda environment

conda create -n HunyuanVideo python==3.10.9

# 2. Activate the environment

conda activate HunyuanVideo

# 3. Install PyTorch and other dependencies using conda

# For CUDA 11.8

conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=11.8 -c pytorch -c nvidia

# For CUDA 12.4

conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia

conda install pytorch-cuda -c pytorch -c nvidia

# 4. Install pip dependencies

python -m pip install -r requirements.txt

# 5. Install flash attention v2 for acceleration (requires CUDA 11.8 or above)

python -m pip install ninja

python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.6.3

# 6. Install xDiT for parallel inference (It is recommended to use torch 2.4.0 and flash-attn 2.6.3)

python -m pip install xfuser==0.4.0

2.3 模型下載

https://huggingface.co/tencent/HunyuanVideo/tree/refs%2Fpr%2F18

  • 需要下載hunyuan-video-t2v-720p,text_encoder,text_encoder_2,tokenizer,tokenizer_2這5個。
  • 下載完成以后需要把tokenizer里面的內容放到text_encoder內。需要把tokenizer_2里面的內容放到text_encoder_2內。

cp tokenizer/* text_encoder

cp tokenizer_2/* text_encoder_2

  • 把hunyuan-video-t2v-720p,text_encoder,text_encoder_2放到目錄HunyuanVideo/ckpts下面:
  • 目錄結構:

3. 生成視頻

3.1 本地生成

cd HunyuanVideo

CUDA_VISIBLE_DEVICES=0 python sample_video.py \

?????? --video-size 544 544 \

?????? --video-length 129 \

?????? --infer-steps 50 \

?????? --prompt "A cat walks on the grass, realistic style." \

?????? --flow-reverse \

?????? --use-cpu-offload \

?????? --save-path ./results

文本生成視頻成功,視頻時長5秒,生成用時18分鐘。

生成的視頻在results目錄下面:

最后去掉引號:

mv '2025-04-25-12:40:56_seed293232_A cat walks on the grass, realistic style..mp4' cat.mp4

3.2?運行Gradio Server

3.2.1?啟動服務

Python gradio_server.py --flow-reverse

由于本機端口占用,所以我把端口改成了8881.

運行成功:

3.2.2 網頁生成視頻

由于GPU才64G,所以Number of Inference Steps設置為20。

3.3 參數詳解

4. 可能遇到的問題及解決方法

4.1 問題1

TypeError: argument of type 'bool' is not iterable

ValueError: When localhost is not accessible, a shareable link must be created. Please set share=True or check your proxy settings to allow access to localhost.

解決方案:

pydantic這個包版本的問題,退回2.10.6版本即可 pip install pydantic==2.10.6,完美解決。

4.2 問題2

RuntimeError: Unable to find a valid cuDNN algorithm to run convolution

解決方案:

在gradio_server.py中增加以下代碼:

import torch

torch.backends.cudnn.benchmark = True

4.3 問題3?

ffmpy.ffmpy.FFExecutableNotFoundError: Executable 'ffprobe' not found

解決方案:

sudo apt-get install ffmpeg

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/78095.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/78095.shtml
英文地址,請注明出處:http://en.pswp.cn/web/78095.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

LabVIEW圓錐滾子視覺檢測系統

基于LabVIEW平臺的視覺檢測系統提高圓錐滾子內組件的生產質量和效率。通過集成高分辨率攝像頭和先進的圖像處理算法,系統能夠自動識別和分類產品缺陷,從而減少人工檢查需求,提高檢測的準確性和速度。 ?? ? 項目背景 隨著制造業對產品質…

mac 基于Docker安裝minio服務器

在 macOS 上基于 Docker 安裝 MinIO 是一個高效且靈活的方案,尤其適合本地開發或測試環境。以下是詳細的安裝與配置步驟,結合了最佳實踐和常見問題的解決方案: 一、安裝 Docker Desktop 下載安裝包 訪問 Docker 官網,下載適用于 …

EchoMimicV2 部署記錄

在這里插入代碼片# 虛擬環境配置 pip install pip -U pip install torch2.5.1 torchvision0.20.1 torchaudio2.5.1 xformers0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124 pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu1…

數據升降級:醫療數據的“時空穿梭“系統工程(分析與架構篇)

一、核心挑戰與量化分析 1. 版本演化困境的深度解析 (1) 格式斷層的結構化危機 數據轉換黑洞:某醫療信息平臺(2021-2023)統計顯示: 數據類型CDA R1→R2轉換失敗率R2→FHIR轉換失敗率關鍵失敗點診斷記錄28.4%19.7%ICD編碼版本沖突(18.7%)用藥記錄15.2%12.3%劑量單位標準化…

個人開發免費好用

聊一聊 現在輸入法非常多,有時候都不知道哪個更好用。 其實,只有多嘗試,才能找到適合自己的。 今天給大家分享一款輸入法,用起來比較順手,大家可以試試。 軟件介紹 BL輸入法 這是一款綠色純凈,安全放心…

Windows查看和修改IP,IP互相ping通

Windows系統 查看IP地址 winr 輸入cmd 打開終端使用 ipconfig 或 ipconfig -all 命令查看當前網絡 IPV4地址 Windows系統 修改IP地址 自動獲取IP(DHCP): 打開 控制面板,點擊 網絡和Internet。點擊 網絡和共享中心。選擇 更改適配…

【IP101】圖像處理基礎:從零開始學習顏色操作(RGB、灰度化、二值化、HSV變換)

🎨 顏色操作詳解 🌟 在圖像處理的世界里,顏色操作就像是一個魔術師的基本功。今天,讓我們一起來解鎖這些有趣又實用的"魔法"吧! 📚 目錄 通道替換 - RGB與BGR的"調包"游戲灰度化 - 讓…

windows系統搭建自己的ftp服務器,保姆級教程(用戶驗證+無驗證)

前言 最近在搭建環境時,我發現每次都需要在網上下載依賴包和軟件,這不僅耗時,而且有時還會遇到網絡不穩定的問題,導致下載速度慢或者中斷,實在不太方便。于是,我產生了搭建一個FTP服務器的想法。通過搭建FT…

藍橋杯 7. 晚會節目單

晚會節目單 原題目鏈接 題目描述 小明要組織一臺晚會,總共準備了 n 個節目。然而晚會時間有限,他只能從中選擇 m 個節目。 這 n 個節目是按照小明設想的順序給定的,順序不能改變。 小明發現觀眾對于晚會的喜歡程度與前幾個節目的好看程度…

JavaScript如何實現類型判斷?

判斷一個數據的類型,常用的方法有以下幾種: typeofinstanceofObject.prototype.toString.call(xxx) 下面來分別分析一下這三種方法各自的優缺點 typeof typeof的本意是用來判斷一個數據的數據類型,所以返回的也是一個數據類型。但是會遇到下…

哈希表筆記(四)Redis對比Java總結

文章目錄 一、基礎結構對比數據結構定義Java HashMapRedis字典 主要區別與設計思路 二、關鍵操作API對比初始化Java HashMapRedis字典 添加元素Java HashMapRedis字典 查找元素Java HashMapRedis字典 刪除元素Java HashMapRedis字典 擴容/重哈希操作Java HashMapRedis字典 三、…

docker拉取國內鏡像

1. 場景 最近整了一個tencent云服務器,想要玩一下docker,結果發現拉不下來,鏡像根本拉不下來。 2. 原因 1.云服務器無法訪問外網; 2. 國內的很多公有鏡像倉庫都被封了; 3. 推薦 https://zhuanlan.zhihu.com/p/713…

Codeforces Round 1008 (Div. 2) C

C 構造 題意:a的數據范圍大,b的數據范圍小,要求所有的a不同,考慮讓丟失的那個a最大即可。問題變成:構造一個最大的a[i] 思路:令a2是最大的,將a1,a3,a5....a2*n1,置為最大的b,將a4,a…

STM32 HAL庫實現USB虛擬串口

1. 引言 在嵌入式系統開發中,USB 虛擬串口是一種非常實用的功能。它允許 STM32 微控制器通過 USB 接口與計算機進行通信,就像使用傳統的串口一樣。這種方式不僅簡化了硬件設計,還提高了通信的靈活性和穩定性。STM32F407 系列微控制器具有強大…

JAVA EE_網絡原理_UDP與TCP

人海中未遇見時,我將獨自前行... ----------陳長生. 1.UDP協議 1.1.UDP協議端格式 UDP(用戶數據報協議)是由 源端口,目標端口,長度,校驗和,數據 5種結構組成。16位是UDP報文中字段的長度&#…

【免費】1992-2021年各省GDP數據/各省地區生產總值數據

1992-2021年各省GDP數據/各省地區生產總值數據 1、時間:1992-2021年 2、來源:國家統計局、統計年鑒 3、指標:GDP/地區生產總值 4、范圍:31省 5、指標說明:國內生產總值(GDP)是一個國家或地區在一定時期…

C++11新特性_范圍-based for 循環

based for 循環介紹 范圍 - based for 循環(Range-based for loop)是 C11 引入的一種新的 for 循環語法,它可以更簡潔地遍歷容器和數組。 遍歷數組:定義了一個整數數組 arr,使用范圍 - based for 循環 for (int num :…

【Bootstrap V4系列】學習入門教程之 頁面內容排版

Bootstrap V4 學習入門教程之 頁面內容排版 按鈕上的指針排版一、Global settings 全局設置二、Headings 標題2.1 Customizing headings 自定義標題2.2 Display headings 顯示標題2.3 Lead 引導 三、Blockquotes 塊引用3.1 Naming a source 命名源3.2 Alignment 對齊 四、Lists…

Flowable7.x學習筆記(十六)分頁查詢我的待辦

前言 我的待辦具體區分為3種情況,第一個就是辦理人指定就是我,我可以直接審批;第二種就是我是候選人,我需要先拾取任務然后再辦理;第三種是我是候選組,我需要切換到指定的角色去拾取任務再辦理。如果任務已…

EBO的使用

EBO 其實就是個索引,綁定在相應的VAO中,用來描述繪制順序。比如在OpenGL繪制三角形的時候,假設有四個頂點,我稱他們分別為1,2,3,4號頂點,常規繪制三角形函數是按三個點為一組&#x…