引子
前陣子寫了一篇Open-Sora1.0環境搭建&推理測試(Open-Sora1.0環境搭建&推理測試_自己搭建sora服務-CSDN博客,感興趣的童鞋,請移步)。Open-Sora1.1發布的時候,撇了一眼新聞。后面一轉頭,忘記這個事情了。無意間翻到其開源網站上,發現2024.6.17發布1.2版本了,那還是過來看看有什么長足的進步吧,呦呵,現在支持720P 高清視頻,質量和生成時長也有了突破性進展。OK,那就讓我們開始吧。
一、升級介紹
在上一個版本基礎上,引入了視頻壓縮網絡(Video Compression Network)、更優的擴散模型算法、更多的可控性,并利用更多的數據訓練出了 1.1B 的擴散生成模型。Stable Diffusion 3,最新的擴散模型,通過采用了 rectified flow 技術替代 DDPM,顯著提升了圖片和視頻生成的質量。盡管 SD3 的 rectified flow 訓練代碼尚未公開,但潞晨 Open-Sora 團隊已經基于 SD3 的研究成果,提供了一套完整的訓練解決方案,包括:
(1)簡單易用的整流(rectified flow)訓練
(2)用于訓練加速的 Logit-norm 時間步長采樣
(3)基于分辨率和視頻長度的時間步長采樣
二、環境安裝
(1)模型下載
https://huggingface.co/hpcai-tech/OpenSora-STDiT-v3/tree/main
https://huggingface.co/hpcai-tech/OpenSora-VAE-v1.2/tree/main
https://huggingface.co/PixArt-alpha/pixart_sigma_sdxlvae_T5_diffusers/tree/main/vae
(2)代碼下載
git clone GitHub - hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All
三、推理測試
docker run -it --gpus=all --rm -v /datas/work/zzq/:/workspace open-sora:v1.0 bash
pip install -v .
git clone GitHub - PixArt-alpha/PixArt-sigma: PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
cd PixArt-sigma
pip install -r requirements.txt
注:open-sora:v1.0為上一篇OpenSora博文安裝的docker鏡像名稱
修改代碼
修改代碼 vi /opt/conda/lib/python3.10/site-packages/opensora/models/vae/vae.py
python scripts/inference.py configs/opensora-v1-2/inference/sample.py --num-frames 4s --resolution 720p --aspect-ratio 9:16 --num-sampling-steps 30 --flow 5 --aes 6.5 --prompt "a beautiful waterfall"
顯存不夠,改小分辨率
python scripts/inference.py configs/opensora-v1-2/inference/sample.py --num-frames 4s --resolution 144p --aspect-ratio 9:16 --num-sampling-steps 30 --flow 5 --aes 6.5 --prompt "a beautiful waterfall"
生成效果如下
OpenSora1.2版本視頻