讓我們一同深入探索萬相 2.1 ,本文不僅介紹其文生圖和文生視頻的使用秘籍,還將手把手教你如何利用它實現圖生視頻。
如下為生成的視頻效果(我錄制的GIF動圖)
如下為輸入的圖片
目錄
1.阿里巴巴全面開源旗下視頻生成模型萬相2.1模型
2.手把手教你圖生視頻
1.阿里巴巴全面開源旗下視頻生成模型萬相2.1模型
2月25日晚,阿里巴巴宣布全面開源旗下視頻生成模型萬相2.1模型。據介紹,此次開源基于Apache2.0協議,14B和1.3B兩個參數規格的全部推理代碼和權重全部開源,同時支持文生視頻和圖生視頻任務,全球開發者可在Github、HuggingFace和魔搭社區下載體驗。
通義萬相是阿里云通義系列AI繪畫創作大模型,可輔助人類進行圖片創作,于2023年7月7日正式上線。在2024年9月19日的阿里云棲大會上,阿里發布了通義萬相視頻生成大模型。該模型可以生成影視級高清視頻,而且更能聽懂中國話,被外界稱為“最懂中國風”的視頻大模型。今年1月初,通義萬相視頻生成模型宣布升級至2.1版,憑借著優秀的表現,在權威評測榜單VBench中登上榜首。
阿里云旗下視覺生成基座模型萬相2.1(Wan)重磅開源,此次開源采用最寬松的Apache2.0協議,14B和1.3B兩個參數規格的全部推理代碼和權重全部開源,同時支持文生視頻和圖生視頻任務,全球開發者可在Github、HuggingFace和魔搭社區下載體驗。
據介紹,14B萬相模型在指令遵循、復雜運動生成、物理建模、文字視頻生成等方面表現突出,在權威評測集VBench中,萬相2.1以總分86.22%的成績大幅超越Sora、Luma、Pika等國內外模型,穩居榜首位置。1.3B版本測試結果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,同時能在消費級顯卡運行,僅需8.2GB顯存就可以生成高質量視頻,適用于二次模型開發和學術研究。
萬相2.1以總分86.22%的成績穩居VBench榜單第一
在算法設計上,萬相基于主流DiT架構和線性噪聲軌跡Flow Matching范式,研發了高效的因果3D VAE、可擴展的預訓練策略等。以3D VAE為例,為了高效支持任意長度視頻的編碼和解碼,萬相在3D VAE的因果卷積模塊中實現了特征緩存機制,從而代替直接對長視頻端到端的編解碼過程,實現了無限長1080P視頻的高效編解碼。此外,通過將空間降采樣壓縮提前,在不損失性能的情況下進一步減少了29%的推理時內存占用。
阿里通義萬相2.1文生圖和文生視頻可以查看如下鏈接
快速高效使用——阿里通義萬相2.1的文生圖、文生視頻功能-CSDN博客https://archie.blog.csdn.net/article/details/146015609?spm=1001.2014.3001.5502接下來手把手教你圖生視頻
2.手把手教你圖生視頻
首先登錄如下云服務器
https://cloud.lanyun.net/#/registerPage?promoterCode=11f606c51ehttps://cloud.lanyun.net/#/registerPage?promoterCode=11f606c51e進入后,點擊頁面上欄中的“應用市場”。
點擊阿里萬相2.1圖生視頻的部署按鈕?
在彈出的窗口中,選擇GPU型號4090?
等待 創建空間成功
然后點擊快速啟動應用?
跳轉到如下界面?
?1)創建工作流模板,工作流 >> 瀏覽模板
選擇480P模板
?2)上傳圖片
輸入想要生成的視頻信息?, 點擊最下方的執行
3)查看隊列,視頻生成中,需等待幾分鐘
?4)查看生成視頻