有哪些開源的視頻生成模型

在這里插入圖片描述

1. 阿里巴巴通義萬相2.1(WanX 2.1)

  • 技術架構:基于Diffusion Transformer(DiT)架構,結合自研的高效變分自編碼器(VAE)和Flow Matching訓練方案,支持時空上下文建模。
  • 參數規模:提供14B和1.3B兩種參數規格,后者支持本地部署(僅需8.2GB顯存)。
  • 生成能力
    • 支持無限長1080P視頻的高效編解碼,首次實現中文文字視頻生成。
    • 可生成復雜運鏡效果,并還原物理規律(如雨滴濺水效果)。
  • 應用場景:廣告設計、宣傳片、短視頻創作。
  • 性能指標
    • 在VBench評測中以86.22%得分位居榜首,超越Sora、Luma等模型。
    • 生成速度比原有SOTA模型快2.5倍,運動質量指標達商用級別。

2. 騰訊混元大模型(Hunyuan Video)

  • 技術架構:130億參數的圖生視頻模型,基于Hybrid-Mamba-Transformer混合架構,支持中英文輸入和多尺寸視頻生成。
  • 生成能力
    • 生成5秒短視頻,支持對口型、唱歌功能及動漫角色制作。
    • 提供視頻配音與數字人驅動功能。
  • 應用場景:寫實視頻、廣告、教育內容。
  • 性能指標
    • 在文本一致性、運動質量等評測維度領先,總體評分41.30%,顯著高于第二名。

3. 階躍星辰Step-Video-T2V

  • 技術架構:300億參數的Diffusion Transformer(DiT),采用Flow Matching訓練和3D全注意力機制,支持動態幅度與鏡頭軌跡控制。
  • 生成能力
    • 生成204幀(約8秒)540P視頻,支持復雜動作(如芭蕾舞)和物理規律復現。
    • 通過通道維度拼接技術保持畫面與原圖一致性。
  • 應用場景:動畫制作、短視頻創作、教育培訓。
  • 性能指標
    • 在VBench-I2V基準測試中達到SOTA級別,運動控制能力突出。

4. Open-Sora 2.0

  • 技術架構:基于3D自編碼器和MMDiT架構(Masked Motion Diffusion Transformer),11B參數,結合Flow Matching訓練。
  • 生成能力
    • 支持720P分辨率、24 FPS視頻生成,最長128幀,支持文生視頻(T2V)和圖生視頻(T2I2V)。
    • 訓練成本僅20萬美元(224張GPU),接近閉源模型性能。
  • 應用場景:影視預演、廣告創意、游戲開發。
  • 性能指標
    • VBench評測與Sora差距縮小至0.69%,用戶偏好測試超越HunyuanVideo等模型。

5. 昆侖萬維SkyReels-V1

  • 技術架構:13B參數,基于好萊塢影視數據訓練,集成3D因果卷積和自研推理優化框架「SkyReels-Infer」。
  • 生成能力
    • 支持33種微表情和400+自然動作組合,生成544P分辨率視頻。
    • 單卡4090推理僅需80秒,支持分布式多卡并行。
  • 應用場景:AI短劇創作、電影特效。
  • 性能指標
    • 在開源視頻生成模型中性能最強,畫面達電影級質感。

6. LTX Video

  • 技術架構:基于DiT和潛在擴散模型(Latent Diffusion),采用高壓縮比Video-VAE(1:192)。
  • 生成能力
    • 實時生成768×512分辨率、24 FPS視頻(2秒生成5秒視頻)。
    • 支持文生視頻和圖生視頻,畫面過渡自然。
  • 應用場景:廣告、短視頻、游戲圖形升級。
  • 性能指標
    • 在速度和視覺質量上超越傳統模型,支持低顯存設備運行。

7. 智譜CogVideoX

  • 技術架構:基于3D因果VAE和專家Transformer,支持INT8量化(顯存需求7.8GB)。
  • 生成能力
    • 生成6秒、720×480分辨率視頻,支持低顯存顯卡(如1080 Ti)。
    • 通過漸進式訓練生成長時動態視頻。
  • 應用場景:教育、影視預演。
  • 性能指標
    • 在人類評估中表現SOTA,支持多分辨率幀打包。

總結對比

模型參數規模分辨率/幀率核心優勢應用場景
通義萬相2.114B/1.3B1080P/不限長中文文字生成、物理規律復現廣告、短視頻
騰訊混元130B多種尺寸/5秒對口型、多語言支持寫實視頻、動漫
Step-Video-T2V300B540P/8秒動態控制、復雜動作生成動畫、特效
Open-Sora 2.011B720P/24 FPS低成本、高性能影視預演、教育
SkyReels-V113B544P/80秒推理微表情與動作組合AI短劇、電影特效
LTX Video-768×512/24 FPS實時生成、高壓縮比廣告、游戲
CogVideoX-720×480/6秒低顯存需求、長視頻生成教育、影視預演

關鍵趨勢

  1. 技術突破:主流模型普遍采用DiT架構和3D VAE,顯著提升時空建模能力。
  2. 開源生態:阿里、騰訊、階躍星辰等企業推動模型開源,加速技術普及。
  3. 應用擴展:從短視頻生成向影視、教育、游戲等專業場景延伸。

這些模型的開源降低了AI視頻生成門檻,推動了多領域創新,未來將進一步縮小與閉源模型的差距。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/76526.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/76526.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/76526.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【動態規劃】最長上升子序列模板

最長上升子序列 題目傳送門 一、題目描述 給定一個長度為 N 的數列,求數值嚴格單調遞增的子序列的長度最長是多少。 輸入格式 第一行包含整數 N。 第二行包含 N 個整數,表示完整序列。 輸出格式 輸出一個整數,表示最大長度。 數據范圍 …

LeetCode 891 -- 貢獻度思想

題目描述 子序列寬度之和 思路 ref 代碼 相似題 子數組范圍和 acwing

化工行業如何通過定制化工作流自動化實現25-30%成本優化?

作者:Mihir Jhaveri 編譯:李升偉 發布日期:2024年10月30日 在化工生產領域,數字化轉型正以顛覆性態勢重塑產業格局。通過集成定制化軟件、ERP系統、工業物聯網(IIoT)傳感網絡、機器人流程自動化&#xff0…

Compose組件轉換XML布局

文章目錄 學習JetPack Compose資源前言:預覽界面的實現Compose組件的布局管理一、Row和Colum組件(LinearLayout)LinearLayout(垂直方向 → Column)LinearLayout(水平方向 → Row) 二、相對布局 …

RAG測試數據集資源

一、通用問答基準數據集 HotpotQA 特點:包含11萬+多跳問答對最佳用途:測試復雜推理能力數據示例:{"question": "Were Scott Derrickson and Ed Wood of the same nationality?","answer": "Yes, both are American" }MS MARCO 特點…

快速掌握MCP——Spring AI MCP包教包會

最近幾個月AI的發展非常快,各種大模型、智能體、AI名詞和技術和框架層出不窮,作為一個業余小紅書博主的我最近總刷到MCP這個關鍵字,看著有點高級我也來學習一下。 1.SpringAI與functionCall簡單回顧 前幾個月我曾寫過兩篇關于SpringAI的基礎…

學習筆記--(6)

import numpy as np import matplotlib.pyplot as plt from scipy.special import erfc# 設置參數 rho 0.7798 z0 4.25 # 確保使用大寫 Z0,與定義一致def calculate_tau(z, z_prime, rho, s_values):return np.log(rho * z * z_prime * s_values / 2)# 定義 chi_…

【AI4CODE】5 Trae 錘一個基于百度Amis的Crud應用

【AI4CODE】目錄 【AI4CODE】1 Trae CN 錐安裝配置與遷移 【AI4CODE】2 Trae 錘一個 To-Do-List 【AI4CODE】3 Trae 錘一個貪吃蛇的小游戲 【AI4CODE】4 Trae 錘一個數據搬運工的小應用 1 百度 Amis 簡介 百度 Amis 是一個低代碼前端框架,由百度開源。它通過 J…

認識 Promise

認識 Promise 前言:為什么會出現 Promise? 最常見的一個場景就是 ajax 請求,通俗來說,由于網速的不同,可能你得到返回值的時間也是不同的,這個時候我們就需要等待,結果出來了之后才知道怎么樣…

純c++實現transformer 訓練+推理

項目地址 https://github.com/freelw/cpp-transformer C 實現的 Transformer 這是一個無需依賴特殊庫的 Transformer 的 C 實現,涵蓋了訓練與推理功能。 本項目使用C復刻了《Dive into Deep Learning》中關于 Transformer 的第 11 章11.7小節點內容。構建了一個英…

Go 語言規范學習(7)

文章目錄 Built-in functionsAppending to and copying slicesClearCloseManipulating complex numbersDeletion of map elementsLength and capacityMaking slices, maps and channelsMin and maxAllocationHandling panicsBootstrapping PackagesSource file organizationPac…

Python Cookbook-5.1 對字典排序

任務 你想對字典排序。這可能意味著需要先根據字典的鍵排序,然后再讓對應值也處于同樣的順序。 解決方案 最簡單的方法可以通過這樣的描述來概括:先將鍵排序,然后由此選出對應值: def sortedDictValues(adict):keys adict.keys()keys.sort()return …

Git Rebase 操作中丟失提交的恢復方法

背景介紹 在團隊協作中,使用 Git 進行版本控制是常見實踐。然而,有時在執行 git rebase 或者其他操作后,我們可能會發現自己的提交記錄"消失"了,這往往讓開發者感到恐慌。本文將介紹幾種在 rebase 后恢復丟失提交的方法。 問題描述 當我們執行以下操作時,可能…

C語言基礎要素(019):輸出ASCII碼表

計算機以二進制處理信息,但二進制對人類并不友好。比如說我們規定用二進制值 01000001 表示字母’A’,顯然通過鍵盤輸入或屏幕閱讀此數據而理解它為字母A,是比較困難的。為了有效的使用信息,先驅者們創建了一種稱為ASCII碼的交換代…

鴻蒙定位開發服務

引言 鴻蒙操作系統(HarmonyOS)作為面向萬物互聯時代的分布式操作系統,其定位服務(Location Kit)為開發者提供了多場景、高精度的位置能力支持。本文將從技術原理、開發流程到實戰案例,全面解析鴻蒙定位服務…

rknn_convert的使用方法

rknn_convert是RKNN-Toolkit2提供的一套常用模型轉換工具,通過封裝上述API接口,用戶只需編輯模型對應的yml配置文件,就可以通過指令轉換模型。以下是如何使用rknn_convert工具的示例命令以及支持的指令參數: python -m rknn.api.…

解決 axios get請求瞎轉義問題

在Vue.js項目中,axios 是一個常用的HTTP客戶端庫,用于發送HTTP請求。qs 是一個用于處理查詢字符串的庫,通常與 axios 結合使用,特別是在處理POST請求時,將對象序列化為URL編碼的字符串。 1. 安裝 axios 和 qs 首先&a…

【XTerminal】【樹莓派】Linux系統下的函數調用編程

目錄 一、XTerminal下的Linux系統調用編程 1.1理解進程和線程的概念并在Linux系統下完成相應操作 (1) 進程 (2)線程 (3) 進程 vs 線程 (4)Linux 下的實踐操作 1.2Linux的“虛擬內存管理”和stm32正式物理內存(內存映射)的區別 (1)Linux虛擬內存管…

torch 拆分子張量 分割張量

目錄 unbind拆分子張量 1. 沿著第n個維度拆分(即按“批次”拆分) split分割張量 常用用法: 總結: unbind拆分子張量 import torchquaternions torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8]]) result torch.unbind(quaternio…

【Linux】內核驅動學習筆記(二)

7、framebuffer驅動詳解 7.1、什么是framebuffer (1)裸機中如何操作LCD (2)OS下操作LCD的難點 (3)framebuffer幀緩沖(簡稱fb)是linux內核中虛擬出的一個設備 (4)framebuffer向應用層提供一個統一標準接口的顯示設備 (5)從驅動來看,fb是一個…