1. 阿里巴巴通義萬相2.1(WanX 2.1)
- 技術架構:基于Diffusion Transformer(DiT)架構,結合自研的高效變分自編碼器(VAE)和Flow Matching訓練方案,支持時空上下文建模。
- 參數規模:提供14B和1.3B兩種參數規格,后者支持本地部署(僅需8.2GB顯存)。
- 生成能力:
- 支持無限長1080P視頻的高效編解碼,首次實現中文文字視頻生成。
- 可生成復雜運鏡效果,并還原物理規律(如雨滴濺水效果)。
- 應用場景:廣告設計、宣傳片、短視頻創作。
- 性能指標:
- 在VBench評測中以86.22%得分位居榜首,超越Sora、Luma等模型。
- 生成速度比原有SOTA模型快2.5倍,運動質量指標達商用級別。
2. 騰訊混元大模型(Hunyuan Video)
- 技術架構:130億參數的圖生視頻模型,基于Hybrid-Mamba-Transformer混合架構,支持中英文輸入和多尺寸視頻生成。
- 生成能力:
- 生成5秒短視頻,支持對口型、唱歌功能及動漫角色制作。
- 提供視頻配音與數字人驅動功能。
- 應用場景:寫實視頻、廣告、教育內容。
- 性能指標:
- 在文本一致性、運動質量等評測維度領先,總體評分41.30%,顯著高于第二名。
3. 階躍星辰Step-Video-T2V
- 技術架構:300億參數的Diffusion Transformer(DiT),采用Flow Matching訓練和3D全注意力機制,支持動態幅度與鏡頭軌跡控制。
- 生成能力:
- 生成204幀(約8秒)540P視頻,支持復雜動作(如芭蕾舞)和物理規律復現。
- 通過通道維度拼接技術保持畫面與原圖一致性。
- 應用場景:動畫制作、短視頻創作、教育培訓。
- 性能指標:
- 在VBench-I2V基準測試中達到SOTA級別,運動控制能力突出。
4. Open-Sora 2.0
- 技術架構:基于3D自編碼器和MMDiT架構(Masked Motion Diffusion Transformer),11B參數,結合Flow Matching訓練。
- 生成能力:
- 支持720P分辨率、24 FPS視頻生成,最長128幀,支持文生視頻(T2V)和圖生視頻(T2I2V)。
- 訓練成本僅20萬美元(224張GPU),接近閉源模型性能。
- 應用場景:影視預演、廣告創意、游戲開發。
- 性能指標:
- VBench評測與Sora差距縮小至0.69%,用戶偏好測試超越HunyuanVideo等模型。
5. 昆侖萬維SkyReels-V1
- 技術架構:13B參數,基于好萊塢影視數據訓練,集成3D因果卷積和自研推理優化框架「SkyReels-Infer」。
- 生成能力:
- 支持33種微表情和400+自然動作組合,生成544P分辨率視頻。
- 單卡4090推理僅需80秒,支持分布式多卡并行。
- 應用場景:AI短劇創作、電影特效。
- 性能指標:
- 在開源視頻生成模型中性能最強,畫面達電影級質感。
6. LTX Video
- 技術架構:基于DiT和潛在擴散模型(Latent Diffusion),采用高壓縮比Video-VAE(1:192)。
- 生成能力:
- 實時生成768×512分辨率、24 FPS視頻(2秒生成5秒視頻)。
- 支持文生視頻和圖生視頻,畫面過渡自然。
- 應用場景:廣告、短視頻、游戲圖形升級。
- 性能指標:
- 在速度和視覺質量上超越傳統模型,支持低顯存設備運行。
7. 智譜CogVideoX
- 技術架構:基于3D因果VAE和專家Transformer,支持INT8量化(顯存需求7.8GB)。
- 生成能力:
- 生成6秒、720×480分辨率視頻,支持低顯存顯卡(如1080 Ti)。
- 通過漸進式訓練生成長時動態視頻。
- 應用場景:教育、影視預演。
- 性能指標:
- 在人類評估中表現SOTA,支持多分辨率幀打包。
總結對比
模型 | 參數規模 | 分辨率/幀率 | 核心優勢 | 應用場景 |
---|---|---|---|---|
通義萬相2.1 | 14B/1.3B | 1080P/不限長 | 中文文字生成、物理規律復現 | 廣告、短視頻 |
騰訊混元 | 130B | 多種尺寸/5秒 | 對口型、多語言支持 | 寫實視頻、動漫 |
Step-Video-T2V | 300B | 540P/8秒 | 動態控制、復雜動作生成 | 動畫、特效 |
Open-Sora 2.0 | 11B | 720P/24 FPS | 低成本、高性能 | 影視預演、教育 |
SkyReels-V1 | 13B | 544P/80秒推理 | 微表情與動作組合 | AI短劇、電影特效 |
LTX Video | - | 768×512/24 FPS | 實時生成、高壓縮比 | 廣告、游戲 |
CogVideoX | - | 720×480/6秒 | 低顯存需求、長視頻生成 | 教育、影視預演 |
關鍵趨勢
- 技術突破:主流模型普遍采用DiT架構和3D VAE,顯著提升時空建模能力。
- 開源生態:阿里、騰訊、階躍星辰等企業推動模型開源,加速技術普及。
- 應用擴展:從短視頻生成向影視、教育、游戲等專業場景延伸。
這些模型的開源降低了AI視頻生成門檻,推動了多領域創新,未來將進一步縮小與閉源模型的差距。