open sora-2.0相關鏈接:
- arxiv鏈接
- huggingface頁面
HunyuanVideo VAE
open sora2.0的VAE模型復用了HunyuanVideo的3D VAE,HunyuanVideo的arxiv鏈接。下圖來自論文,可見VAE是一個因果注意力的3D結構。在配圖左側,視頻會被編碼為video token序列,而在配圖右側,去噪的video token會被解碼為視頻。
論文圖6是hunyuan VAE的結構,可見視頻序列在編碼過程中,時空上的尺寸會減小,從而減少了序列長度。從《HunYuan-Video 代碼解讀之3D-VAE》可知:
- CausalConv3d是上采樣、下采樣的核心實現。
- Cau