b 站視頻合集
【AI+X組隊學習】Sora原理與技術實戰:Sora技術路徑詳解
Sora 技術報告(OpenAI)
huggingsd 文生圖視頻系列的一個開源項目
最強視頻生成模型Sora相關技術解析
https://github.com/lichao-sun/SoraReview
驚艷效果:
- 長視頻
- 高清
- 視頻融合能力
- 同一場景的多角度/鏡頭的生成能力
TeText-to-video: 文生視頻
Image-to-video: 圖生視頻
Video-to-video: 改變源視頻風格or場景
Extending video in time: 視頻拓展(前后雙向)
Create seamless loops: Tiled videos that seem like they never endImage generation: 圖片生成 (size最高達到 2048 x 2048)
Generate video in any foformat: From 1920 x 1080 to 1080 x 1920 視頻輸出比例自定義
Simulate virtual worlds: 鏈接虛擬世界,游戲視頻場景生成Create a video: 長達60s的視頻并保持人物、場景一致性
要做世界模擬器。
DDPM 擴散模型
ViT 把完整的圖片 Patch 化,把單個圖片的patch 序列化。
為了處理視頻,提出了 ViViT,用 Transformers 來處理視頻的一個模型.
包含時空信息的patch。
如何進行樣本取樣?
Sora, 通過 patch,預測下一個patch,構建一個自回歸的方式來進行的。而不是之前那種預測關鍵幀,插幀的方式。
DALLE 2 也是通過文本的方式。