Sora 原理與技術實戰筆記一

b 站視頻合集
【AI+X組隊學習】Sora原理與技術實戰：Sora技術路徑詳解
Sora 技術報告（OpenAI）
huggingsd 文生圖視頻系列的一個開源項目
最強視頻生成模型Sora相關技術解析
https://github.com/lichao-sun/SoraReview

驚艷效果：

長視頻
高清
視頻融合能力
同一場景的多角度/鏡頭的生成能力

TeText-to-video: 文生視頻
Image-to-video: 圖生視頻
Video-to-video: 改變源視頻風格or場景
Extending video in time: 視頻拓展(前后雙向)
Create seamless loops: Tiled videos that seem like they never endImage generation: 圖片生成 (size最高達到 2048 x 2048)
Generate video in any foformat: From 1920 x 1080 to 1080 x 1920 視頻輸出比例自定義
Simulate virtual worlds: 鏈接虛擬世界，游戲視頻場景生成Create a video: 長達60s的視頻并保持人物、場景一致性

要做世界模擬器。
在這里插入圖片描述

DDPM 擴散模型
ViT 把完整的圖片 Patch 化，把單個圖片的patch 序列化。

為了處理視頻，提出了 ViViT,用 Transformers 來處理視頻的一個模型.
在這里插入圖片描述
包含時空信息的patch。
如何進行樣本取樣？

在這里插入圖片描述

Sora，通過 patch，預測下一個patch，構建一個自回歸的方式來進行的。而不是之前那種預測關鍵幀，插幀的方式。
DALLE 2 也是通過文本的方式。

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/712088.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/712088.shtml
英文地址，請注明出處：http://en.pswp.cn/news/712088.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！