方案:VAE Encoder(視頻壓縮) -> Transform Diffusion (從視頻數據中學習分布,并根據條件生成新視頻) -> VAE Decoder (視頻解壓縮)
從博客出發,經過學術Survey,可以推斷出全貌。一句話結論:
Sora是采用了Meta的 DiT (2022.12) 框架,
融合了Google的 MAGViT (2022.12) 的Video Tokenize方案,
借用Google DeepMind的NaViT (2023.07) 支持了原始比例和分辨率,
使用OpenAI DALL-E 3 (2023.09) 里的圖像描述方案生成了高質量Video Caption(視頻描述),即文本-視頻對,實現了準確的條件生成。
百川2
Reward Model:
Prompt多樣性:構造了一個200+細分類目的數據體系,盡可能覆蓋用戶需求,同時提升每類prompt多樣性,從而提升泛化能力
Response多樣性:用不同尺寸和階段的百川模型生成答案,不使用其他開源模型(經驗證無法提升RM準確率)
RM:
設計了一個三層分類系統全面覆蓋所有類型的用戶需求,包括6個主要類別、30個二級類別、200多個三級類別。
在獎勵模型訓練時,需要保證每個類別內的數據應該有足夠的多樣性,以確保獎勵模型能夠有更好地泛化性。
并且獎勵數據中結果需要由Baichuan2模型生成,以確保數據分布的統一。