Diffusion Models視頻生成-博客匯總
前言:Stable Video Diffusion已經開源一周多了,技術報告《Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets》對數據清洗的部分描述非常詳細,雖然沒有開源源代碼,但是博主正在嘗試復現其中的操作。這篇博客先梳理一下Stable Video Diffusion的數據清洗部分。
原始收集數據集的缺點
(1)生成視頻模型對運動不一致很敏感,例如剪切通常許多包含在原始和未處理的視頻數據中。
(2) 字幕影響。理想情況下每個視頻有對應的多個字幕。
級聯剪輯
用了三個切割器以不同的幀速率和不同的閾值運行,以檢測突然的變化和緩慢的變化,例如褪色。
關鍵幀剪輯
提取源視頻中關鍵幀的時間戳并將檢測到的切割捕獲到不交叉檢測到的切割最近的關鍵幀時間戳上。