論文:https://arxiv.org/pdf/2401.16224
github:https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/Diffutoon
網絡結構
?兩個主要分支:主要的卡通化管線和編輯分支
重要技術
????????使用了fastblend(無需模型的視頻幀之間的平滑技術)和跨幀注意力機制
? ? ? ? 使用提示詞來生成顏色引導信息,但是在大量幀之中可能會實效,fastblend可以彌補這一問題
? ? ? ? 可以只使用主分支來卡通化視頻,也可以在卡通化的同時對視頻色彩信息進行編輯
fastblend技術
跨幀注意力機制參考文獻1
跨幀注意力機制參考文獻2
?本網絡結構所需要的模型
?訓練網絡的相關參數配置
?不同框架之間的效果對比