網址
- https://github.com/tencent-ailab/V-Express
下面是github里的翻譯:
在人像視頻生成領域,使用單張圖像生成人像視頻變得越來越普遍。一種常見的方法是利用生成模型來增強受控發電的適配器。
但是,控制信號的強度可能會有所不同,包括文本、音頻、圖像參考、姿勢、深度圖等。其中,較弱的條件往往由于較強條件的干擾而難以有效,這對平衡這些條件構成了挑戰。
在人像視頻生成方面,我們發現音頻信號特別弱,經常被姿勢和原始圖像等較強的信號所掩蓋。然而,使用弱信號進行直接訓練往往會導致收斂困難。
為了解決這個問題,我們提出了V-Express,這是一種簡單的方法,通過一系列漸進式丟棄操作來平衡不同的控制信號。
我們的方法逐漸實現了弱條件下的有效控制,從而實現了同時考慮姿勢、輸入圖像和音頻的生成能力。