網址
- https://wangyuchi369.github.io/InstructAvatar/
用于生成 Avatar 的文本引導式情感和運動控制
官網翻譯
最近的會說話的頭像生成模型在實現與音頻的真實和準確的嘴唇同步方面取得了長足的進步,但在控制和傳達頭像的詳細表情和情感方面往往存在不足,使生成的視頻不那么生動和可控。
在本文中,我們提出了一種新穎的文本引導方法,用于生成具有情感表現力的 2D 頭像,為生成的視頻提供細粒度控制、改進的交互性和通用性。我們的框架名為 InstructAvatar,它利用自然語言界面來控制化身的情緒和面部動作。
我們設計了一個自動標注流水線來構建一個指令-視頻配對的訓練數據集,配備了一個基于雙分支擴散的新型生成器,可以同時預測具有音頻和文本指令的化身。
實驗結果表明,InstructAvatar 產生的結果與這兩種條件都非常吻合,并且在細粒度情緒控制、口型同步質量和自然性方面優于現有方法。
代碼即將推出,可以跟進一波