中山大學美團港科大提出首個音頻驅動多人對話視頻生成MultiTalk，輸入一個音頻和提示，即可生成對應唇部、音頻交互視頻。

由中山大學、美團、香港科技大學聯合提出的MultiTalk是一個用于音頻驅動的多人對話視頻生成的新框架。給定一個多流音頻輸入和一個提示，MultiTalk 會生成一個包含提示所對應的交互的視頻，其唇部動作與音頻保持一致。

論文介紹

音頻驅動的人體動畫方法，例如說話頭部和說話身體生成，在生成同步面部動作和引人入勝的視覺質量視頻方面取得了顯著進展。然而，現有方法主要側重于單人動畫，難以處理多流音頻輸入，存在音頻與人物綁定不正確的問題。此外，它們在指令遵循能力方面也存在局限性。

為了解決這一問題，本文提出了一項新的任務：多人對話視頻生成，并引入了一個新框架 MultiTalk 來應對多人生成過程中的挑戰。具體來說，對于音頻注入，我們研究了多種方案，并提出了標簽旋轉位置嵌入 (L-RoPE) 方法來解決音頻和人物綁定問題。此外，在訓練過程中，我們觀察到部分參數訓練和多任務訓練對于保持基礎模型的指令遵循能力至關重要。MultiTalk 在多個數據集（包括說話頭部、說話身體和多人數據集）上取得了優于其他方法的性能，證明了我們方法強大的生成能力。

方法

論文提出了一個音頻驅動的視頻生成框架 MultiTalk。該框架新增了一個音頻交叉注意力層，以支持音頻條件。為了實現多人對話視頻生成，論文提出了一種用于多流音頻注入的標簽旋轉位置嵌入 (L-RoPE)。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/82849.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/82849.shtml
英文地址，請注明出處：http://en.pswp.cn/web/82849.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！