3 月 1 日消息,阿里巴巴研究團隊近日發布了一款名為“EMO(Emote Portrait Alive)”的 AI 框架,該框架號稱可以用于“對口型”,只需要輸入人物照片及音頻,模型就能夠讓照片中的人物開口說出相關音頻,支持中英韓等語言。
據悉,EMO 基于英偉達的 Audio2Video 擴散模型打造,號稱使用了超過 250 小時的專業視頻進行訓練,從而得到了相關 AI 框架。
注意到,研究團隊分享了幾段由 EMO 框架生成的 DEMO 演示片段,并在 ArXiv 上發布了模型的工作原理,感興趣的小伙伴也可以訪問 GitHub 查看項目。
據介紹,該框架工作過程分為兩個主要階段,研究人員首先利用參考網絡(ReferenceNet)從參考圖像和動作幀中提取特征,之后利用預訓練的音頻編碼器處理聲音并嵌入,再結合多幀噪聲和面部區域掩碼來生成視頻,該框架還融合了兩種注意機制和時間模塊,以確保視頻中角色身份的一致性和動作的自然流暢。
研究人員援引一系列實驗結果,聲稱?EMO?不僅能夠產生令人信服的說話視頻,還能生成各種風格的歌唱視頻,號稱“顯著優于目前的?DreamTalk、Wav2Lip、SadTalker 等競品”。
據悉,你只需要提供一張照片和一段任意音頻文件,EMO即可生成會說話唱歌的 AI 視頻,以及實現無縫對接的動態小視頻,最長時間可達1分30秒左右。表情非常到位,任意語音、任意語速、任意圖像都可以一一對應。
比如,《狂飆》電視劇中“高啟強”暢談羅翔普法;蔡徐坤的一張圖片,就能通過其他音頻配合“唱出”一首rapper饒舌,連口型都幾乎一模一樣;甚至前不久OpenAI發布的Sora案例視頻里面,一位 AI 生成的帶墨鏡的日本街頭女主角,現在不僅能讓她開口說話,而且還能唱出好聽的歌曲。
阿里研究團隊表示,EMO可以生成具有表情豐富的面部表情和各種頭部姿勢的聲音頭像視頻,同時,其可以根據輸入視頻的長度生成任意持續時間的視頻。
同時,EMO還擁有音頻驅動的人像視頻生成,表情豐富的動態渲染,多種頭部轉向姿勢支持、增加視頻的動態性和真實感,支持多種語言和肖像風格,快速節奏同步,跨演員表現轉換等多個特點與功能。
技術層面,阿里研究人員分享稱,EMO框架使用 Audio2Video 擴散模型,生成富有表現力的人像視頻。
該技術主要包括三個階段:一是幀編碼的初始階段,ReferenceNet 用于從參考圖像和運動幀中提取特征;二是在擴散過程階段,預訓練的音頻編碼器處理音頻嵌入。面部區域掩模與多幀噪聲集成以控制面部圖像的生成;三是使用主干網絡來促進去噪操作。在主干網絡中,應用了兩種形式——參考注意力和音頻注意力機制,這些機制分別對于保留角色的身份和調節角色的動作至關重要。此外,EMO的時間模塊用于操縱時間維度,并調整運動速度。
目前,EMO框架上線到GitHub中,相關論文也在arxiv上公開。
GitHub:https://github.com/HumanAIGC/EMO
論文:https://arxiv.org/abs/2402.17485
事實上,過去一年,阿里巴巴在 AI 方面持續發力,包括阿里云推出通義千問、通義萬相等多款對標 OpenAI 的 AI 大模型產品,以及基于雙流條件擴散模型的真人百變換裝技術Outfit Anyone、角色動畫模型Animate Anyone等技術,實現多個場景應用。
今年1月26日,阿里推出的Qwen-VL模型實現多次迭代升級,并宣布 Plus 和 Max 兩大版本升級,支持以圖像、文本作為輸入,并以文本、圖像、檢測框作為輸出,讓大模型真正具備了“看”世界的能力。
阿里方面稱,相比于開源版本的 Qwen-VL,Plus 和 Max 版本模型在多項圖文多模態標準測試中獲得了堪比 Gemini Ultra 和 GPT-4V 的水準,并大幅超越此前開源模型的最佳水平。
“在可見的未來,我們生活中所有習以為常的產品形態都會發生變化,會有更智能的下一代產品進入我們的生活。更多中小企業將通過AI化協同,靈活替代一部分目前只有大企業才能提供的服務。生產、制造、流通的組織方式和協作方式也會發生根本性變革。AI助理會無處不在,成為每個人工作、生活、學習中的助手。每個企業也都會配備AI助手,就像我們今天的智能汽車,輔助駕駛和自動駕駛已經成為標配。”吳泳銘稱。