可讓照片人物“開口說話”阿里圖生視頻模型EMO，高啟強普法

3 月 1 日消息，阿里巴巴研究團隊近日發布了一款名為“EMO（Emote Portrait Alive）”的 AI 框架，該框架號稱可以用于“對口型”，只需要輸入人物照片及音頻，模型就能夠讓照片中的人物開口說出相關音頻，支持中英韓等語言。

據悉，EMO 基于英偉達的 Audio2Video 擴散模型打造，號稱使用了超過 250 小時的專業視頻進行訓練，從而得到了相關 AI 框架。　

注意到，研究團隊分享了幾段由 EMO 框架生成的 DEMO 演示片段，并在 ArXiv 上發布了模型的工作原理，感興趣的小伙伴也可以訪問 GitHub 查看項目。

據介紹，該框架工作過程分為兩個主要階段，研究人員首先利用參考網絡（ReferenceNet）從參考圖像和動作幀中提取特征，之后利用預訓練的音頻編碼器處理聲音并嵌入，再結合多幀噪聲和面部區域掩碼來生成視頻，該框架還融合了兩種注意機制和時間模塊，以確保視頻中角色身份的一致性和動作的自然流暢。

研究人員援引一系列實驗結果，聲稱?EMO?不僅能夠產生令人信服的說話視頻，還能生成各種風格的歌唱視頻，號稱“顯著優于目前的?DreamTalk、Wav2Lip、SadTalker 等競品”。

據悉，你只需要提供一張照片和一段任意音頻文件，EMO即可生成會說話唱歌的 AI 視頻，以及實現無縫對接的動態小視頻，最長時間可達1分30秒左右。表情非常到位，任意語音、任意語速、任意圖像都可以一一對應。

比如，《狂飆》電視劇中“高啟強”暢談羅翔普法；蔡徐坤的一張圖片，就能通過其他音頻配合“唱出”一首rapper饒舌，連口型都幾乎一模一樣；甚至前不久OpenAI發布的Sora案例視頻里面，一位 AI 生成的帶墨鏡的日本街頭女主角，現在不僅能讓她開口說話，而且還能唱出好聽的歌曲。

阿里研究團隊表示，EMO可以生成具有表情豐富的面部表情和各種頭部姿勢的聲音頭像視頻，同時，其可以根據輸入視頻的長度生成任意持續時間的視頻。

同時，EMO還擁有音頻驅動的人像視頻生成，表情豐富的動態渲染，多種頭部轉向姿勢支持、增加視頻的動態性和真實感，支持多種語言和肖像風格，快速節奏同步，跨演員表現轉換等多個特點與功能。

技術層面，阿里研究人員分享稱，EMO框架使用 Audio2Video 擴散模型，生成富有表現力的人像視頻。

該技術主要包括三個階段：一是幀編碼的初始階段，ReferenceNet 用于從參考圖像和運動幀中提取特征；二是在擴散過程階段，預訓練的音頻編碼器處理音頻嵌入。面部區域掩模與多幀噪聲集成以控制面部圖像的生成；三是使用主干網絡來促進去噪操作。在主干網絡中，應用了兩種形式——參考注意力和音頻注意力機制，這些機制分別對于保留角色的身份和調節角色的動作至關重要。此外，EMO的時間模塊用于操縱時間維度，并調整運動速度。

目前，EMO框架上線到GitHub中，相關論文也在arxiv上公開。

GitHub：https://github.com/HumanAIGC/EMO

論文：https://arxiv.org/abs/2402.17485

事實上，過去一年，阿里巴巴在 AI 方面持續發力，包括阿里云推出通義千問、通義萬相等多款對標 OpenAI 的 AI 大模型產品，以及基于雙流條件擴散模型的真人百變換裝技術Outfit Anyone、角色動畫模型Animate Anyone等技術，實現多個場景應用。

今年1月26日，阿里推出的Qwen-VL模型實現多次迭代升級，并宣布 Plus 和 Max 兩大版本升級，支持以圖像、文本作為輸入，并以文本、圖像、檢測框作為輸出，讓大模型真正具備了“看”世界的能力。

阿里方面稱，相比于開源版本的 Qwen-VL，Plus 和 Max 版本模型在多項圖文多模態標準測試中獲得了堪比 Gemini Ultra 和 GPT-4V 的水準，并大幅超越此前開源模型的最佳水平。

“在可見的未來，我們生活中所有習以為常的產品形態都會發生變化，會有更智能的下一代產品進入我們的生活。更多中小企業將通過AI化協同，靈活替代一部分目前只有大企業才能提供的服務。生產、制造、流通的組織方式和協作方式也會發生根本性變革。AI助理會無處不在，成為每個人工作、生活、學習中的助手。每個企業也都會配備AI助手，就像我們今天的智能汽車，輔助駕駛和自動駕駛已經成為標配。”吳泳銘稱。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/718257.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/718257.shtml
英文地址，請注明出處：http://en.pswp.cn/news/718257.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！