可讓照片人物“開口說話”阿里圖生視頻模型EMO,高啟強普法

3 月 1 日消息,阿里巴巴研究團隊近日發布了一款名為“EMO(Emote Portrait Alive)”的 AI 框架,該框架號稱可以用于“對口型”,只需要輸入人物照片及音頻,模型就能夠讓照片中的人物開口說出相關音頻,支持中英韓等語言。

據悉,EMO 基于英偉達的 Audio2Video 擴散模型打造,號稱使用了超過 250 小時的專業視頻進行訓練,從而得到了相關 AI 框架。 

注意到,研究團隊分享了幾段由 EMO 框架生成的 DEMO 演示片段,并在 ArXiv 上發布了模型的工作原理,感興趣的小伙伴也可以訪問 GitHub 查看項目。

據介紹,該框架工作過程分為兩個主要階段,研究人員首先利用參考網絡(ReferenceNet)從參考圖像和動作幀中提取特征,之后利用預訓練的音頻編碼器處理聲音并嵌入,再結合多幀噪聲和面部區域掩碼來生成視頻,該框架還融合了兩種注意機制和時間模塊,以確保視頻中角色身份的一致性和動作的自然流暢。

研究人員援引一系列實驗結果,聲稱?EMO?不僅能夠產生令人信服的說話視頻,還能生成各種風格的歌唱視頻,號稱“顯著優于目前的?DreamTalk、Wav2Lip、SadTalker 等競品”。

據悉,你只需要提供一張照片和一段任意音頻文件,EMO即可生成會說話唱歌的 AI 視頻,以及實現無縫對接的動態小視頻,最長時間可達1分30秒左右。表情非常到位,任意語音、任意語速、任意圖像都可以一一對應。

比如,《狂飆》電視劇中“高啟強”暢談羅翔普法;蔡徐坤的一張圖片,就能通過其他音頻配合“唱出”一首rapper饒舌,連口型都幾乎一模一樣;甚至前不久OpenAI發布的Sora案例視頻里面,一位 AI 生成的帶墨鏡的日本街頭女主角,現在不僅能讓她開口說話,而且還能唱出好聽的歌曲。

阿里研究團隊表示,EMO可以生成具有表情豐富的面部表情和各種頭部姿勢的聲音頭像視頻,同時,其可以根據輸入視頻的長度生成任意持續時間的視頻。

同時,EMO還擁有音頻驅動的人像視頻生成,表情豐富的動態渲染,多種頭部轉向姿勢支持、增加視頻的動態性和真實感,支持多種語言和肖像風格,快速節奏同步,跨演員表現轉換等多個特點與功能。

技術層面,阿里研究人員分享稱,EMO框架使用 Audio2Video 擴散模型,生成富有表現力的人像視頻。

該技術主要包括三個階段:一是幀編碼的初始階段,ReferenceNet 用于從參考圖像和運動幀中提取特征;二是在擴散過程階段,預訓練的音頻編碼器處理音頻嵌入。面部區域掩模與多幀噪聲集成以控制面部圖像的生成;三是使用主干網絡來促進去噪操作。在主干網絡中,應用了兩種形式——參考注意力和音頻注意力機制,這些機制分別對于保留角色的身份和調節角色的動作至關重要。此外,EMO的時間模塊用于操縱時間維度,并調整運動速度。

目前,EMO框架上線到GitHub中,相關論文也在arxiv上公開。

GitHub:https://github.com/HumanAIGC/EMO

論文:https://arxiv.org/abs/2402.17485

事實上,過去一年,阿里巴巴在 AI 方面持續發力,包括阿里云推出通義千問、通義萬相等多款對標 OpenAI 的 AI 大模型產品,以及基于雙流條件擴散模型的真人百變換裝技術Outfit Anyone、角色動畫模型Animate Anyone等技術,實現多個場景應用。

今年1月26日,阿里推出的Qwen-VL模型實現多次迭代升級,并宣布 Plus 和 Max 兩大版本升級,支持以圖像、文本作為輸入,并以文本、圖像、檢測框作為輸出,讓大模型真正具備了“看”世界的能力。

阿里方面稱,相比于開源版本的 Qwen-VL,Plus 和 Max 版本模型在多項圖文多模態標準測試中獲得了堪比 Gemini Ultra 和 GPT-4V 的水準,并大幅超越此前開源模型的最佳水平。

“在可見的未來,我們生活中所有習以為常的產品形態都會發生變化,會有更智能的下一代產品進入我們的生活。更多中小企業將通過AI化協同,靈活替代一部分目前只有大企業才能提供的服務。生產、制造、流通的組織方式和協作方式也會發生根本性變革。AI助理會無處不在,成為每個人工作、生活、學習中的助手。每個企業也都會配備AI助手,就像我們今天的智能汽車,輔助駕駛和自動駕駛已經成為標配。”吳泳銘稱。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/718257.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/718257.shtml
英文地址,請注明出處:http://en.pswp.cn/news/718257.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

PDN分析及應用系列二-簡單5V電源分配-Altium Designer仿真分析-AD

PDN分析及應用系列二 —— 案例1:簡單5V電源分配 預模擬DC網絡識別 當最初為PCB設計打開PDN分析儀時,它將嘗試根據公共電源網絡命名法從設計中識別所有直流電源網絡。 正確的DC網絡識別對于獲得最準確的模擬結果非常重要。 在示例項目中已經識別出主DC網絡以簡化該過程。 …

Vulnhub靶機:Bellatrix

一、介紹 運行環境:Virtualbox 攻擊機:kali(10.0.2.4) 靶機:Bellatrix(10.0.2.9) 目標:獲取靶機root權限和flag 靶機下載地址:https://www.vulnhub.com/entry/hogwa…

Leetcode 3070. Count Submatrices with Top-Left Element and Sum Less Than k

Leetcode 3070. Count Submatrices with Top-Left Element and Sum Less Than k 1. 解題思路2. 代碼實現 題目鏈接:3070. Count Submatrices with Top-Left Element and Sum Less Than k 1. 解題思路 這一題就是一個二維的累積數組的問題,我們直接求一…

網絡學習:MPLS技術基礎知識

目錄 一、MPLS技術產生背景 二、MPLS網絡組成(基本概念) 1、MPLS技術簡介:Multiprotocol Lable Switching,多協議標簽交換技術 2、MPLS網絡組成 三、MPLS的優勢 四、MPLS的實際應用 一、MPLS技術產生背景 1、IP采用最長掩碼…

Power BI vs Superset BI 調研報告

調研結論 SupersetPower BI價格開源①. Power BI Pro 每人 $10/月($120/年/人) ②. Power BI Premium 每人 $20/月($240/年/人) ③. Power BI Embedded:4C10G $11W/年 權限基于角色的訪問控制,支持細粒度的訪問: 表級別、庫級別、圖表級別,看板級別,用戶級別 基于角色…

每天一個數據分析題(一百八十五)

給定下述Python代碼段,試問哪個選項正確描述了該代碼段的功能? data_raw[‘gender’] data_raw[‘gender’].map({‘Male’: 1, ‘Female’: 0}) A. 代碼中對gender變量進行了獨熱編碼(One-Hot Encoding),并將gender中的缺失值填充為類別平…

深度學習API——keras初學

keras定義: Keras是一個深度學習API(人工神經網絡庫),使用Python語言編寫的github開源項目,主要開發者為谷歌工程師。Keras底層可調用不同的機器學習平臺,如TensorFlow、Theano或micsoft-CNTK。 作用&…

Tomcat的配置文件

Tomcat的配置文件詳解 一.Tomcat的配置文件 Tomcat的配置文件默認存放在$CATALINA_HOME/conf目錄中,主要有以下幾個: 1.server.xml: Tomcat的主配置文件,包含Service, Connector, Engine, Realm, Valve, Hosts主組件的相關配置信息&#x…

【推薦】免費AI論文寫作神器-「智元兔 AI」

還在為寫論文焦慮?免費AI寫作大師來幫你三步搞定! 智元兔AI是ChatGPT的人工智能助手,并且具有出色的論文寫作能力。它能夠根據用戶提供的題目或要求,自動生成高質量的論文。 不論是論文、畢業論文、散文、科普文章、新聞稿件&…

#WEB前端(浮動與定位)

1.實驗&#xff1a; 2.IDE&#xff1a;VSCODE 3.記錄&#xff1a; float、position 沒有應用浮動前 應用左浮動和右浮動后 應用定位 4.代碼&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><me…

pyqt5怎么返回錯誤信息給頁面(警告窗口)

在軟件設計中&#xff0c;我們可能會遇到對異常的處理&#xff0c;有些異常是用戶需要看到的&#xff0c;比如說&#xff0c;當我們登錄出錯的時候&#xff0c;后端需要給我們返回響應的錯誤信息&#xff0c;就像下圖實現的這樣。 類似這種效果&#xff0c;我們該如何實現&…

javaWebssh題庫管理系統myeclipse開發mysql數據庫MVC模式java編程計算機網頁設計

一、源碼特點 java ssh題庫管理系統是一套完善的web設計系統&#xff08;系統采用ssh框架進行設計開發&#xff09;&#xff0c;對理解JSP java編程開發語言有幫助&#xff0c;系統具有完整的源代碼和數據庫&#xff0c;系統主要采用B/S模式開發。開發環境為TOMCAT7.0,Mye…

「MySQL」基本操作類型

&#x1f387;個人主頁&#xff1a;Ice_Sugar_7 &#x1f387;所屬專欄&#xff1a;數據庫 &#x1f387;歡迎點贊收藏加關注哦&#xff01; 數據庫的操作 創建、顯示數據庫 使用 create 創建一個數據庫 create database goods;然后可以用 show databases 來查看已經創建的數…

我們如何知道人工智能系統有多智能?

1967 年&#xff0c;人工智能 &#xff08;AI&#xff09; 領域的創始人馬文明克西 &#xff08;Marvin Minksy&#xff09; 做出了一個大膽的預測&#xff1a;“在一代人之內…創造’人工智能’的問題將得到實質性解決。假設一代人大約是 30 年&#xff0c;明斯基顯然過于樂觀…

javaWebssh網上超市銷售管理系統myeclipse開發mysql數據庫MVC模式java編程計算機網頁設計

一、源碼特點 java ssh網上超市銷售管理系統是一套完善的web設計系統&#xff08;系統采用ssh框架進行設計開發&#xff09;&#xff0c;對理解JSP java編程開發語言有幫助&#xff0c;系統具有完整的源代碼和數據庫&#xff0c;系統主要采用B/S模式開發。開發環境為TOMCA…

指針深刻理解

指針深刻理解 看完鵬哥講的c語言進階視頻后&#xff0c;又找來C語言深度剖析這本書仔細看了一遍&#xff0c;來進一步鞏固和理解指針這個重點。 1&#xff1a;數組 如上圖所示&#xff0c;當我們定義一個數組 a 時&#xff0c;編譯器根據指定的元素個數和元素的類型分配確定大…

突破編程_C++_STL教程( list 的實戰應用)

1 std::list 的排序 1.1 基礎類型以及 std::string 類型的排序 std::list的排序可以通過調用其成員函數sort()來實現。sort()函數使用默認的比較操作符&#xff08;<&#xff09;對std::list中的元素進行排序。這意味著&#xff0c;如果元素類型定義了<操作符&#xff…

身份證識別系統(安卓)

設計內容與要求&#xff1a; 通過手機攝像頭捕獲身份證信息&#xff0c;將身份證上的姓名、性別、出生年月、身份證號碼保存在數據庫中。1&#xff09;所開發Apps軟件至少需由3-5個以上功能性界面組成。要求&#xff1a;界面美觀整潔、方便應用&#xff1b;可以使用Android原生…

ChatGPT聊圖像超分

筆者就YOLO系列方法詢問了ChatGPT的看法&#xff0c;可參考&#xff1a; ChatGPT是如何看待YOLO系列算法的貢獻呢&#xff1f; 續接前文&#xff0c;今天繼續拿圖像超分領域的經典方法來詢問ChatGPT的看法&#xff0c;這里主要挑選了以下幾個方案SRCNN、ESPSRN、EDSR、RCAN、…

JS 對象數組排序方法測試

輸出 一.Array.prototype.sort() 1.默認排序 sort() sort() 方法就地對數組的元素進行排序&#xff0c;并返回對相同數組的引用。默認排序是將元素轉換為字符串&#xff0c;然后按照它們的 UTF-16 碼元值升序排序。 由于它取決于具體實現&#xff0c;因此無法保證排序的時…