【AI+應用】aliyun的EMO圖生視頻模型引起的思考如何做AI數字人

昨天2 月 29 日消息，2 月 28 日，阿里巴巴集團智能計算研究院日前上線了一款新的 AI 圖片 - 音頻 - 視頻模型技術 EMO，官方稱其為 " 一種富有表現力的音頻驅動的肖像視頻生成框架 "。據悉，用戶只需要提供一張照片和一段任意音頻文件，EMO 即可生成會說話唱歌的 AI 視頻，以及實現無縫對接的動態小視頻，最長時間可達 1 分 30 秒左右。表情非常到位，任意語音、任意語速、任意圖像都可以一一對應。

自己的消息比較滯后，昨晚睡覺前才刷到這個消息。今天想了想，既然 aliyun推出EMO模型，新技術嘛，自己也要了解下。?找了下地址：https://humanaigc.github.io/emote-portrait-alive/ ，進入github地址：https://github.com/HumanAIGC/EMO。? 自己瞬間傻眼了，就一些說明文檔，沒代碼。這是準備和openai的Sora 對標么，先推出概念和效果讓市場先炒熱起來么。

回到正題，EMO的介紹，讓我發現這不是就是AI數字人的技術么。之前本來想水一篇AI+數字人的，但由于自己了解不是太深，一直沒動筆。趁著這個機會，寫一篇自己的淺見。

網上很多AI+數字人的付費課程，?是不是割韭菜就不知道了。這里說下我認為實現AI+數字人的方案（科普入門），不包括變現（個人的理解，2C業務應該不外乎x寶，視頻號，x音，x手，B站等APP，發爆款AI數字人視頻或直播，增加流量，增加粉絲，櫥窗和直播帶貨。2B業務可能涉及企業培訓服務等）。

先說下市面上的，據我所知，國內?

百度（https://cloud.baidu.com/product/baidudigitalhuman.html?track=mkt_sem），

騰訊（https://cloud.tencent.com/product/ivh），

華為（https://activity.huaweicloud.com/metastudio-szr.html?utm_source=baidu&utm_medium=se-cpc-op&utm_campaign=&utm_content=&utm_term=%E6%95%B0%E5%AD%97%E4%BA%BA&utm_adplace=AdPlace085313&bd_vid=11382723768066594769），

aliyun（https://cn.aliyun.com/product/ai/avatar?from_alibabacloud= ）等一眾平臺都有付費的AI數字人平臺, ?或者百度搜索下很多廣告專門賣這個的。?國外比較出名的 heygen（官網地址：https://www.heygen.com/?，打開需要用點魔法）很多人都在用的方案（一個賬戶只有一分鐘左右的免費額度，用臨時郵箱網站瘋狂注冊賬號，突破這個限制。怎么搞網上找找，這里就不細說了）。

用別人的平臺制作數字人成本會比較高，自己怎么低成本做呢，以下是一些思路。

AI數字人 = AI + ?數字人，要想做數字人需要有哪些技術儲備呢。? 視頻+音頻+字幕? 這3個應該都需要。?

真人或動漫數字人視頻制作（一般圖片生成視頻，推薦heygen,? 后續可以看看sora或emo吧）

音頻制作，業界應該有2種方案，TTS（Text-to-Speech，文本轉語音）和 SVC（Singing Voice Conversion，聲音轉聲音）是兩種不同的聲音合成技術，這2種技術應用場景不一樣。比如TTS適用于?智能助手、有聲閱讀、無障礙服務、導航系統等， SVC適用于音樂制作、娛樂、教育等。這塊自己研究不深，自己最近在看GPT-SoVITS （ https://github.com/RVC-Boss/GPT-SoVITS ）這個開源項目。

網上找的音頻制作軟件，這里注明，自己沒用過。

1、ElevenLabs（11Labs）：一個功能強大的在線文字轉語音（TTS）工具，可以實現高質量的聲音克隆。

2、So-Vits-SVC：一個基于 Singing Voice Conversion（歌聲轉換）技術的聲音克隆工具。

3、Deep Voice：一個由騰訊AI實驗室開發的基于深度學習的聲音轉換系統。

4、Voicery：一個在線的聲音轉換平臺，支持多種語言和聲音風格。

5、Lyrebird：一個利用深度學習技術進行聲音克隆的工具，可以將文字轉換為語音。

字幕呢，一般最后視頻合成都用?剪輯軟件把，推薦x音的剪影吧。

上面講的自行創作，有人可能說自己創作多累啊，用別人的視頻改改是否可行。關于二次創作或模仿呢，網上可能還有人會講，?下載xx平臺火爆的爆款視頻（一般可以用影刀這些RPA工具抓取鏈接，low一點自己以一個一個爬取），用微信小程序的輕抖去水印，去水印，提取字幕（用chatGPT等軟件進行二次改造），用x音的剪映改改視頻，這樣是不是就算是翻版了，被認為原創了。??這里只是大概思路，自己沒實操過。

作為程序員，怎么可能不上代碼呢。?最近自己找了2個開源代碼，還沒學習，先附上鏈接。對這塊感興趣的可以一起交流。

1個是百度的，PaddleHub元宇宙直通車：手把手教你造個虛擬數字人https://aistudio.baidu.com/projectdetail/3345856?ad-from=17549，源代碼地址https://github.com/JiehangXie/PaddleBoBo

?1個是看csdn文章發現的https://blog.csdn.net/weixin_45508265/article/details/136284743 ，源代碼地址：https://github.com/Kedreamix/Linly-Talker

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/711338.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/711338.shtml
英文地址，請注明出處：http://en.pswp.cn/news/711338.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！