昨天2 月 29 日消息,2 月 28 日,阿里巴巴集團智能計算研究院日前上線了一款新的 AI 圖片 - 音頻 - 視頻模型技術 EMO,官方稱其為 " 一種富有表現力的音頻驅動的肖像視頻生成框架 "。據悉,用戶只需要提供一張照片和一段任意音頻文件,EMO 即可生成會說話唱歌的 AI 視頻,以及實現無縫對接的動態小視頻,最長時間可達 1 分 30 秒左右。表情非常到位,任意語音、任意語速、任意圖像都可以一一對應。
自己的消息比較滯后,昨晚睡覺前才刷到這個消息。今天想了想,既然 aliyun推出EMO模型,新技術嘛,自己也要了解下。?找了下地址:https://humanaigc.github.io/emote-portrait-alive/ , 進入github地址:https://github.com/HumanAIGC/EMO。? 自己瞬間傻眼了,就一些說明文檔,沒代碼。這是準備和openai的Sora 對標么,先推出概念和效果讓市場先炒熱起來么。
回到正題,EMO的介紹, 讓我發現這不是就是AI數字人的技術么。之前本來想水一篇AI+數字人的,但由于自己了解不是太深,一直沒動筆。趁著這個機會,寫一篇自己的淺見。
網上很多AI+數字人的付費課程,?是不是割韭菜就不知道了。這里說下我認為實現AI+數字人的方案(科普入門), 不包括變現(個人的理解,2C業務應該不外乎x寶,視頻號,x音,x手,B站等APP,發爆款AI數字人視頻或直播,增加流量,增加粉絲,櫥窗和直播帶貨。2B業務可能涉及企業培訓服務等)。
先說下市面上的,據我所知,國內?
百度(https://cloud.baidu.com/product/baidudigitalhuman.html?track=mkt_sem),
騰訊(https://cloud.tencent.com/product/ivh),
華為(https://activity.huaweicloud.com/metastudio-szr.html?utm_source=baidu&utm_medium=se-cpc-op&utm_campaign=&utm_content=&utm_term=%E6%95%B0%E5%AD%97%E4%BA%BA&utm_adplace=AdPlace085313&bd_vid=11382723768066594769),
aliyun(https://cn.aliyun.com/product/ai/avatar?from_alibabacloud= )等一眾平臺都有付費的AI數字人平臺, ?或者百度搜索下很多廣告專門賣這個的。?國外比較出名的 heygen(官網地址:https://www.heygen.com/?,打開需要用點魔法)很多人都在用的方案(一個賬戶只有一分鐘左右的免費額度, 用臨時郵箱網站瘋狂注冊賬號,突破這個限制。怎么搞網上找找,這里就不細說了)。
用別人的平臺制作數字人成本會比較高, 自己怎么低成本做呢,以下是一些思路。
AI數字人 = AI + ?數字人, 要想做數字人需要有哪些技術儲備呢。? 視頻+音頻+字幕? 這3個應該都需要。?
真人或動漫數字人視頻制作(一般圖片生成視頻,推薦heygen,? 后續可以看看sora或emo吧)
音頻制作,業界應該有2種方案,TTS(Text-to-Speech,文本轉語音)和 SVC(Singing Voice Conversion,聲音轉聲音)是兩種不同的聲音合成技術, 這2種技術應用場景不一樣。比如TTS適用于?智能助手、有聲閱讀、無障礙服務、導航系統等, SVC適用于音樂制作、娛樂、教育等。這塊自己研究不深,自己最近在看GPT-SoVITS ( https://github.com/RVC-Boss/GPT-SoVITS )這個開源項目。
網上找的音頻制作軟件,這里注明,自己沒用過。
1、ElevenLabs(11Labs):一個功能強大的在線文字轉語音(TTS)工具,可以實現高質量的聲音克隆。
2、So-Vits-SVC:一個基于 Singing Voice Conversion(歌聲轉換)技術的聲音克隆工具。
3、Deep Voice:一個由騰訊AI實驗室開發的基于深度學習的聲音轉換系統。
4、Voicery:一個在線的聲音轉換平臺,支持多種語言和聲音風格。
5、Lyrebird:一個利用深度學習技術進行聲音克隆的工具,可以將文字轉換為語音。
字幕呢,一般最后視頻合成都用?剪輯軟件把,推薦x音的剪影吧。
上面講的自行創作,有人可能說自己創作多累啊,用別人的視頻改改是否可行。關于二次創作或模仿呢,網上可能還有人會講,?下載xx平臺火爆的爆款視頻(一般可以用影刀這些RPA工具抓取鏈接,low一點自己以一個一個爬取),用微信小程序的 輕抖去水印, 去水印, 提取字幕(用chatGPT等軟件進行二次改造),用x音的剪映改改視頻, 這樣是不是就算是翻版了, 被認為原創了。??這里只是大概思路,自己沒實操過。
作為程序員,怎么可能不上代碼呢。?最近自己找了2個開源代碼,還沒學習,先附上鏈接。對這塊感興趣的可以一起交流。
1個是百度的,PaddleHub元宇宙直通車:手把手教你造個虛擬數字人https://aistudio.baidu.com/projectdetail/3345856?ad-from=17549, 源代碼地址https://github.com/JiehangXie/PaddleBoBo
?1個是看csdn文章發現的https://blog.csdn.net/weixin_45508265/article/details/136284743 , 源代碼地址:https://github.com/Kedreamix/Linly-Talker