【AI+應用】aliyun的EMO圖生視頻模型引起的思考如何做AI數字人

昨天2 月 29 日消息,2 月 28 日,阿里巴巴集團智能計算研究院日前上線了一款新的 AI 圖片 - 音頻 - 視頻模型技術 EMO,官方稱其為 " 一種富有表現力的音頻驅動的肖像視頻生成框架 "。據悉,用戶只需要提供一張照片和一段任意音頻文件,EMO 即可生成會說話唱歌的 AI 視頻,以及實現無縫對接的動態小視頻,最長時間可達 1 分 30 秒左右。表情非常到位,任意語音、任意語速、任意圖像都可以一一對應。

自己的消息比較滯后,昨晚睡覺前才刷到這個消息。今天想了想,既然 aliyun推出EMO模型,新技術嘛,自己也要了解下。?找了下地址:https://humanaigc.github.io/emote-portrait-alive/ , 進入github地址:https://github.com/HumanAIGC/EMO。? 自己瞬間傻眼了,就一些說明文檔,沒代碼。這是準備和openai的Sora 對標么,先推出概念和效果讓市場先炒熱起來么。

回到正題,EMO的介紹, 讓我發現這不是就是AI數字人的技術么。之前本來想水一篇AI+數字人的,但由于自己了解不是太深,一直沒動筆。趁著這個機會,寫一篇自己的淺見。

網上很多AI+數字人的付費課程,?是不是割韭菜就不知道了。這里說下我認為實現AI+數字人的方案(科普入門), 不包括變現(個人的理解,2C業務應該不外乎x寶,視頻號,x音,x手,B站等APP,發爆款AI數字人視頻或直播,增加流量,增加粉絲,櫥窗和直播帶貨。2B業務可能涉及企業培訓服務等)。

先說下市面上的,據我所知,國內?

百度(https://cloud.baidu.com/product/baidudigitalhuman.html?track=mkt_sem),

騰訊(https://cloud.tencent.com/product/ivh),

華為(https://activity.huaweicloud.com/metastudio-szr.html?utm_source=baidu&utm_medium=se-cpc-op&utm_campaign=&utm_content=&utm_term=%E6%95%B0%E5%AD%97%E4%BA%BA&utm_adplace=AdPlace085313&bd_vid=11382723768066594769),

aliyun(https://cn.aliyun.com/product/ai/avatar?from_alibabacloud= )等一眾平臺都有付費的AI數字人平臺, ?或者百度搜索下很多廣告專門賣這個的。?國外比較出名的 heygen(官網地址:https://www.heygen.com/?,打開需要用點魔法)很多人都在用的方案(一個賬戶只有一分鐘左右的免費額度, 用臨時郵箱網站瘋狂注冊賬號,突破這個限制。怎么搞網上找找,這里就不細說了)。

圖片

用別人的平臺制作數字人成本會比較高, 自己怎么低成本做呢,以下是一些思路。

AI數字人 = AI + ?數字人, 要想做數字人需要有哪些技術儲備呢。? 視頻+音頻+字幕? 這3個應該都需要。?

真人或動漫數字人視頻制作(一般圖片生成視頻,推薦heygen,? 后續可以看看sora或emo吧)

音頻制作,業界應該有2種方案,TTS(Text-to-Speech,文本轉語音)和 SVC(Singing Voice Conversion,聲音轉聲音)是兩種不同的聲音合成技術, 這2種技術應用場景不一樣。比如TTS適用于?智能助手、有聲閱讀、無障礙服務、導航系統等, SVC適用于音樂制作、娛樂、教育等。這塊自己研究不深,自己最近在看GPT-SoVITS ( https://github.com/RVC-Boss/GPT-SoVITS )這個開源項目。

網上找的音頻制作軟件,這里注明,自己沒用過。

1、ElevenLabs(11Labs):一個功能強大的在線文字轉語音(TTS)工具,可以實現高質量的聲音克隆。

2、So-Vits-SVC:一個基于 Singing Voice Conversion(歌聲轉換)技術的聲音克隆工具。

3、Deep Voice:一個由騰訊AI實驗室開發的基于深度學習的聲音轉換系統。

4、Voicery:一個在線的聲音轉換平臺,支持多種語言和聲音風格。

5、Lyrebird:一個利用深度學習技術進行聲音克隆的工具,可以將文字轉換為語音。

字幕呢,一般最后視頻合成都用?剪輯軟件把,推薦x音的剪影吧。

上面講的自行創作,有人可能說自己創作多累啊,用別人的視頻改改是否可行。關于二次創作或模仿呢,網上可能還有人會講,?下載xx平臺火爆的爆款視頻(一般可以用影刀這些RPA工具抓取鏈接,low一點自己以一個一個爬取),用微信小程序的 輕抖去水印, 去水印, 提取字幕(用chatGPT等軟件進行二次改造),用x音的剪映改改視頻, 這樣是不是就算是翻版了, 被認為原創了。??這里只是大概思路,自己沒實操過。

作為程序員,怎么可能不上代碼呢。?最近自己找了2個開源代碼,還沒學習,先附上鏈接。對這塊感興趣的可以一起交流。

1個是百度的,PaddleHub元宇宙直通車:手把手教你造個虛擬數字人https://aistudio.baidu.com/projectdetail/3345856?ad-from=17549, 源代碼地址https://github.com/JiehangXie/PaddleBoBo

?1個是看csdn文章發現的https://blog.csdn.net/weixin_45508265/article/details/136284743 , 源代碼地址:https://github.com/Kedreamix/Linly-Talker

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/711338.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/711338.shtml
英文地址,請注明出處:http://en.pswp.cn/news/711338.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

springboot235基于SpringBoot的房屋交易平臺的設計與實現

房屋交易平臺設計與實現 摘 要 信息數據從傳統到當代,是一直在變革當中,突如其來的互聯網讓傳統的信息管理看到了革命性的曙光,因為傳統信息管理從時效性,還是安全性,還是可操作性等各個方面來講,遇到了互…

死記硬背spring bean 的生命周期

1.bean的生命周期 我們平常經常使用類似于new Object()的方式去創建對象,在這個對象沒有任何引用的時候,會被gc給回收掉。而對于spring而言,它本身存在一個Ioc容器,就是用來管理對象的,而對象的生命周期也完全由這個容…

Spring之AOP入門

1.AOP介紹 AOP(Aspect Oriented Programming)面向切面編程,一種編程范式,指導開發者如何組織程序結構,作用是在不改動原始設計的基礎上為其進行功能增強 2.AOP的核心概念 概念定義SpringAOP(注解開發&am…

性能測試-反編譯jar

方法一,使用jd-gui 1、官網下載:Java Decompiler 2、下載mac版本后,解壓,如下所示: 雙擊 JD_GUI,提示錯誤,如下所示: 已經安裝了java 17,是java 1.8以上版本&#xff0…

Unity中URP下實現水體(水面高光)

文章目錄 前言一、實現高光反射原理1、原理:2、公式: 二、實現1、定義 _SpecularColor 作為高光反射的顏色2、定義 _SpecularIntensity 作為反射系數,控制高光反射的強度3、定義 _Smoothness 作為高光指數,用于模型高光范圍4、模擬…

ADO.NET+kafka實現發布訂閱保存到數據庫

??????ADO.NETkafka實現發布訂閱保存到數據庫 在.NET應用程序中,ADO.NET通常用于數據庫操作,而Apache Kafka是一個分布式流處理平臺,它允許發布(Producer)和訂閱(Consumer)消息流。使用A…

深入理解c指針(四)

目錄 六、assert斷言 七、指針的使用和傳址調用 1、strlen的模擬實現 2、傳值調用和傳址調用 3、練習-字符串逆序 在深入理解c指針&#xff08;三&#xff09;提到&#xff0c;在實際使用指針前可以檢測其是否指到有效空間&#xff1a; #include<stdio.h> int mai…

度量與評估客戶體驗:以客戶為中心的方法和工具

在當今的市場環境中&#xff0c;客戶體驗已經成為企業成功的關鍵因素。一個優秀的客戶體驗不僅能夠提升客戶滿意度&#xff0c;增強客戶忠誠度&#xff0c;還能夠吸引新的潛在客戶。然而&#xff0c;要實現這一目標&#xff0c;企業首先需要了解如何度量和評估客戶體驗。本文將…

day08_分類品牌管理商品規格管理商品管理

文章目錄 1 分類品牌管理1.1 菜單添加1.2 表結構介紹1.3 頁面制作1.4 品牌列表加載1.4.1 后端接口BrandControllerBrandServiceBrandMapperBrandMapper.xml 1.4.2 前端對接brand.jscategoryBrand.vue 1.5 分類數據加載1.6 列表查詢1.6.1 需求說明1.6.2 后端接口需求分析Categor…

linux nasm匯編中調用printf不報錯,但調用scanf報錯。拋出了分段錯誤(核心轉儲)

當我寫了如下匯編時 ; nasm -f elf64 -g -F dwarf charsin.asm ; gcc charsin.o -no-pie -o charsin ; ld -o eatclib eatclib.o ; gdb eatclib[SECTION .data]SPrompt db Enter string data, followed by Enter: ,0IPrompt db Enter an integer value, followed by Enter: ,1…

Python進階教學一

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 文章目錄 一、函數1.高階函數2.返回函數3.匿名函數4.裝飾器 二、實例1.類和實例2.限制訪問3. 繼承和多態4.實例屬性和類屬性 一、函數 1.高階函數 1.1 map1.2 reduce1.3 fi…

Dsco Dropship EDI需求分析

供應商要想從Dsco處通過EDI獲取訂單&#xff0c;需要部署自己的EDI系統&#xff0c;與Dsco的EDI供應商CommerceHub 建立連接&#xff0c;分為兩個方向&#xff1a; 1.從CommerceHub 的 Dsco 平臺獲取 EDI 850 采購訂單 2.向Dsco發送庫存&#xff08;846&#xff09;、訂單狀態…

MySQL的內外連接

1.內連接 內連接實際上就是利用 WHERE 子句&#xff08;連接條件&#xff09;對兩張表形成的笛卡爾積&#xff08;內連接&#xff09;進行篩選&#xff0c;我們之前學習的查詢基本都是內連接&#xff0c;也是在實際生產中被使用得最多的連接查詢。 另外內連接還可以使用下面的…

Java Swing游戲開發學習7

內容來自RyiSnow視頻講解 這一節實現的是背景音樂和音效的播放。 在這里&#xff0c;背景音樂和音效所用的音頻文件均為wav格式文件。Java SDK默認支持的格式有限&#xff0c;默認不支持mp3格式音樂。 背景音樂、拾取鑰匙、拾取靴子、開門分別有對應的音頻文件。 作者的實現…

2024-02學習筆記

1.當我們向Set集合中添加一個已經存在的元素時 當我們向Set集合中添加一個已經存在的元素時&#xff0c;Set集合會如何處理呢&#xff1f;實際上&#xff0c;Set集合不會將重復的元素添加到集合中。當我們向Set集合中添加一個元素時&#xff0c;Set集合會首先判斷該元素是否已…

Ubuntu-22.04安裝MegaCLI并查看MegaRAID的配置

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 文章目錄 前言一、MegaRAID二、安裝MegaCLI1.Ubuntu-18.042.Ubuntu-22.043.Ubuntu-20.044.CentOS-75.其它發行版 三、使用MegaCLI1.查看所有適配器信息2.查看所有物理磁盤信息…

華為配置WLAN高密業務示例

配置WLAN高密業務示例 組網圖形 圖1 配置高密WLAN環境網絡部署組網圖 業務需求組網需求數據規劃配置思路配置注意事項操作步驟配置文件 業務需求 體育場由于需要接入用戶數量很大&#xff0c;AP間部署距離較小&#xff0c;因此AP間的干擾較大&#xff0c;可能導致用戶上網網…

新王炸:文生視頻Sora模型發布,能否引爆AI芯片熱潮

前言 前方高能預警&#xff0c;Sora來襲&#xff01; 淺析Sora的技術亮點 語言模型中構建關鍵詞聯系 視頻素材分解為時空碎片 擴散模型DiT Not for play, But change world! OpenAI的宏大目標 未來已來&#xff0c;只是尚未流行 Sora的成本與OpenAI的7萬億美金豪賭 算…

【探索AI】人人都在講AIGC,什么是AIGC?

AIGC 概述示例展示我們日常用到的一些工具/應用核心技術介紹核心技術的算法解析案例及部分代碼實現1. 藝術作品2. 設計項目3. 影視特效4. 廣告創意總結 一張圖先了解下&#xff1a; 概述 "人工智能生成創造&#xff08;Artificial Intelligence Generated Content&#x…

從CPU緩存結構到原子操作

一、CPU緩存結構 1.1 CPU的多級緩存 因為CPU的計算速度非常快&#xff0c;但內存的訪問速度相對較慢。因此&#xff0c;如果CPU每次都要從內存讀取數據&#xff0c;會造成大量的等待時間&#xff0c;降低整體性能。 通過引入多級緩存&#xff0c;可以在CPU和內存之間建立數據…