僅需30秒完美復刻任何人的聲音 - 最強AI音頻11Labs

我的用詞一直都挺克制的,基本不會用到“最強”這個字眼。

但是這一次的這個AI應用,是我認為在TTS(文字轉音頻)這個領域,當之無愧的“最強”。

ElevenLabs,簡稱11Labs。

僅需30秒到5分鐘左右的極少的數據集,就可以直接克隆任何一個人的聲音,完美復刻他的說話方式、他的音色,甚至連他的情緒都復刻過來。

最牛逼的是,你不需要再額外做任何操作,就可以直接用同樣的聲音,說出29國的語言。那個流暢度,那個口語表達。。。我在AI面前宛如一個廢物。

11Labs網址在此(上不去就開魔法):

https://elevenlabs.io/

盡管很多的大廠的語音TTS能力已經很強大了,比如微軟的TTS、比如國慶期間刷爆全網的GPT的語音TTS,但是這些大廠有一個問題,就是公司體量實在太大了,在商業化上的輿論影響和被監管風險也極大,所以這種超低成本的語音克隆TTS,他們至今也沒有向大眾公開,畢竟很容易受到全社會的倫理指責。

至于那些開源的TTS,說實話,效果都挺差強人意,比如Tortoise奇慢無比,比如bark下限和穩定性太差,都難堪大用。

大廠們公開的語音產品中,也沒有一項能達到11Labs如此便宜且如此便捷的了。要知道,像微軟的聲音克隆成本高的可怕,數小時的數據集、幾千幾萬塊錢。而11Labs,只需要30秒到5分鐘的音頻,1個月只需要5美刀就可以暢快的使用了。效果還出奇的好

畢竟在現在這個AI時代,AI語音已經成了最為重要的環節之一。內容全球化翻譯、智能配音、數字人與機器人等,都有超強的應用。換句話說,沒有強TTS在背后支持,那些視頻和數字人,各個都是恐怖谷效應拉滿假到不行的啞巴。

而11Lbas的使用上,更是突出一個簡單和有手就行。

先準備30秒到5分鐘的音頻文件,不需要超過5分鐘,對質量幾乎沒有任何意義了。你可以多個音頻文件,但是每個不要超過10M。這塊一定要注意,數據集的質量跟你后面生成的質量息息相關,里面不要有任何雜音,越干凈、越純粹越好

上面那個例子,我就去B站扒了點特朗普的演講視頻,然后剪映剪了下,準備了大概4分鐘的特朗普的干聲數據集,切成了11段。

然后進入11Labs的主頁,登錄后進入這個VoiceLab的頁面。這個頁面就可以去做聲音的克隆了。那個大大的加號就是新建一個聲音。

在彈窗中,第二個選項就是聲音克隆。

不過這個功能是付費功能,正常付個費就可以用了。首月優惠1美刀,基本就是白給,可以直接綁定中國境內的VISA就可以支付,比ChatGPT的付費方便多了。

在打開的彈窗上隨便輸個姓名,把數據集拖進去就行。標簽和描述啥的不用填。然后確認。記得一定不要開任何翻譯,比如google翻譯啥的,要不然會報錯。

大概只需要二十幾秒鐘吧,模型就OK了,速度出奇的快。你就可以直接點Use去使用。

這里再推薦大家幾個TTS的小技巧,善用標點符號去引導情緒

比如這句話:I am Trump . my other name is "Chuan Jian guo".

把my other name is "Chuan Jian guo"這句話,變成my other name... is "Chuan Jian guo"后,你就能明顯聽出小停頓的情緒,

如果再把I am Trump后面加三個感嘆號,變成I am Trump!!!的話:

這情緒一下就激動了起來。。。

11Labs對這些標點符號的引導非常到位,善用標點符號,能給這段文字帶來完整的情緒感受。

在最后,說一下目前AI聲音的幾種技術和場景吧。

SVC,類似于變聲器。將一段音頻轉換成另一種特定的音色,音頻to音頻,我也寫過一篇教程:用SVC做特定人物AI配音 - 你奶奶都會的AI聲音教程?,成本挺高的,數十分鐘的干聲數據集,訓練幾個小時起步,但是對情緒和音調的還原最好,適合用在劇集配音、歌聲轉換等場景。不過這塊11Labs已經明確要進軍了,做語音轉換,不知道后面用戶的使用成本會拉低到什么地步。

TTS - 聲音克隆。將特定的人聲訓練成模型,然后文字轉音頻。用于需要特定某個人聲的場景、或同聲翻譯等等,數字人應用的很廣泛。成本低,但是對于情緒的變化肯定沒有SVC那么強,畢竟幾分鐘數據集+幾乎為0的等待時間,11Labs是典型的王者。

普通TTS。用平臺已經訓練好的聲音做配音,不可自定義,在有聲書和視頻配音里已經被廣泛應用。這塊的產品就非常多了,國外的微軟TTS、11Labs,國內的魔音工坊等等。

基本就這三種了,SVC和TTS我也寫過好多教程了,大家可以根據自己的場景,各取所需。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/207141.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/207141.shtml
英文地址,請注明出處:http://en.pswp.cn/news/207141.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

機器學習-分類問題

前言 《機器學習-回歸問題》知道了回歸問題的處理方式,分類問題才是機器學習的重點.從數據角度講,回歸問題可以轉換為分類問題的微分 邏輯回歸 邏輯回歸(Logistics Regression),邏輯回歸雖然帶有回歸字樣,但是邏輯回歸屬于分類算法。但只可…

極大提升GPT-4等模型推理效率,微軟、清華開源全新框架

隨著用戶需求的增多,GPT-4、Claude等模型在文本生成、理解、總結等方面的能力越來越優秀。但推理的效率并不高,因為,多數主流模型采用的是“順序生成詞”方法,會導致GPU利用率很低并帶來高延遲。 為了解決這一難題,清…

美國Linux服務器的iptables防火墻介紹

美國Linux服務器防火墻一般分為硬件防火墻和軟件防火墻,但不論是硬件防火墻還是軟件防火墻,都需要通過使用硬件作為聯機的介質,也需要使用軟件來設定美國Linux服務器安全政策,因此可以從使用的硬件與操作系統來加以區分。硬件防火…

oracle怎么推進scn?

很多時候,數據庫有故障打不開,需要用到推進scn的技術,這里介紹下12c及以上版本的oracle怎么推進數據庫的scn。 經測試發現,數據庫mount和open狀態下都可以通過此方法推進SCN。 Session1: 查詢當前SCN SQL> select c…

基于jsp+servlet的圖書管理系統

基于jspservlet的圖書管理系統演示地址為 圖書館后臺管理系統 用戶名:mr ,密碼:123 圖書館管理系統主要的目的是實現圖書館的信息化管理。圖書館的主要業務就是新書的借閱和歸還, 因此系統最核心的功能便是實現圖書的借閱和歸還。此外,還需要提供圖書…

Stable Diffusion XL on diffusers

Stable Diffusion XL on diffusers 翻譯自:https://huggingface.co/docs/diffusers/using-diffusers/sdxl v0.24.0 非逐字翻譯 Stable Diffusion XL (SDXL) 是一個強大的圖像生成模型,其在上一代 Stable Diffusion 的基礎上主要做了如下優化:…

生產上線需要注意的安全漏洞

一、關閉swagger 1、關閉swagger v3 # 需同時設置auto-startupfalse,否則/v3/api-docs等接口仍能繼續訪問 springfox:documentation:enabled: falseauto-startup: falseswagger-ui:enabled: false 2、關閉swagger v2 # 只要不是true就不啟用 swagger:enable: fa…

深度解讀:淘客返利機器人無限制與免費版的差異

深度解讀:淘客返利機器人無限制與免費版的差異 在數字時代,人工智能和大數據技術的飛速發展正在改變我們的生活方式,尤其在購物領域,各種優惠工具如雨后春筍般涌現。其中,淘客返利機器人和微賺淘客系統以其獨特的優勢&#xff0c…

Python核心編程之序列下篇

目錄 十二、列表 如何創建列表類型數據并給它賦值 如何訪問列表中的值

代立冬:基于Apache Doris+SeaTunnel 實現多源實時數據倉庫解決方案探索實踐

大家好,我是白鯨開源的聯合創始人代立冬,同時擔任 Apache DolphinScheduler 的 PMC chair 和 SeaTunnel 的 PMC。作為 Apache Foundation 的成員和孵化器導師,我積極參與推動多個開源項目的發展,幫助它們通過孵化器成長為 Apache …

如何訪問內部網絡做內網穿透

項目:https://github.com/ehang-io/nps 有個公網服務器,搭建服務端。 然后客戶端使用: -server是服務端的訪問方式。-vkey是秘鑰。 ./npc -server192.227.19.12:8024 -vkeyoies8gq3wml -typetcp然后在服務端配置TCP隧道即可。

某度旋轉驗證碼v2 逆向分析

v2主要依據是核心 JS 文件mkd_v2.js 版本,如下圖所示: 第一次 https://passport.baidu.com/cap/init 接口,請求的 ak 是固定值,當然不同場景不同網站是不一樣的,_ 時間戳,ver1,返回值 as、tk 都…

大數據的技術棧-逐步完善

目錄 1.hadoop a.HDFS分布式文件系統 b.Yarn集群資源管理器 c.MapReduce sql引擎 d.Impala sql引擎 e.工具概觀 2.數據倉庫知識 a.Hive數據庫 1)Hive Sql 2)數據庫結構 b.Doris數據庫 3.混合處理框架SPARK a.Spark b.集群架構 4.數倉模型知識 5.開發工具 a.Dbeaver b.Idea…

android項目實戰之使用框架 集成多圖片、視頻的上傳

效果圖 實現方式,本功能使用PictureSelector 第三方庫 。作者項目地址:https://github.com/LuckSiege/PictureSelector 1. builder.gradle 增加 implementation io.github.lucksiege:pictureselector:v3.11.1implementation com.tbruyelle.rxpermissio…

線性回歸實戰

3.1 使用正規方程進行求解 3.1.1 簡單線性回歸 公式 : y w x b y wx b ywxb 一元一次方程,在機器學習中一元表示一個特征,b表示截距,y表示目標值。 使用代碼進行實現: 導入包 import numpy as np import matp…

中綴表達式轉后綴表達式與后綴表達式計算(詳解)

**中綴表達式轉后綴表達式的一般步驟如下: 1:創建一個空的棧和一個空的輸出列表。 2:從左到右掃描中綴表達式的每個字符。 3:如果當前字符是操作數,則直接將其加入到輸出列表中。 4:如果當前字符是運算符&a…

QNX usleep測試

QNX usleep測試 結論 usleep時間在QNX上沒有ubuntu上運行準確&#xff0c;但是10ms以上誤差不大。 測試代碼 testsleep.cpp的代碼如下&#xff1a; #include <unistd.h> #include <stdio.h> #include <stdlib.h> #include <time.h>double usleep_…

sklearn 筆記:neighbors.NearestNeighbors 自定義metric

1 數據 假設我們有這樣的一個數據tst_lst&#xff0c;表示的是5條軌跡的墨卡托坐標&#xff0c;我們希望算出逐點的曼哈頓距離之和&#xff0c;作為兩條軌跡的距離 [array([[11549759.51313693, 148744.89246911],[11549751.49813359, 148732.97804463],[11549757.620705…

Linux 常用命令匯總

1 linux定時任務 查看定時任務&#xff1a;crontab -l 每晚一點半執行定時任務&#xff1a; 30 1 * * * sh /var/lib/pgsql/pg_db_backup.sh >> /var/lib/pgsql/pg_db_backup.log 2>&1 配置定時任務&#xff1a;crontab -e 2 linux 內核版本查詢 cat /etc/r…

P5744 【深基7.習9】培訓

題目描述 某培訓機構的學員有如下信息&#xff1a; 姓名&#xff08;字符串&#xff09;年齡&#xff08;周歲&#xff0c;整數&#xff09;去年 NOIP 成績&#xff08;整數&#xff0c;且保證是 5 5 5 的倍數&#xff09; 經過為期一年的培訓&#xff0c;所有同學的成績都…