我的用詞一直都挺克制的,基本不會用到“最強”這個字眼。
但是這一次的這個AI應用,是我認為在TTS(文字轉音頻)這個領域,當之無愧的“最強”。
ElevenLabs,簡稱11Labs。
僅需30秒到5分鐘左右的極少的數據集,就可以直接克隆任何一個人的聲音,完美復刻他的說話方式、他的音色,甚至連他的情緒都復刻過來。
最牛逼的是,你不需要再額外做任何操作,就可以直接用同樣的聲音,說出29國的語言。那個流暢度,那個口語表達。。。我在AI面前宛如一個廢物。
11Labs網址在此(上不去就開魔法):
https://elevenlabs.io/
盡管很多的大廠的語音TTS能力已經很強大了,比如微軟的TTS、比如國慶期間刷爆全網的GPT的語音TTS,但是這些大廠有一個問題,就是公司體量實在太大了,在商業化上的輿論影響和被監管風險也極大,所以這種超低成本的語音克隆TTS,他們至今也沒有向大眾公開,畢竟很容易受到全社會的倫理指責。
至于那些開源的TTS,說實話,效果都挺差強人意,比如Tortoise奇慢無比,比如bark下限和穩定性太差,都難堪大用。
大廠們公開的語音產品中,也沒有一項能達到11Labs如此便宜且如此便捷的了。要知道,像微軟的聲音克隆成本高的可怕,數小時的數據集、幾千幾萬塊錢。而11Labs,只需要30秒到5分鐘的音頻,1個月只需要5美刀就可以暢快的使用了。效果還出奇的好。
畢竟在現在這個AI時代,AI語音已經成了最為重要的環節之一。內容全球化翻譯、智能配音、數字人與機器人等,都有超強的應用。換句話說,沒有強TTS在背后支持,那些視頻和數字人,各個都是恐怖谷效應拉滿假到不行的啞巴。
而11Lbas的使用上,更是突出一個簡單和有手就行。
先準備30秒到5分鐘的音頻文件,不需要超過5分鐘,對質量幾乎沒有任何意義了。你可以多個音頻文件,但是每個不要超過10M。這塊一定要注意,數據集的質量跟你后面生成的質量息息相關,里面不要有任何雜音,越干凈、越純粹越好。
上面那個例子,我就去B站扒了點特朗普的演講視頻,然后剪映剪了下,準備了大概4分鐘的特朗普的干聲數據集,切成了11段。
然后進入11Labs的主頁,登錄后進入這個VoiceLab的頁面。這個頁面就可以去做聲音的克隆了。那個大大的加號就是新建一個聲音。
在彈窗中,第二個選項就是聲音克隆。
不過這個功能是付費功能,正常付個費就可以用了。首月優惠1美刀,基本就是白給,可以直接綁定中國境內的VISA就可以支付,比ChatGPT的付費方便多了。
在打開的彈窗上隨便輸個姓名,把數據集拖進去就行。標簽和描述啥的不用填。然后確認。記得一定不要開任何翻譯,比如google翻譯啥的,要不然會報錯。
大概只需要二十幾秒鐘吧,模型就OK了,速度出奇的快。你就可以直接點Use去使用。
這里再推薦大家幾個TTS的小技巧,善用標點符號去引導情緒。
比如這句話:I am Trump . my other name is "Chuan Jian guo".
把my other name is "Chuan Jian guo"這句話,變成my other name... is "Chuan Jian guo"后,你就能明顯聽出小停頓的情緒,
如果再把I am Trump后面加三個感嘆號,變成I am Trump!!!的話:
這情緒一下就激動了起來。。。
11Labs對這些標點符號的引導非常到位,善用標點符號,能給這段文字帶來完整的情緒感受。
在最后,說一下目前AI聲音的幾種技術和場景吧。
SVC,類似于變聲器。將一段音頻轉換成另一種特定的音色,音頻to音頻,我也寫過一篇教程:用SVC做特定人物AI配音 - 你奶奶都會的AI聲音教程?,成本挺高的,數十分鐘的干聲數據集,訓練幾個小時起步,但是對情緒和音調的還原最好,適合用在劇集配音、歌聲轉換等場景。不過這塊11Labs已經明確要進軍了,做語音轉換,不知道后面用戶的使用成本會拉低到什么地步。
TTS - 聲音克隆。將特定的人聲訓練成模型,然后文字轉音頻。用于需要特定某個人聲的場景、或同聲翻譯等等,數字人應用的很廣泛。成本低,但是對于情緒的變化肯定沒有SVC那么強,畢竟幾分鐘數據集+幾乎為0的等待時間,11Labs是典型的王者。
普通TTS。用平臺已經訓練好的聲音做配音,不可自定義,在有聲書和視頻配音里已經被廣泛應用。這塊的產品就非常多了,國外的微軟TTS、11Labs,國內的魔音工坊等等。
基本就這三種了,SVC和TTS我也寫過好多教程了,大家可以根據自己的場景,各取所需。