語音合成技術近年來取得了顯著進步,特別是在語音克隆、語音助手、配音服務和有聲讀物等領域。然而,如何讓合成的語音更具情感,更貼近人類的真實表達,一直是這一領域的重要研究方向。今天,我們將為大家介紹一款由網易有道推出的開源TTS(Text-to-Speech)模型——EmotiVoice。這款強大的開源引擎不僅完全免費,還支持中英文雙語,并提供超過2000種獨特音色以及特色的情感合成功能。
EmotiVoice的核心優勢在于其能夠生成包含多種情感的語音,如快樂、興奮、悲傷和憤怒等。這使得它在眾多應用場景中脫穎而出,無論是個人開發者還是企業用戶,都能從中受益。以下是EmotiVoice的主要功能:
首先,多語言多音色的支持是其一大亮點。該模型支持英語和中文兩種語言,并提供超過2000種獨特的音色選擇,極大地豐富了語音合成的可能性。其次,EmotiVoice具備多種情緒模擬能力,可以輕松生成帶有開心、傷心、憤怒、平靜、驚訝和害羞等多種情感的語音,為用戶提供更加真實和豐富的聽覺體驗。
此外,EmotiVoice還提供了語音克隆功能,用戶可以通過私有音頻數據定制專屬音色。這一功能對于需要個性化語音服務的應用場景尤為有用。同時,提示控制生成功能允許用戶利用提示詞精調語音風格與表達,從而更好地滿足特定需求。
為了方便使用和集成,EmotiVoice還提供了Web界面和OpenAI兼容API。這意味著用戶可以通過網頁操作界面直接體驗其強大的TTS功能,或者通過API將其無縫集成到現有的系統中。
對于想要快速體驗EmotiVoice的用戶,最簡單的方法是運行Docker鏡像。只需執行以下指令即可啟動EmotiVoice鏡像:docker run -dp 127.0.0.1:8501:8501 syq163/emoti-voice:latest
。如果需要更新鏡像,可以使用docker pull syq163/emoti-voice:latest
命令。當Docker運行成功后,打開瀏覽器并導航到http://localhost:8501
,就可以直接體驗EmotiVoice的強大功能。
另一種常見的部署方式是本地安裝。首先創建一個名為EmotiVoice的conda環境并激活它,然后安裝所需的Python庫,如torch、numpy、scipy等。接下來,下載模型文件并運行Web界面。具體步驟包括安裝git-lfs工具,克隆模型倉庫,最后運行streamlit run demo_page.py
命令啟動Web界面。
更多詳細的部署指南可以在GitHub的Wiki頁面找到,幫助用戶更順利地完成整個過程。
許多人對人工智能語音的印象仍然停留在“導航播報”、“機械客服”和“系統提示音”這些缺乏溫度的場景中。然而,隨著像EmotiVoice這樣的多情感TTS模型的出現,我們開始意識到人工智能不僅僅是能說話,它還能“像人一樣”說話。它可以為孩子講述故事,為用戶提供情感上的安慰,為創作者激發靈感,甚至為逝去的聲音留下回響。
更重要的是,EmotiVoice是一款完全免費開源且靈活易接入的工具,擺脫了商業封閉的束縛。如果你正在尋找一個功能強大、質量高且部署方便的開源TTS系統,不妨嘗試一下這款由網易推出的開源TTS引擎。它可能會為你帶來意想不到的驚喜和價值。
快速使用
想要體驗 EmotiVoice 最簡單的方法就是運行 Docker 鏡像。
運行 EmotiVoice 鏡像指令:
docker run -dp 127.0.0.1:8501:8501 syq163/emoti-voice:latest
Docker 鏡像更新指令:
docker pull syq163/emoti-voice:latestdocker run -dp 127.0.0.1:8501:8501 -p 127.0.0.1:8000:8000 syq163/emoti-voice:latest
如果Docker運行成功,就可以打開瀏覽器,導航到?http://localhost:8501
,之后可以直接體驗EmotiVoice強大的TTS功能。
另外一種大眾的部署方式,就是本地安裝。
conda create -n EmotiVoice python=3.8 -yconda activate EmotiVoicepip install torch torchaudiopip install numpy numba scipy transformers soundfile yacs g2p_en jieba pypinyin pypinyin_dictpython -m nltk.downloader?"averaged_perceptron_tagger_eng"
下載模型文件
git lfs installgit lfs?clone?https://huggingface.co/WangZeJun/simbert-base-chinese WangZeJun/simbert-base-chinese# 或者下面的下載方式git?clone?https://www.modelscope.cn/syq163/WangZeJun.git
運行Web界面
streamlit run demo_page.py
更多細節指南可以去 GitHub 的 Wiki 進行參考操作。
寫在最后
很多人對AI語音的印象,還停留在“導航播報”“機械客服”“系統提示音”這些沒有溫度的場景中。
但隨著 EmotiVoice 等多情感TTS模型的出現,我們開始意識到AI不只是能說話,它還能“像人一樣”說話。
它可以為孩子講故事、為用戶安慰心情、為創作者激發靈感、為逝去的聲音留下回響。
而且,它還是完全免費開源、靈活易接入的工具,不再被商業封閉所束縛。
如果你正在找一個功能強、質量高、部署方便的開源 TTS 系統,不妨試試網易這款開源TTS引擎。
GitHub 項目地址:https://github.com/netease-youdao/EmotiVoice