一、概述
? ? ? ? 語音合成又叫文字轉語音(TTS-text to speech ),本專題我們記錄從零搭建一個完整的語音合成系統,包括文本前端、聲學模型和聲碼器,從模型訓練到系統的工程化實現,模型可以部署在手機等嵌入式設備上,也可以部署在本地或云端服務器上。?更多資料和代碼可以進入?https://t.zsxq.com/qgmoN?,同時歡迎大家提出寶貴的建議,以共同探討學習。
二、效果演示
2.1 示例1
(1)文本:那是什么,怎么有如此恐怖的魂力?
(2)語音:
語音合成實例1
2.2 示例2
(1)文本:紫色龍影一閃即逝,眾人根本沒看清是什 ?么東西。
(2)語音:
語音合成實例2
三、技術路線
? ? ? ? 前期我們對比了基于merlin等傳統的基于pipline的方式和基于tacotron及tacotron2等端到端的方式,基于merlin的方式對文本前端的依賴更強,且聲學模型訓練更為復雜,需要對音素做對齊,對時長模型和聲學模型單獨訓練。端到端模型可以通過一個模型解決這些問題,降低文本前端的復雜性,并且合成效果更好。所以我們采用文本前端+tacotron2+lpcnet聲碼器的技術路線。
四、總結
? ? ? ? 本節我們總體概括了語音合成的技術路線,并對最終結果進行了展示。后面章節將完整實現一個端到端的語音合成系統。