GLM-4-9B?開源系列模型
前言
就在最近,ByteDance的研究人員最近推出了一系列名為Seed-TTS的大規模自回歸文本轉語音(TTS)模型,能夠合成幾乎與人類語音無法區分的高質量語音。那么Seed-TTS的表現究竟有多強呢?讓我們一起來感受下Seed-TTS帶來的驚喜吧!
介紹Seed-TTS
Seed-TTS?是語音合成技術的一次巨大飛躍。它在客觀和主觀評估中,說話和人的相似度與自然方面表現都達到了與真實人類說話無太大差別的水平。通過微調,Seed-TTS?的主觀評分甚至更勝一籌。
最令人驚嘆的是Seed-TTS?在零樣本上下文學習(ICL)設置中的表現。在ICL中,模型僅給定一小段參考語音作為音頻提示,就能合成與提示語音說話人極為相似、富有表現力且難以區分于真人的語音。與基于?FastSpeech?的說話人微調?TTS?模型相比,人工評估者認為Seed-TTS?生成的語音在自然方面和表達性具有明顯的優勢。
Seed-TTS可控與靈活性
除了語音質量,Seed-TTS?還提供了對各種語音屬性如情感的優越可控性。通過指令微調(IFT),Seed-TTS?能夠靈活控制生成語音的各個方面,如表達性、語速、風格、情感等。我們對四種基本情感(憤怒、高興、悲傷和驚訝)進行了評估,結果表明?Seed-TTS?在情感控制方面取得了令人滿意的準確率。
此外,Seed-TTS?還提出了用于語音分解的自蒸餾方法,通過生成共享大部分信息但在目標屬性上有差異的語音對數據,實現了高質量的語音屬性解耦。在零樣本語音轉換任務上,這一方法的表現優于現有的最先進方法。
通過強化學習方法,研究人員進一步提升了Seed-TTS?在情感表達和控制方面的性能。與原始零樣本ICL模型相比,強化學習顯著提高了Seed-TTS?在各種情感上的控制準確率。
總結
ByteDance提出的Seed-TTS模型展現了語音合成技術的巨大進步。它不僅在語音質量上達到了令人驚嘆的高度,在可控性和靈活性上也實現了重大突破。相信在不久的將來,我們就能在更多應用中見證Seed-TTS帶來的神奇體驗。
厚德云官方最近推出GPU狂歡月活動!高配4090折扣勁爆價!如果你對算力感興趣或有需求,可以來厚德云官方看看!
厚德云是專業的AI算力云平臺,為用戶提供穩定、可靠、易用、省錢的GPU算力解決方案。海量GPU算力資源租用,就在厚德云。