微軟公司開發了一種新的神經編解碼語言模型 Vall-E,在自然度、語音魯棒性和說話者相似性方面都超越了以前的成果。它是同類產品中第一個在兩個流行基準測試中達到人類同等水平的產品,而且顯然非常逼真,以至于微軟不打算向公眾開放。
VALL-E 2 是神經編解碼器語言模型的最新進展,它標志著零鏡頭文本到語音合成 (TTS) 的里程碑,首次實現了與人類平等。在其前身 VALL-E 所奠定的基礎上,新的迭代版本引入了兩項重大增強功能,以提高其性能: 重復感知采樣(Repetition Aware Sampling)通過考慮解碼歷史中的標記重復,改進了原始的核采樣過程。它不僅能穩定解碼,還能避免在 VALL-E 中遇到的無限循環問題。分組編碼建模將編解碼器編碼組織成組,有效縮短了序列長度,不僅提高了推理速度,還解決了長序列建模的難題。我們在 LibriSpeech 和 VCTK 數據集上進行的實驗表明,VALL-E 2 在語音魯棒性、自然度和說話人相似度方面都超過了以前的零鏡頭 TTS 系統。在這些基準測試中,VALL-E 2 是第一個達到人類同等水平的系統。此外,VALL-E 2 還能始終如一地合成高質量語音,即使是傳統上因句子復雜或短語重復而具有挑戰性的句子也不例外。
分組編碼建模不僅能通過減少序列長度來加快推理速度,還能通過緩解長上下文建模問題來提高性能。基于解碼歷史中的標記重復,重復感知采樣增強了解碼過程的穩定性,避免了 VALL-E 中遇到的無限循環問題。
VALL-E 2 首次實現了人類平價零鏡頭 TTS 性能。在這種情況下,人類平價表示 VALL-E 2 的魯棒性、自然度和相似度指標都超過了地面實況樣本(WER(GroundTruth) - WER(VALL-E 2) >0,CMOS(VALL-E 2) - CMOS(GroundTruth) >0,SMOS(VALL-E 2) - SMOS(GroundTruth)> 0),這意味著 VALL-E 2 可以生成準確、自然、與原說話人聲音完全一致的語音,其性能可與人類相媲美。值得注意的是,這一結論完全來自 LibriSpeech 和 VCTK 數據集的實驗結果。
感謝大家花時間閱讀我的文章,你們的支持是我不斷前進的動力。期望未來能為大家帶來更多有價值的內容,請多多關注我的動態!