F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching
- 論文鏈接:https://arxiv.org/pdf/2410.06885
- 代碼鏈接:https://SWivid.github.io/F5-TTS/
一段話總結
本文提出了 F5-TTS,一種基于流匹配和擴散 Transformer(DiT)的全非自回歸文本到語音系統,它無需復雜的時長模型、文本編碼器和音素對齊,通過 ConvNeXt 優化文本表示并引入推理時的 Sway Sampling 策略,解決了 E2 TTS 收斂慢和魯棒性低的問題,實現了更快的訓練和推理(RTF 達 0.15),在 10 萬小時多語言數據集上訓練后,展現出高度自然的零樣本能力、無縫代碼切換和速度控制效率,且已開源代碼和檢查點。
模型結構
詳細信息
核心指標
幾個問題
字符和音頻的時長對齊是怎么解決的?
noise speech masked speech 和 characters 這幾個部分細節上是怎么融入模型的?
局限與展望
遺留問題
- 通過直接尾部 padding 的方式,會導致句子頭尾的字符與音頻頭尾的依賴關系不一致,感覺類似于時長擴展的方式可能會更好?
- masked speech(掩碼語音)主要是提供了音頻 prompt 信息?但是直接mask中間部分,頭尾的保留部分會導致信息泄露,是的音頻prompt和文本內容不解耦?
- 這種通過token(character )和 mel 長度的比值關系來預估推理音頻長度,是否合理?會存在什么其他問題嗎?