論文地址:https://arxiv.org/abs/2107.09428
摘要
非自回歸 (NAR) 模型在語音處理中越來越受到關注。 憑借最新的基于注意力的自動語音識別 (ASR) 結構,與自回歸 (AR) 模型相比,NAR 可以在僅精度略有下降的情況下實現有前景的實時因子 (RTF) 提升。 然而,識別推理需要等待完整語音話語的完成,這限制了其在低延遲場景中的應用。 為了解決這個問題,我們提出了一種新穎的端到端流式 NAR 語音識別系統,該系統結合了分塊注意力和帶有掩碼預測 (Mask-CTC) NAR 的連接主義時間分類。 在推理過程中,輸入音頻被分成小的塊,然后以分塊流式的方式進行處理。 為了解決每個塊輸