引言
這是論文Glancing Transformer for Non-Autoregressive Neural Machine Translation的筆記。
傳統的非自回歸文本生成速度較慢,因為需要給定之前的token來預測下一個token。但自回歸模型雖然效率高,但性能沒那么好。
這篇論文提出了Glancing Transformer,可以只需要一次解碼,并行地文本生成。并且效率不輸于Transformer這種自回歸方法。
簡介
Transformer變成了最廣泛使用的機器翻譯架構。盡管它的表現很好,但Transformer的解碼是低效的因為它采用序列自回歸因子分解來建模概率,見下圖1a。最近關于非自回歸Transformer(non-autoregressive transformer,NAT)的研究的方向是并行解碼目標token來加速生成。然而,純粹(vanilla)的NAT在翻譯質量上仍然落后于Transformer。NAT假設給定源句子后目標token是條件獨立的(圖1b)。作者認為NAT的條件獨立假設阻礙了學習目標句子中單詞的相關性(依賴關系)。這種相關性是至關重要的,通常Transformer通過從左到右解碼來顯示地捕獲它。
也有一些補救方法提出了來捕獲單詞的相關性,同時保留并行解碼。他們的共同思想是通過迭代解碼目標token,每次解碼都使用掩碼語言模型進行訓練(圖1c)。因為這些模型需要多次解碼,它的生成速度顯著低于純粹的Transformer。而僅單次生成的方法表現比自回歸Transformer差很多。