[論文筆記]Glancing Transformer for Non-Autoregressive Neural Machine Translation

引言

這是論文Glancing Transformer for Non-Autoregressive Neural Machine Translation的筆記。

傳統的非自回歸文本生成速度較慢，因為需要給定之前的token來預測下一個token。但自回歸模型雖然效率高，但性能沒那么好。
這篇論文提出了Glancing Transformer，可以只需要一次解碼，并行地文本生成。并且效率不輸于Transformer這種自回歸方法。

簡介

Transformer變成了最廣泛使用的機器翻譯架構。盡管它的表現很好，但Transformer的解碼是低效的因為它采用序列自回歸因子分解來建模概率，見下圖1a。最近關于非自回歸Transformer(non-autoregressive transformer,NAT)的研究的方向是并行解碼目標token來加速生成。然而，純粹(vanilla)的NAT在翻譯質量上仍然落后于Transformer。NAT假設給定源句子后目標token是條件獨立的(圖1b)。作者認為NAT的條件獨立假設阻礙了學習目標句子中單詞的相關性(依賴關系)。這種相關性是至關重要的，通常Transformer通過從左到右解碼來顯示地捕獲它。

在這里插入圖片描述
也有一些補救方法提出了來捕獲單詞的相關性，同時保留并行解碼。他們的共同思想是通過迭代解碼目標token，每次解碼都使用掩碼語言模型進行訓練(圖1c)。因為這些模型需要多次解碼，它的生成速度顯著低于純粹的Transformer。而僅單次生成的方法表現比自回歸Transformer差很多。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/43543.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/43543.shtml
英文地址，請注明出處：http://en.pswp.cn/news/43543.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！