跨語言語言模型預訓練

摘要

最近的研究表明，生成式預訓練在英語自然語言理解任務中表現出較高的效率。在本研究中，我們將這一方法擴展到多種語言，并展示跨語言預訓練的有效性。我們提出了兩種學習跨語言語言模型（XLM）的方法：一種是僅依賴于單語數據的無監督方法，另一種是利用平行數據并結合新的跨語言語言模型目標的有監督方法。我們的方法在跨語言分類、無監督和有監督機器翻譯任務上取得了最新的最優結果。在XNLI任務上，我們的方法將當前最優結果的準確率提升了4.9%（絕對提升）。在無監督機器翻譯任務中，我們在WMT’16德語-英語任務上取得了34.3 BLEU分數，相較于之前的最優方法提升了9分以上。在有監督機器翻譯任務中，我們在WMT’16羅馬尼亞語-英語任務上取得了38.5 BLEU分數，相比之前的最佳方法提升了4分以上。我們的代碼和預訓練模型將公開發布。

1 引言

生成式預訓練的句子編碼器（Radford et al., 2018; Howard and Ruder, 2018; Devlin et al., 2018）在多個自然語言理解（NLU）基準測試中取得了顯著的提升（Wang et al., 2018）。在這一框架下，Transformer（Vaswani et al., 2017）語言模型在大規模無監督文本語料上進行訓練，并隨后在自然語言理解任務（如分類（Socher et al., 2013）或自然語言推理（Bowman et al., 2015; Williams et al., 2017））上進行微調。盡管針對通用句子表示學習的研究興趣正在上升，但這一領域的研究仍主要集中在單語任務上，特別是基于英語的基準測試（Conneau and Kiela, 2018; Wang et al., 2018）。最近，針對多種語言的跨語言句子表示學習和評估的研究（Conneau et al., 2018b）試圖緩解英語中心化的問題，并表明可以構建通用的跨語言編碼器，將任意句子編碼到一個共享的嵌入空間中。

在本研究中，我們展示了跨語言語言模型預訓練在多個跨語言理解（XLU）基準測試上的有效性。具體而言，我們的主要貢獻如下：

我們引入了一種新的無監督方法，通過跨語言語言建模學習跨語言表示，并探討了兩種單語預訓練目標。
我們提出了一種新的有監督學習目標，該目標在有平行數據時可提升跨語言預訓練效果。
我們在跨語言分類、無監督機器翻譯和有監督機器翻譯任務上顯著超越了此前的最優方法。
我們展示了跨語言語言模型在低資源語言的困惑度（perplexity）方面可以帶來顯著改進。
我們的代碼和預訓練模型將公開發布。

2 相關工作

本研究基于 Radford 等人（2018）、Howard 和 Ruder（2018）、Devlin 等人（2018）的工作，這些研究探索了用于預訓練 Transformer 編碼器的語言建模方法。這些方法在 GLUE 基準測試（Wang et al., 2018）中的多個分類任務上帶來了顯著提升。Ramachandran 等人（2016）表明，語言模型預訓練同樣可以在機器翻譯任務上帶來顯著提升，即使對于英語-德語這樣的高資源語言對，在已有大量平行數據的情況下仍然能取得改進。與此同時，BERT 倉庫中的研究展示了使用跨語言語言建模方法進行跨語言分類的結果。我們將在第 5 節對比這些方法和我們的方法。

文本表示對齊的研究歷史悠久，最早可追溯至詞向量對齊。Mikolov 等人（2013a）利用小規模詞典對不同語言的詞表示進行對齊。隨后的一系列研究表明，跨語言表示可以提升單語表示的質量（Faruqui 和 Dyer, 2014），正交變換足以對齊這些詞分布（Xing et al., 2015），并且這些技術可擴展至任意數量的語言（Ammar et al., 2016）。在這一研究方向上，跨語言監督信號的需求逐步減少（Smith et al., 2017），直到完全去除（Conneau et al., 2018a）。本研究進一步推進了這些思路，不僅對齊句子分布，同時減少對平行數據的依賴。

關于跨語言句子表示對齊的研究已經十分廣泛。Hermann 和 Blunsom（2014）、Conneau 等人（2018b）、Eriguchi 等人（2018）利用平行數據研究了零樣本跨語言句子分類任務。然而，近年來最成功的跨語言編碼器方法可能是 Johnson 等人（2017）提出的多語言機器翻譯方法。他們展示了一個單一的序列到序列（seq2seq）模型可以用于多種語言對的機器翻譯，通過共享 LSTM 編碼器和解碼器來實現。他們的多語言模型在低資源語言對上的表現超越了最優方法，并實現了零樣本翻譯。基于這一思路，Artetxe 和 Schwenk（2018）進一步表明，該模型的編碼器可用于生成跨語言句子嵌入。他們的方法利用了超過 2 億條平行句子，并在 XNLI 跨語言分類基準測試（Conneau et al., 2018b）上取得了最新的最優結果，通過在固定的句子表示之上訓練分類器實現。然而，這些方法依賴于大量的平行數據，而近年來的無監督機器翻譯研究表明，句子表示可以在完全無監督的情況下對齊（Lample 等人，2018a；Artetxe 等人，2018）。例如，Lample 等人（2018b）在 WMT’16 德語-英語任務上取得了 25.2 BLEU 分數，而未使用任何平行句子。類似于這些工作，我們展示了句子分布可以在完全無監督的情況下對齊，并證明我們的跨語言模型可用于多種自然語言理解任務，包括機器翻譯。

與我們的研究最相似的工作可能是 Wada 和 Iwata（2018）提出的方法。他們使用來自不同語言的句子訓練 LSTM（Hochreiter 和 Schmidhuber, 1997）語言模型，并共享 LSTM 參數，同時使用不同的查找表（lookup tables）來表示每種語言的詞匯。他們主要關注單詞表示的對齊，并展示了該方法在單詞翻譯任務上的有效性。

3 跨語言語言模型

本節介紹本研究中使用的三種語言建模目標，其中兩種僅依賴單語數據（無監督方法），另一種需要平行句子（有監督方法）。我們考慮N 種語言，并假設我們擁有 N 個單語語料庫，分別記作 ${Ci} (i=1, ..., N)$ ，其中 ni 代表 Ci 中的句子數量。

3.1 共享子詞詞匯表

在所有實驗中，我們使用相同的共享詞匯表對所有語言進行處理，該詞匯表是通過字節對編碼（BPE）（Sennrich et al., 2015）構建的。如 Lample 等人（2018a）所示，這種方法可以顯著提升共享嵌入空間中不同語言的對齊效果，特別是對于共享相同字母表或錨定 token（如數字（Smith et al., 2017）或專有名詞）的語言。我們在從單語語料庫中隨機抽取的句子拼接后訓練 BPE 切分。

句子的采樣遵循多項分布，其概率為概率為 $\{ q _ { i } \} _ { i = 1 \dots N }$ ，其中：
$\frac { p _ { i } ^ { \alpha } } { \sum _ { j = 1 } ^ { N } p _ { j } ^ { \alpha } } \; \; \; \mathrm { w i t h } \; \; \; p _ { i } = \frac { n _ { i } } { \sum _ { k = 1 } ^ { N } n _ { k } } .$
我們在實驗中取 $α = 0.5$ 。采用此分布進行采樣可以增加低資源語言的 token 數量，并減少對高資源語言的偏倚，特別是防止低資源語言的單詞被切分為字符級 token。

3.2 因果語言模型（CLM）

我們的因果語言模型（CLM）任務包括訓練一個Transformer語言模型，以建模句子中給定前面單詞情況下某個單詞的概率 $\dots , w _ { t - 1 } , \theta )$ 。雖然循環神經網絡在語言建模基準上取得了最新成果（Mikolov等人，2010；Jozefowicz等人，2016），但Transformer模型也非常有競爭力（Dai等人，2019）。在LSTM語言模型的情況下，通過時間的反向傳播（Werbos，1990）（BPTT）是通過向LSTM提供前一次迭代的最后一個隱藏狀態來執行的。在Transformer的情況下，可以將先前的隱藏狀態傳遞給當前批次（Al-Rfou等人，2018），以為批次的第一個單詞提供上下文。然而，這種技術無法擴展到跨語言設置，因此為了簡化起見，我們只是讓每個批次的第一個單詞沒有上下文。

3.3 掩碼語言模型（MLM）

我們還考慮了Devlin等人（2018）提出的掩碼語言模型（MLM）目標，也稱為完形填空任務（Cloze task）（Taylor，1953）。按照Devlin等人（2018）的做法，我們從文本流中隨機抽取15%的BPE標記，80%的時間將其替換為[MASK]標記，10%的時間替換為隨機標記，剩下的10%時間保持不變。我們的方法與Devlin等人（2018）的MLM的不同之處包括使用任意數量句子的文本流（截斷為256個標記），而不是句子對。為了抵消稀有和常見標記之間的不平衡（例如標點符號或停用詞），我們還使用類似于Mikolov等人（2013b）的方法對頻繁輸出進行次采樣：文本流中的標記根據多項式分布進行抽樣，其權重與其逆頻率的平方根成正比。我們的MLM目標如圖1所示。

3.4 翻譯語言模型（TLM）

CLM和MLM目標都是無監督的，只需要單語數據。然而，當有平行數據可用時，這些目標無法利用。我們引入了一種新的翻譯語言模型（TLM）目標，以改進跨語言預訓練。我們的TLM目標是MLM的擴展，在其中我們連接平行句子，如圖1所示。我們在源語言和目標語言的句子中隨機掩碼單詞。為了預測英語句子中被掩碼的單詞，模型可以關注周圍的英語單詞或法語翻譯，鼓勵模型對齊英語和法語表示。特別是，如果英語上下文不足以推斷被掩碼的英語單詞，模型可以利用法語上下文。為了促進對齊，我們還重置了目標句子的位置信息。

3.5 跨語言語言模型

在這項工作中，我們考慮使用 CLM、MLM 或將 MLM 與 TLM 結合進行跨語言語言模型預訓練。對于 CLM 和 MLM 目標，我們使用包含 256 個標記的連續句子流的 64 個批次進行模型訓練。在每次迭代中，批次由來自同一語言的句子組成，該語言根據上述分布 $\{ q _ { i } \} _ { i = 1 \dots N }$ 進行抽樣，其中 $α = 0.7$ 。當將 TLM 與 MLM 結合使用時，我們在這兩個目標之間交替，并以類似的方法對語言對進行抽樣。

4 跨語言語言模型預訓練

在本節中，我們將解釋如何利用跨語言語言模型來實現以下目標：

為零樣本跨語言分類任務中的句子編碼器提供更好的初始化
為有監督和無監督神經機器翻譯系統提供更好的初始化
為低資源語言構建語言模型
獲取無監督的跨語言詞嵌入

4.1 跨語言分類

我們預訓練的XLM模型提供了通用的跨語言文本表示。類似于在英語分類任務上的單語語言模型微調（Radford等，2018；Devlin等，2018），我們在跨語言分類基準上對XLM進行微調。我們使用跨語言自然語言推理（XNLI）數據集來評估我們的方法。具體來說，我們在預訓練Transformer的第一個隱藏狀態之上添加一個線性分類器，并在英語NLI訓練數據集上微調所有參數。然后，我們評估模型在15種XNLI語言中做出正確NLI預測的能力。根據Conneau等（2018b）的方法，我們還包含了訓練和測試集的機器翻譯基線。我們在表1中報告了結果。

4.2 無監督機器翻譯

預訓練是無監督神經機器翻譯（UNMT）的關鍵要素（Lample等，2018a；Artetxe等，2018）。Lample等（2018b）表明，用于初始化查找表的預訓練跨語言詞嵌入的質量對無監督機器翻譯模型的性能有顯著影響。我們提出通過使用跨語言語言模型預訓練整個編碼器和解碼器來進一步推動UNMT的迭代過程。我們探索了多種初始化方案，并評估了它們對多個標準機器翻譯基準的影響，包括WMT’14英語-法語、WMT’16英語-德語和WMT’16英語-羅馬尼亞語。結果如表2所示。

4.3 有監督機器翻譯

我們還研究了跨語言語言模型預訓練對有監督機器翻譯的影響，并將Ramachandran等（2016）的方法擴展到多語言神經機器翻譯（Johnson等，2017）。我們評估了CLM和MLM預訓練對WMT’16羅馬尼亞語-英語的影響，并在表3中展示了結果。

4.4 低資源語言建模

對于低資源語言，利用相似但資源更豐富的語言的數據通常是有益的，尤其是當它們共享大量詞匯時。例如，尼泊爾語在維基百科上有大約10萬條句子，而印地語則有大約6倍之多。這兩種語言在共享的10萬子詞單元的BPE詞匯中有超過80%的詞匯是相同的。我們在表4中比較了尼泊爾語語言模型與使用不同組合的印地語和英語數據訓練的跨語言語言模型在困惑度上的表現。

4.5 無監督跨語言詞嵌入

Conneau等（2018a）展示了如何通過對抗訓練（MUSE）對齊單語詞嵌入空間來進行無監督詞翻譯。Lample等（2018a）表明，使用兩種語言之間的共享詞匯表，然后在其單語語料庫的拼接上應用fastText（Bojanowski等，2017），也可以直接為共享相同字母表的語言提供高質量的跨語言詞嵌入（Concat）。在本工作中，我們也使用共享詞匯表，但我們的詞嵌入是通過跨語言語言模型（XLM）的查找表獲得的。在第5節中，我們在三種不同的指標上比較了這三種方法：余弦相似度、L2距離和跨語言詞相似度。

5 實驗與結果

在本節中，我們通過實驗證明了跨語言語言模型預訓練在多個基準上的強大影響，并將我們的方法與當前的最新技術進行了比較。

5.1 訓練細節

在所有實驗中，我們使用具有1024個隱藏單元、8個頭、GELU激活函數（Hendrycks和Gimpel，2016）、0.1的dropout率和學習到的位置嵌入的Transformer架構。我們使用Adam優化器（Kingma和Ba，2014）、線性預熱（Vaswani等，2017）和學習率從 $10^{-4}$ 到 $5×10^{-4}$ 來訓練我們的模型。

對于CLM（因果語言模型）和MLM（掩碼語言模型）目標，我們使用256個token的流和大小為64的mini-batch。與Devlin等（2018）不同，mini-batch中的一個序列可以包含超過兩個連續的句子，如第3.2節所述。對于TLM（翻譯語言模型）目標，我們采樣由長度相似的句子組成的4000個token的mini-batch。我們使用語言的平均困惑度作為訓練的停止標準。對于機器翻譯，我們僅使用6層，并創建2000個token的mini-batch。

在XNLI上進行微調時，我們使用大小為8或16的mini-batch，并將句子長度裁剪為256個單詞。我們使用80k的BPE分割和95k的詞匯表，并在XNLI語言的維基百科上訓練一個12層模型。我們使用Adam優化器的學習率從 $5×10^{-4}$ 到 $2×10^{-4}$ 進行采樣，并使用20000個隨機樣本的小評估周期。我們使用Transformer最后一層的第一個隱藏狀態作為隨機初始化的最終線性分類器的輸入，并微調所有參數。在我們的實驗中，使用最后一層的最大池化或平均池化并沒有比使用第一個隱藏狀態效果更好。

我們在PyTorch（Paszke等，2017）中實現了所有模型，并在64個Volta GPU上訓練語言建模任務，在8個GPU上訓練機器翻譯任務。我們使用float16操作來加速訓練并減少模型的內存使用。

5.2 數據預處理

我們使用WikiExtractor2從維基百科轉儲中提取原始句子，并將其作為單語數據用于CLM和MLM目標。對于TLM目標，我們僅使用涉及英語的平行數據，類似于Conneau等（2018b）。具體來說，我們使用MultiUN（Ziemski等，2016）處理法語、西班牙語、俄語、阿拉伯語和中文，使用IIT Bombay語料庫（Anoop等，2018）處理印地語。我們從OPUS 3網站Tiedemann（2012）中提取了以下語料庫：EUbookshop語料庫用于德語、希臘語和保加利亞語，OpenSubtitles 2018用于土耳其語、越南語和泰語，Tanzil用于烏爾都語和斯瓦希里語，GlobalVoices用于斯瓦希里語。對于中文、日文和泰文，我們分別使用Chang等（2008）的分詞器、Kytea4分詞器和PyThaiNLP5分詞器。對于所有其他語言，我們使用Moses（Koehn等，2007）提供的分詞器，必要時回退到默認的英語分詞器。我們使用fastBPE6學習BPE編碼并將單詞分割為子詞單元。BPE編碼是從所有語言的句子樣本的拼接中學習的，遵循第3.1節中介紹的方法。

在這里插入圖片描述

5.3 結果與分析

在本節中，我們展示了跨語言語言模型預訓練的有效性。我們的方法在跨語言分類、無監督和有監督機器翻譯任務上顯著優于之前的最先進方法。

跨語言分類

在表1中，我們評估了兩種預訓練的跨語言編碼器：

僅使用單語語料庫的MLM目標的無監督跨語言語言模型；
結合MLM和TLM損失并使用額外平行數據的有監督跨語言語言模型。

根據Conneau等（2018b）的方法，我們包含兩個機器翻譯基線：

TRANSLATE-TRAIN：將英語MultiNLI訓練集機器翻譯為每種XNLI語言；
TRANSLATE-TEST：將XNLI的每個開發和測試集翻譯為英語。

我們報告了Conneau等（2018b）的XNLI基線、Devlin等（2018）的多語言BERT方法以及Artetxe和Schwenk（2018）的最新工作。

我們的完全無監督MLM方法在零樣本跨語言分類上取得了新的最先進成果，并顯著優于Artetxe和Schwenk（2018）使用2.23億平行句子的有監督方法。具體來說，MLM的平均準確率為71.5%（?），而他們的結果為70.2%。通過TLM目標（MLM+TLM）利用平行數據，我們獲得了3.6%的準確率提升，將最先進水平進一步提高到75.1%。在斯瓦希里語和烏爾都語等低資源語言上，我們分別比之前的最先進方法高出6.2%和6.3%。結合TLM和MLM還將英語準確率從83.2%提升到85%，分別比Artetxe和Schwenk（2018）和Devlin等（2018）高出11.1%和3.6%。

當在每種XNLI語言的訓練集上微調時（TRANSLATE-TRAIN），我們的有監督模型比零樣本方法高出1.6%，達到了76.7%的平均準確率，創造了絕對的最先進水平。這一結果特別證明了我們方法的一致性，并表明XLM可以在任何語言上微調并表現出色。與多語言BERT（Devlin等，2018）類似，我們觀察到TRANSLATE-TRAIN比TRANSLATE-TEST高出2.5%的平均準確率，而我們的零樣本方法比TRANSLATE-TEST高出0.9%。

無監督機器翻譯
在無監督機器翻譯任務中，我們考慮了3種語言對：英語-法語、英語-德語和英語-羅馬尼亞語。我們的設置與Lample等（2018b）相同，除了在初始化步驟中我們使用跨語言語言模型預訓練整個模型，而不是僅預訓練查找表。

對于編碼器和解碼器，我們考慮了不同的初始化方法：CLM預訓練、MLM預訓練或隨機初始化，共9種設置。然后我們遵循Lample等（2018b）的方法，使用去噪自編碼損失和在線反向翻譯損失訓練模型。結果如表2所示。我們將我們的方法與Lample等（2018b）的方法進行了比較。對于每種語言對，我們觀察到相比之前的最先進方法有顯著改進。我們重新實現了Lample等（2018b）的NMT方法（EMB），并獲得了比他們論文中報道的更好的結果。我們預計這是由于我們的多GPU實現使用了更大的批次。在德語-英語任務中，我們的最佳模型比之前的無監督方法高出超過9.1 BLEU，如果僅考慮神經無監督方法，則高出13.3 BLEU。與僅預訓練查找表（EMB）相比，使用MLM預訓練編碼器和解碼器在德語-英語任務上帶來了高達7 BLEU的顯著改進。我們還觀察到，MLM目標預訓練始終優于CLM目標，例如在英語-法語任務中從30.4 BLEU提升到33.4 BLEU，在羅馬尼亞語-英語任務中從28.0 BLEU提升到31.8 BLEU。這些結果與Devlin等（2018）的結果一致，他們觀察到在NLU任務上，MLM目標相比CLM目標具有更好的泛化能力。我們還發現，編碼器是預訓練中最重要的部分：與同時預訓練編碼器和解碼器相比，僅預訓練解碼器會導致性能顯著下降，而僅預訓練編碼器對最終BLEU分數的影響較小。

在這里插入圖片描述

有監督機器翻譯
在表3中，我們報告了羅馬尼亞語-英語WMT’16任務在不同有監督訓練配置下的性能：

單向（ro→en）；
雙向（ro?en，一個多NMT模型，同時在en→ro和ro→en上訓練）；
雙向加反向翻譯（ro?en + BT）。

具有反向翻譯的模型使用與預訓練語言模型相同的單語數據進行訓練。與無監督設置類似，我們觀察到預訓練為每種配置帶來了顯著的BLEU分數提升，并且使用MLM目標預訓練表現最佳。此外，盡管具有反向翻譯的模型可以訪問與預訓練模型相同數量的單語數據，但它們在評估集上的泛化能力較差。我們的雙向模型通過反向翻譯訓練獲得了最佳性能，達到了38.5 BLEU，比Sennrich等（2016）基于反向翻譯和集成模型的最先進方法高出超過4 BLEU。

低資源語言模型
在表4中，我們研究了跨語言語言建模對提高尼泊爾語語言模型困惑度的影響。為此，我們在維基百科上訓練了一個尼泊爾語語言模型，并加入了來自英語或印地語的額外數據。盡管尼泊爾語和英語是差異較大的語言，但尼泊爾語和印地語較為相似，因為它們共享相同的梵文字母表并有共同的梵語起源。

當使用英語數據時，我們將尼泊爾語語言模型的困惑度降低了17.1點，從僅使用尼泊爾語數據的157.2降至使用英語數據后的140.1。使用來自印地語的額外數據時，困惑度降低幅度更大，達到了41.6。最后，通過同時利用英語和印地語的數據，我們將尼泊爾語的困惑度進一步降低至109.3。

跨語言語言建模帶來的困惑度提升部分可以歸因于跨語言共享的n-gram錨點，例如維基百科文章中的內容。因此，跨語言語言模型可以通過這些錨點將印地語或英語單語語料庫提供的額外上下文轉移到尼泊爾語語言模型中，從而提升其性能。
在這里插入圖片描述

無監督跨語言詞嵌入
MUSE、Concat和XLM（MLM）方法提供了具有不同特性的無監督跨語言詞嵌入空間。在表5中，我們使用相同的詞匯表研究了這三種方法，并計算了來自MUSE詞典的詞翻譯對之間的余弦相似度和L2距離。我們還通過Camacho-Collados等（2017）的SemEval’17跨語言詞相似度任務評估了余弦相似度度量的質量。我們觀察到，XLM在跨語言詞相似度上優于MUSE和Concat，達到了0.69的皮爾遜相關系數。

有趣的是，與MUSE或Concat相比，XLM跨語言詞嵌入空間中的詞翻譯對也更接近。具體來說，MUSE的余弦相似度和L2距離分別為0.38和5.13，而XLM在相同指標上分別為0.55和2.64。需要注意的是，XLM嵌入的特殊性在于它們與句子編碼器一起訓練，這可能增強了這種接近性，而MUSE和Concat則基于fastText詞嵌入。
在這里插入圖片描述

6 結論

在本研究中，我們首次展示了跨語言語言模型（XLM）預訓練的顯著影響。我們研究了兩種僅需單語語料庫的無監督訓練目標：因果語言建模（CLM）和掩碼語言建模（MLM）。我們證明了CLM和MLM方法都能提供強大的跨語言特征，可用于預訓練模型。在無監督機器翻譯任務中，我們發現MLM預訓練極為有效。我們在WMT’16德語-英語任務上達到了34.3 BLEU的最新最先進水平，比之前的最佳方法高出超過9 BLEU。同樣，我們在有監督機器翻譯任務中也取得了顯著改進。我們在WMT’16羅馬尼亞語-英語任務上達到了38.5 BLEU的最新最先進水平，相當于超過4 BLEU的提升。

我們還證明了跨語言語言模型可用于改善尼泊爾語語言模型的困惑度，并提供了無監督跨語言詞嵌入。在沒有使用任何平行句子的情況下，經過XNLI跨語言分類基準微調的跨語言語言模型已經比之前的有監督最先進方法平均高出1.3%的準確率。我們工作的一個關鍵貢獻是翻譯語言建模（TLM）目標，它通過利用平行數據改進了跨語言語言模型預訓練。TLM自然地擴展了BERT的MLM方法，使用平行句子批次而非連續句子。通過結合MLM和TLM，我們獲得了顯著的性能提升，并證明這種有監督方法在XNLI任務上比之前的最先進方法平均高出4.9%的準確率。我們的代碼和預訓練模型將公開提供。