聯合語音和文本機器翻譯，支持多達100種語言（nature子刊論文研讀）

簡介：

🌍 SEAMLESSM4T 是一種單一模型，實現了跨越多達 101 種源語言和多種目標語言的語音到語音、語音到文本、文本到語音和文本到文本翻譯及自動語音識別。
🚀 該模型性能顯著超越現有級聯系統，特別是在語音到文本和語音到語音翻譯任務上展現出更高的 BLEU 分數。
🛡? SEAMLESSM4T 還提升了系統對背景噪聲和說話者變化的魯棒性，并通過特定策略緩解了翻譯中新增毒性和性別偏見的問題。

摘要：

多模態多語種聯合機器翻譯 (Joint Multimodal and Multilingual Machine Translation) for Up to 100 Languages: SEAMLESSM4T

研究背景： 現有的語音到語音翻譯 (Speech-to-Speech Translation, S2ST) 系統多采用級聯 (cascaded) 架構，即將任務分解為自動語音識別 (Automatic Speech Recognition, ASR)、文本到文本翻譯 (Text-to-Text Translation, T2TT) 和文本到語音 (Text-to-Speech, TTS) 等獨立階段。這種方法性能受限于各子系統誤差累積，且在覆蓋語言數量和對低資源語言 (low-resource languages) 的支持上存在局限。構建高性能、可擴展的統一 S2ST 系統面臨音頻數據稀缺和建模挑戰。

研究目標： 開發一個單一的統一模型，能夠處理語音和文本之間的多種翻譯任務（ASR, T2TT, 語音到文本翻譯 [Speech-to-Text Translation, S2TT], 文本到語音翻譯 [Text-to-Speech Translation, T2ST], S2ST），覆蓋盡可能多的語言，同時超越現有級聯系統的性能和魯棒性。

核心方法 (Core Methodology)：

數據構建：
- SEAMLESSALIGN 語料庫： 構建了一個包含超過 470,000 小時自動對齊語音翻譯數據的大規模多模態語料庫 (multimodal corpus)。
- SONAR 嵌入空間： 利用句子級多模態語言無關表示 (Sentence-level Multimodal and Language-Agnostic Representations, SONAR) 嵌入空間進行數據挖掘。SONAR 編碼器可以將語音和文本映射到共享的、語言無關的嵌入空間。通過計算嵌入向量的相似度，使用邊緣準則 (margin criterion) 從大規模單語語料中挖掘出對齊數據：
  $\text{score}(x, y) = \frac{1}{2} \left( \sum_{z \in NN_k(x)} \text{cos}(y, z)^2 + \sum_{v \in NN_k(y)} \text{cos}(x, v)^2 \right)$
  其中 $x$ 和 $y$ 是源句和目標句， $NN_k(x)$ 是 $x$ 在另一種語言中最近的 $k$ 個鄰居。
- 數據增強： 利用偽標簽 (pseudo-labelling) 技術，使用 T2TT 模型為 ASR 數據生成 S2TT 偽標簽，并使用 T2U 模型將文本直接轉換為離散單元，用于訓練 S2ST 模型。
模型架構：
- SEAMLESSM4T (UNITY2)： 基于多任務統一 (multitask UNITY) 架構的改進版本 UNITY2。這是一個雙通路解碼 (two-pass decoding) 框架：
  - 第一通路 (X2T)： 使用一個多編碼器序列到序列 (multi-encoder sequence-to-sequence) 模型 X2T，包含用于語音輸入的 Conformer 編碼器和用于文本輸入的 Transformer 編碼器，共享同一個文本解碼器。該模型聯合微調 (fine-tune) 以優化 ASR、S2TT 和 T2TT 任務，損失函數包括 S2TT 損失、T2TT 損失和令牌級知識蒸餾 (token-level Knowledge Distillation, KDL) 損失。語音編碼器使用基于 W2V-BERT 2.0 的無監督語音預訓練 (Unsupervised Speech Pretraining) 進行初始化和強化。
  - 第二通路 (NAR T2U)： 使用一個非自回歸文本到單元 (Non-Autoregressive Text-to-Unit, NAR T2U) 模型，預測 S2ST 和 T2ST 的目標輸出——離散聲學單元 (discrete acoustic units)。這些單元是通過對自監督語音表示（如 XLS-R）進行 k-means 聚類獲得的。NAR T2U 通過層級上采樣 (hierarchical upsampling) 從子詞 (subword) 級別上采樣到字符 (character) 級別，再到單元級別，利用單元持續時間預測器 (unit duration predictor) 并在多語種對齊器 (multilingual aligner) 的監督下進行訓練。
負責任的AI (Responsible AI)：
- 毒性緩解： 評估并緩解翻譯過程中可能引入的添加毒性 (added toxicity)。采用訓練時過濾和推理時波束過濾 (beam filtering) (MinTox) 等策略。
- 性別偏見評估： 使用 MULTILINGUAL HOLISTICBIAS 數據集及其語音擴展評估模型在處理不同性別信息時的魯棒性和是否存在過泛化 (overgeneralization) 現象。

主要成果 (Key Results)：

語言覆蓋： 支持從 101 種語言到 36 種語言的 S2ST，從 101 種語言到 96 種語言的 S2TT，從 96 種語言到 36 種語言的 T2ST，以及 96 種語言的 T2TT 和 ASR。首次實現了從/到英語的語音和文本翻譯的廣泛覆蓋。
性能提升： 在 S2TT 和 S2ST 任務上，相較于現有最先進級聯系統，BLEU 和 ASR-BLEU 分數分別提高了高達 8% 和 23%。對低資源語言的翻譯質量有顯著提升。
多任務能力： 在 ASR 任務上表現優于 WHISPER-LARGE-V2，WER 降低 56%。在 T2TT 任務上與 NLLB-3.3B 相當。在零樣本 T2ST 任務上，性能與級聯系統相當或更優。
魯棒性： 在 S2TT 任務中，對背景噪音和說話人變化的魯棒性平均提高了約 50%。
毒性與偏見： 添加毒性發生率較低，且能通過 MinTox 有效緩解。模型提高了對性別變化的魯棒性，但性別過泛化問題仍需進一步解決。

社會影響與貢獻： SEAMLESSM4T 通過提供高性能的多模態多語種翻譯能力，有助于降低跨語言交流障礙，增強個體的世界就緒度 (world-readiness)，并特別支持有無障礙需求的用戶。研究團隊公開了數據工具、代碼和模型權重供非商業使用，以促進相關技術的進一步研究和發展。

關鍵詞字典

SEAMLESS Communication Team: 指的是一個團隊，他們共同致力于開發和研究SEAMLESSM4T模型，并在論文中署名。這個團隊由來自Meta Foundational AI Research（FAIR）以及其他機構的研究人員組成。
SEAMLESSM4T: (Massively Multilingual and Multimodal Machine Translation) 是一個統一的系統，支持語音到語音翻譯（S2ST）、語音到文本翻譯（S2TT）、文本到語音翻譯（T2ST）、文本到文本翻譯（T2TT）和自動語音識別（ASR）等多種任務。該模型旨在實現大規模多語言和多模態的機器翻譯。
Speech-to-speech translation (S2ST): 指的是將一種語言的語音直接翻譯成另一種語言的語音的任務。這是SEAMLESSM4T模型支持的關鍵功能之一，旨在實現不同語言人群之間的無縫語音交流。
Speech-to-text translation (S2TT): 指的是將一種語言的語音翻譯成另一種語言的文本的任務。SEAMLESSM4T模型能夠將101種語言的語音翻譯成96種語言的文本。
Text-to-speech translation (T2ST): 指的是將一種語言的文本翻譯成另一種語言的語音的任務。SEAMLESSM4T模型支持將96種語言的文本翻譯成36種語言的語音，無需顯式地為此任務進行訓練（zero-shot）。
Text-to-text translation (T2TT): 指的是將一種語言的文本翻譯成另一種語言的文本的任務。這是機器翻譯領域中的傳統任務，SEAMLESSM4T模型支持96種語言之間的文本翻譯。
Automatic speech recognition (ASR): 指的是將語音轉換成文本的任務。SEAMLESSM4T模型具備自動語音識別功能，能夠識別96種語言的語音。
Multilingual: 指的是涉及多種語言的能力。SEAMLESSM4T 的一個關鍵特點是其多語言性，能夠處理 100 多種語言的輸入和多種語言的輸出。
Multimodal: 指的是涉及多種數據模態（例如語音和文本）的能力。SEAMLESSM4T 是多模態的，因為它能夠處理和翻譯語音和文本。
BLEU: (Bilingual Evaluation Understudy) 是一種用于評估機器翻譯質量的常用指標。它通過比較機器翻譯的文本與人工翻譯的文本之間的n-gram重疊程度來計算得分。
Toxicity: 指的是翻譯中出現的惡意、不友善或有害的內容。SEAMLESSM4T 評估了其翻譯中添加的毒性，并實施了緩解策略。
Gender bias: 指的是機器翻譯中存在的性別偏見，例如在翻譯中過度概括為一種性別或在處理性別屈折變化時缺乏穩健性。SEAMLESSM4T 評估并努力減輕其翻譯中的性別偏見。
Robustness: 指的是系統在各種條件下的可靠性和性能，例如存在背景噪聲或說話人變化。SEAMLESSM4T 已經過測試，以評估其在嘈雜環境中的魯棒性。
SEAMLESSALIGN: 是一個自動對齊的語音翻譯語料庫，包含了超過47萬小時的語音數據。這個語料庫是使用一種新的句子嵌入空間（SONAR）構建的，用于訓練SEAMLESSM4T模型。
SONAR: (Sentence-level Multimodal and Language-Agnostic Representations) 是一種句子級別的多模態和語言無關的表示方法，用于創建共享的嵌入空間。SONAR 用于挖掘對齊的語音和文本數據，并評估語音編碼器的質量。
Zero-shot: 指的是模型在沒有經過特定任務的顯式訓練的情況下，執行該任務的能力。SEAMLESSM4T 能夠在零樣本的情況下執行文本到語音的翻譯（T2ST）和非英語方向的文本到文本翻譯（X–X）。
World-readiness: 指的是一個人在全球化世界中有效溝通和互動的能力。SEAMLESSM4T 旨在通過促進多語言交流來增強用戶的“世界準備度”。
Multitask: 指的是模型能夠同時執行多個任務的能力。SEAMLESSM4T 是一個多任務模型，可以執行自動語音識別（ASR）、文本到文本翻譯（T2TT）、語音到文本翻譯（S2TT）、文本到語音翻譯（T2ST）和語音到語音翻譯（S2ST）等多種任務。