聯合語音和文本機器翻譯,支持多達100種語言(nature子刊論文研讀)

簡介:

  1. 🌍 SEAMLESSM4T 是一種單一模型,實現了跨越多達 101 種源語言和多種目標語言的語音到語音、語音到文本、文本到語音和文本到文本翻譯及自動語音識別。
  2. 🚀 該模型性能顯著超越現有級聯系統,特別是在語音到文本和語音到語音翻譯任務上展現出更高的 BLEU 分數。
  3. 🛡? SEAMLESSM4T 還提升了系統對背景噪聲和說話者變化的魯棒性,并通過特定策略緩解了翻譯中新增毒性和性別偏見的問題。

摘要:

多模態多語種聯合機器翻譯 (Joint Multimodal and Multilingual Machine Translation) for Up to 100 Languages: SEAMLESSM4T

研究背景: 現有的 語音到語音翻譯 (Speech-to-Speech Translation, S2ST) 系統多采用 級聯 (cascaded) 架構,即將任務分解為 自動語音識別 (Automatic Speech Recognition, ASR)、文本到文本翻譯 (Text-to-Text Translation, T2TT) 和 文本到語音 (Text-to-Speech, TTS) 等獨立階段。這種方法性能受限于各子系統誤差累積,且在覆蓋語言數量和對低資源語言 (low-resource languages) 的支持上存在局限。構建高性能、可擴展的統一 S2ST 系統面臨音頻數據稀缺和建模挑戰。

研究目標: 開發一個單一的統一模型,能夠處理語音和文本之間的多種翻譯任務(ASR, T2TT, 語音到文本翻譯 [Speech-to-Text Translation, S2TT], 文本到語音翻譯 [Text-to-Speech Translation, T2ST], S2ST),覆蓋盡可能多的語言,同時超越現有級聯系統的性能和魯棒性。

核心方法 (Core Methodology):

  1. 數據構建:

    • SEAMLESSALIGN 語料庫: 構建了一個包含超過 470,000 小時自動對齊語音翻譯數據的大規模 多模態語料庫 (multimodal corpus)。
    • SONAR 嵌入空間: 利用 句子級多模態語言無關表示 (Sentence-level Multimodal and Language-Agnostic Representations, SONAR) 嵌入空間進行數據挖掘。SONAR 編碼器可以將語音和文本映射到共享的、語言無關的嵌入空間。通過計算嵌入向量的相似度,使用 邊緣準則 (margin criterion) 從大規模單語語料中挖掘出對齊數據:
      score ( x , y ) = 1 2 ( ∑ z ∈ N N k ( x ) cos ( y , z ) 2 + ∑ v ∈ N N k ( y ) cos ( x , v ) 2 ) \text{score}(x, y) = \frac{1}{2} \left( \sum_{z \in NN_k(x)} \text{cos}(y, z)^2 + \sum_{v \in NN_k(y)} \text{cos}(x, v)^2 \right) score(x,y)=21? ?zNNk?(x)?cos(y,z)2+vNNk?(y)?cos(x,v)2 ?
      其中 x x x y y y 是源句和目標句, N N k ( x ) NN_k(x) NNk?(x) x x x 在另一種語言中最近的 k k k 個鄰居。
    • 數據增強: 利用 偽標簽 (pseudo-labelling) 技術,使用 T2TT 模型為 ASR 數據生成 S2TT 偽標簽,并使用 T2U 模型將文本直接轉換為離散單元,用于訓練 S2ST 模型。
  2. 模型架構:

    • SEAMLESSM4T (UNITY2): 基于 多任務統一 (multitask UNITY) 架構的改進版本 UNITY2。這是一個 雙通路解碼 (two-pass decoding) 框架:
      • 第一通路 (X2T): 使用一個 多編碼器序列到序列 (multi-encoder sequence-to-sequence) 模型 X2T,包含用于語音輸入的 Conformer 編碼器和用于文本輸入的 Transformer 編碼器,共享同一個文本解碼器。該模型聯合微調 (fine-tune) 以優化 ASR、S2TT 和 T2TT 任務,損失函數包括 S2TT 損失、T2TT 損失和 令牌級知識蒸餾 (token-level Knowledge Distillation, KDL) 損失。語音編碼器使用基于 W2V-BERT 2.0 的 無監督語音預訓練 (Unsupervised Speech Pretraining) 進行初始化和強化。
      • 第二通路 (NAR T2U): 使用一個 非自回歸文本到單元 (Non-Autoregressive Text-to-Unit, NAR T2U) 模型,預測 S2ST 和 T2ST 的目標輸出——離散聲學單元 (discrete acoustic units)。這些單元是通過對自監督語音表示(如 XLS-R)進行 k-means 聚類獲得的。NAR T2U 通過 層級上采樣 (hierarchical upsampling) 從 子詞 (subword) 級別上采樣到 字符 (character) 級別,再到單元級別,利用 單元持續時間預測器 (unit duration predictor) 并在 多語種對齊器 (multilingual aligner) 的監督下進行訓練。
  3. 負責任的AI (Responsible AI):

    • 毒性緩解: 評估并緩解翻譯過程中可能引入的 添加毒性 (added toxicity)。采用訓練時過濾和推理時 波束過濾 (beam filtering) (MinTox) 等策略。
    • 性別偏見評估: 使用 MULTILINGUAL HOLISTICBIAS 數據集及其語音擴展評估模型在處理不同性別信息時的魯棒性和是否存在 過泛化 (overgeneralization) 現象。

主要成果 (Key Results):

  • 語言覆蓋: 支持從 101 種語言到 36 種語言的 S2ST,從 101 種語言到 96 種語言的 S2TT,從 96 種語言到 36 種語言的 T2ST,以及 96 種語言的 T2TT 和 ASR。首次實現了從/到英語的語音和文本翻譯的廣泛覆蓋。
  • 性能提升: 在 S2TT 和 S2ST 任務上,相較于現有最先進級聯系統,BLEU 和 ASR-BLEU 分數分別提高了高達 8% 和 23%。對低資源語言的翻譯質量有顯著提升。
  • 多任務能力: 在 ASR 任務上表現優于 WHISPER-LARGE-V2,WER 降低 56%。在 T2TT 任務上與 NLLB-3.3B 相當。在零樣本 T2ST 任務上,性能與級聯系統相當或更優。
  • 魯棒性: 在 S2TT 任務中,對背景噪音和說話人變化的魯棒性平均提高了約 50%。
  • 毒性與偏見: 添加毒性發生率較低,且能通過 MinTox 有效緩解。模型提高了對性別變化的魯棒性,但性別過泛化問題仍需進一步解決。

社會影響與貢獻: SEAMLESSM4T 通過提供高性能的多模態多語種翻譯能力,有助于降低跨語言交流障礙,增強個體的 世界就緒度 (world-readiness),并特別支持有無障礙需求的用戶。研究團隊公開了數據工具、代碼和模型權重供非商業使用,以促進相關技術的進一步研究和發展。

關鍵詞字典

  • SEAMLESS Communication Team: 指的是一個團隊,他們共同致力于開發和研究SEAMLESSM4T模型,并在論文中署名。這個團隊由來自Meta Foundational AI Research(FAIR)以及其他機構的研究人員組成。
  • SEAMLESSM4T: (Massively Multilingual and Multimodal Machine Translation) 是一個統一的系統,支持語音到語音翻譯(S2ST)、語音到文本翻譯(S2TT)、文本到語音翻譯(T2ST)、文本到文本翻譯(T2TT)和自動語音識別(ASR)等多種任務。該模型旨在實現大規模多語言和多模態的機器翻譯。
  • Speech-to-speech translation (S2ST): 指的是將一種語言的語音直接翻譯成另一種語言的語音的任務。這是SEAMLESSM4T模型支持的關鍵功能之一,旨在實現不同語言人群之間的無縫語音交流。
  • Speech-to-text translation (S2TT): 指的是將一種語言的語音翻譯成另一種語言的文本的任務。SEAMLESSM4T模型能夠將101種語言的語音翻譯成96種語言的文本。
  • Text-to-speech translation (T2ST): 指的是將一種語言的文本翻譯成另一種語言的語音的任務。SEAMLESSM4T模型支持將96種語言的文本翻譯成36種語言的語音,無需顯式地為此任務進行訓練(zero-shot)。
  • Text-to-text translation (T2TT): 指的是將一種語言的文本翻譯成另一種語言的文本的任務。這是機器翻譯領域中的傳統任務,SEAMLESSM4T模型支持96種語言之間的文本翻譯。
  • Automatic speech recognition (ASR): 指的是將語音轉換成文本的任務。SEAMLESSM4T模型具備自動語音識別功能,能夠識別96種語言的語音。
  • Multilingual: 指的是涉及多種語言的能力。SEAMLESSM4T 的一個關鍵特點是其多語言性,能夠處理 100 多種語言的輸入和多種語言的輸出。
  • Multimodal: 指的是涉及多種數據模態(例如語音和文本)的能力。SEAMLESSM4T 是多模態的,因為它能夠處理和翻譯語音和文本。
  • BLEU: (Bilingual Evaluation Understudy) 是一種用于評估機器翻譯質量的常用指標。它通過比較機器翻譯的文本與人工翻譯的文本之間的n-gram重疊程度來計算得分。
  • Toxicity: 指的是翻譯中出現的惡意、不友善或有害的內容。SEAMLESSM4T 評估了其翻譯中添加的毒性,并實施了緩解策略。
  • Gender bias: 指的是機器翻譯中存在的性別偏見,例如在翻譯中過度概括為一種性別或在處理性別屈折變化時缺乏穩健性。SEAMLESSM4T 評估并努力減輕其翻譯中的性別偏見。
  • Robustness: 指的是系統在各種條件下的可靠性和性能,例如存在背景噪聲或說話人變化。SEAMLESSM4T 已經過測試,以評估其在嘈雜環境中的魯棒性。
  • SEAMLESSALIGN: 是一個自動對齊的語音翻譯語料庫,包含了超過47萬小時的語音數據。這個語料庫是使用一種新的句子嵌入空間(SONAR)構建的,用于訓練SEAMLESSM4T模型。
  • SONAR: (Sentence-level Multimodal and Language-Agnostic Representations) 是一種句子級別的多模態和語言無關的表示方法,用于創建共享的嵌入空間。SONAR 用于挖掘對齊的語音和文本數據,并評估語音編碼器的質量。
  • Zero-shot: 指的是模型在沒有經過特定任務的顯式訓練的情況下,執行該任務的能力。SEAMLESSM4T 能夠在零樣本的情況下執行文本到語音的翻譯(T2ST)和非英語方向的文本到文本翻譯(X–X)。
  • World-readiness: 指的是一個人在全球化世界中有效溝通和互動的能力。SEAMLESSM4T 旨在通過促進多語言交流來增強用戶的“世界準備度”。
  • Multitask: 指的是模型能夠同時執行多個任務的能力。SEAMLESSM4T 是一個多任務模型,可以執行自動語音識別(ASR)、文本到文本翻譯(T2TT)、語音到文本翻譯(S2TT)、文本到語音翻譯(T2ST)和語音到語音翻譯(S2ST)等多種任務。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/86046.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/86046.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/86046.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

網站公安網安備案查詢API集成指南

網站公安網安備案查詢API集成指南 引言 隨著互聯網應用的日益普及,網絡安全和個人隱私保護越來越受到重視。公安網安備案作為保障網絡安全的重要措施之一,對于確保網站合法合規運營具有重要意義。為了幫助開發者更加便捷地獲取網站的公安網安備案信息&a…

如何用遠程調試工具排查 WebView 與原生通信問題(iOS或Android)

WebView 在移動端開發中的角色越來越關鍵,尤其在混合架構(Hybrid)項目中,它作為前端與原生的橋梁,承載了大量交互行為。但這個橋梁并不總是穩固,尤其是在涉及 JSBridge 通信 時,前端調用原生接口…

使用 spark-submit 運行依賴第三方庫的 Python 文件

python文件在spark集群運行真的麻煩,煩冗 spark運行分為了三個模式,本地模式/client模式/cluster模式 文章目錄 本地模式client模式cluster模式參考 本地模式 現在的spark支持python3了,支持python2的版本已經很落后了,所以需要…

【android bluetooth 協議分析 05】【藍牙連接詳解2】【acl_interface_t介紹】

1. acl_interface_t 介紹 acl_interface_t 結構體及其子結構體,目的是封裝處理 Classic、LE、SCO 連接及鏈路事件的回調函數,用于 HCI 事件與上層藍牙協議棧的解耦分發。 system/main/shim/acl_legacy_interface.h typedef struct {void (*on_connect…

TouchDIVER Pro觸覺手套:虛擬現實中的多模態交互新選擇

隨著虛擬現實技術的發展,用戶對沉浸式體驗的需求不斷提升。TouchDIVER Pro觸覺手套通過力反饋、紋理渲染和溫度提示三種核心機制,為用戶提供更真實的觸覺感知體驗。六個驅動點分布于五指與手掌,結合全手追蹤與低延遲連接,實現精準…

想考華為HCIA-AI,應該怎么入門?

華為HCIA-AI Solution認證作為華為人工智能認證體系的起點,吸引了許多希望進入AI領域或提升專業技能的學習者。如果你正考慮考取這個認證,這份純科普向的入門指南希望能夠幫你理清學習路徑和關鍵準備點! 第一、明確認證目標與要求 HCIA-AI S…

【Oracle篇】Windows平臺單進程多線程架構設計與實現(比對Linux多進程架構)

💫《博主主頁》: 🔎 CSDN主頁__奈斯DB 🔎 IF Club社區主頁__奈斯、 🔥《擅長領域》:擅長阿里云AnalyticDB for MySQL(分布式數據倉庫)、Oracle、MySQL、Linux、prometheus監控;并對SQLserver、N…

在微服務中使用 Sentinel

在微服務中集成 Sentinel 1. 添加依賴 對于 Spring Cloud 項目&#xff0c;首先需要添加 Sentinel 的依賴&#xff1a; <!-- Spring Cloud Alibaba Sentinel --> <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-…

中斷控制與實現

一、中斷基本概念 1、中斷 中斷是一種異步事件&#xff0c;用于通知處理器某個事件已經發生&#xff0c;需要處理器立即處理。由于I/O操作的不確定因素以及處理器和I/O設備之間的速度不匹配&#xff0c;I/O設備可以通過某種硬件信號異步喚醒對應的處理器的響應&#xff0c;這些…

前端跨域解決方案(7):Node中間件

1 Node 中間件核心 1.1 為什么開發環境需要 Node 代理&#xff1f; 在前端開發中&#xff0c;我們常遇到&#xff1a;前端運行在localhost:3000&#xff0c;后端 API 在localhost:4000&#xff0c;跨域導致請求失敗。而傳統解決方案有以下局限性&#xff1a; 修改后端 CORS 配…

iwebsec靶場-文件上傳漏洞

01-前端JS過濾繞過 1&#xff0c;查看前端代碼對文件上傳的限制策略 function checkFile() { var file document.getElementsByName(upfile)[0].value; if (file null || file "") { alert("你還沒有選擇任何文件&a…

GitHub 趨勢日報 (2025年06月23日)

&#x1f4ca; 由 TrendForge 系統生成 | &#x1f310; https://trendforge.devlive.org/ &#x1f310; 本日報中的項目描述已自動翻譯為中文 &#x1f4c8; 今日獲星趨勢圖 今日獲星趨勢圖 390 suna 387 system-prompts-and-models-of-ai-tools 383 Web-Dev-For-Beginners…

告別水印煩惱,一鍵解鎖高清無痕圖片與視頻!

在這個數字化飛速發展的時代&#xff0c;無論是設計小白還是創意達人&#xff0c;都可能遇到這樣的困擾&#xff1a;心儀的圖片或視頻因水印而大打折扣&#xff0c;創意靈感因水印而受限。別急&#xff0c;今天就為大家帶來幾款神器&#xff0c;讓你輕松告別水印煩惱&#xff0…

LangChain4j在Java企業應用中的實戰指南:構建RAG系統與智能應用-2

LangChain4j在Java企業應用中的實戰指南&#xff1a;構建RAG系統與智能應用-2 開篇&#xff1a;LangChain4j框架及其在Java生態中的定位 隨著人工智能技術的快速發展&#xff0c;尤其是大語言模型&#xff08;Large Language Models, LLMs&#xff09;的廣泛應用&#xff0c;…

Cola StateMachine 的無狀態(Stateless)特性詳解

Cola StateMachine 的無狀態&#xff08;Stateless&#xff09;特性詳解 在現代分布式系統中&#xff0c;無狀態設計是構建高可用、可擴展服務的關鍵原則之一。Cola StateMachine 作為一款輕量級的狀態機框架&#xff0c;通過其獨特的設計理念實現了良好的無狀態特性。本文將深…

使用事件通知來處理頁面回退時傳遞參數和賦值問題

背景。uniapp開發微信小程序。在當前頁面需要選擇條件&#xff0c;如選擇城市。會打開新的頁面。此時選擇之后需要關閉頁面回到當初的頁面。但問題出現了。onLoad等事件是不會加載的。相關鏈接。uniapp頁面通訊說明使用事件通知來處理頁面回退時傳遞參數和賦值問題 頁面之間的…

騰訊云COS“私有桶”下,App如何安全獲得音頻調用流程

流程圖 #mermaid-svg-Phy4VCltBRZ90UH8 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-Phy4VCltBRZ90UH8 .error-icon{fill:#552222;}#mermaid-svg-Phy4VCltBRZ90UH8 .error-text{fill:#552222;stroke:#552222;}#me…

基于深度學習的側信道分析(DLSCA)Python實現(帶測試)

一、DLSCA原理介紹 基于深度學習的側信道分析(DLSCA)是一種結合深度神經網絡與側信道分析技術的密碼分析方法。該方法利用深度學習模型從能量消耗、電磁輻射等側信道信息中提取與密鑰相關的特征模式。相比傳統分析方法&#xff0c;DLSCA能夠自動學習復雜的特征關系&#xff0c…

云原生 CAD 讓制造業設計協同更便捷

隨著互聯網、云計算技術的突飛猛進&#xff0c;CAD向著網絡化、協同化的方向快速發展&#xff0c;云CAD軟件逐漸映入人們的眼簾。云原生CAD不僅打破了傳統CAD軟件對硬件配置的依賴&#xff0c;更以數據驅動的協同創新模式&#xff0c;重塑了制造業的產品研發流程與組織協作形態…

Docker容器核心操作指南:`docker run`參數深度解析

技術聚焦 作為容器化技術的起點&#xff0c;docker run命令承擔著90%的容器創建工作。其關鍵參數-d&#xff08;后臺模式&#xff09;與-it&#xff08;交互模式&#xff09;的合理運用&#xff0c;直接影響容器行為模式與運維效率。本文將深度拆解兩大模式的應用場景與…