【EMNLP 2023】基于知識遷移的跨語言機器閱讀理解算法

近日,阿里云人工智能平臺PAI與華南理工大學朱金輝教授團隊、達摩院自然語言處理團隊合作在自然語言處理頂級會議EMNLP2023上發表基于機器翻譯增加的跨語言機器閱讀理解算法X-STA。通過利用一個注意力機制的教師來將源語言的答案轉移到目標語言的答案輸出空間,從而進行深度級別的輔助以增強跨語言傳輸能力。同時,提出了一種改進的交叉注意力塊,稱為梯度解纏知識共享技術。此外,通過多個層次學習語義對齊,并利用教師指導來校準模型輸出,增強跨語言傳輸性能。實驗結果顯示,我們的方法在三個多語言MRC數據集上表現出色,優于現有的最先進方法。

論文:

Tingfeng Cao, Chengyu Wang, Chuanqi Tan, Jun Huang, Jinhui Zhu. Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension. EMNLP 2023 (Findings)

背景

大規模預訓練語言模型的廣泛應用,促進了NLP各個下游任務準確度大幅提升,然而,傳統的自然語言理解任務通常需要大量的標注數據來微調預訓練語言模型。但低資源語言缺乏標注數據集,難以獲取。大部分現有的MRC數據集都是英文的,這對于其他語言來說是一個困難。其次,不同語言之間存在語言和文化的差異,表現為不同的句子結構、詞序和形態特征。例如,日語、中文、印地語和阿拉伯語等語言具有不同的文字系統和更復雜的語法系統,這使得MRC模型難以理解這些語言的文本。

為了解決這些挑戰,現有文獻中通常采用基于機器翻譯的數據增強方法,將源語言的數據集翻譯成目標語言進行模型訓練。然而,在MRC任務中,由于翻譯導致的答案跨度偏移,無法直接使用源語言的輸出分布來教導目標語言。

因此,本文提出了一種名為X-STA的跨語言MRC方法,遵循三個原則:共享、教導和對齊。共享方面,提出了梯度分解的知識共享技術,通過使用平行語言對作為模型輸入,從源語言中提取知識,增強對目標語言的理解,同時避免源語言表示的退化。教導方面,本方法利用注意機制,在目標語言的上下文中尋找與源語言輸出答案語義相似的答案跨度,用于校準輸出答案。對齊方面,多層次的對齊被利用來進一步增強MRC模型的跨語言傳遞能力。通過知識共享、教導和多層次對齊,本方法可以增強模型對不同語言的語言理解能力。

算法概述

X-STA模型框架圖如下所示:

給定上下文C和問題Q, MRC任務是從上下文C提取子序列作為問題Q的正確答案。將輸入序列表示為

\mathbf{X} = \{Q, C\} \in \mathbb{R}^{N}其中N是序列長度。我們使用\textbf{p}_\text{start} \in \mathbb{R}^{N}\textbf{p}_\text{end} \in \mathbb{R}^{N}表示答案的起始位置和結束位置概率分布。為了簡單起見,我們可以將兩者連接到一起\textbf{p} \in \mathbb{R}^{N\times 2}。類似地,\mathbf{y} \in \mathbb{R}^{N\times 2}表示一個序列的one-hot標簽。

具體流程如下:

  1. 先將源語言的目標數據翻譯到各個目標語言,目標語言的測試數據也翻譯回源語言。
  2. 每項數據包含問題Q和上下文段落C。
  3. 構建并行語言對={源語言訓練數據,目標語言訓練數據}送入模型并使用反向傳播進行模型訓練。
  4. 將并行語言對={源語言測試數據,目標語言測試數據}送入模型獲取答案的預測。

算法精度評測

為了驗證X-STA算法的有效性,我們在三個跨語言MRC數據集上進行了測試,效果證明X-STA對精度提升明顯:

我們也對算法的模塊進行了詳細有效性分析,我們可以發現各模塊均對模型有一定貢獻。

為了更好地服務開源社區,這一算法的源代碼即將貢獻在自然語言處理算法框架EasyNLP中,歡迎NLP從業人員和研究者使用。

EasyNLP開源框架:GitHub - alibaba/EasyNLP: EasyNLP: A Comprehensive and Easy-to-use NLP Toolkit

參考文獻

  • Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022
  • Rajpurkar, Pranav, et al. "SQuAD: 100,000+ Questions for Machine Comprehension of Text." Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016.

論文信息

論文標題:Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension
論文作者:曹庭鋒、汪誠愚、譚傳奇、黃俊、朱金輝
論文pdf鏈接:https://arxiv.org/abs/2311.06758

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/207413.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/207413.shtml
英文地址,請注明出處:http://en.pswp.cn/news/207413.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

計算機網絡高頻面試八股文

目錄: 網絡分層結構三次握手兩次握手可以嗎?四次揮手第四次揮手為什么要等待2MSL?為什么是四次揮手?TCP有哪些特點?說說TCP報文首部有哪些字段,其作用又分別是什么?TCP和UDP的區別?…

套接字應用程序

這章節是關于實現 lib_chan 庫的 。 lib_chan 的代碼在 TCP/IP 之上實現了一個完整的網絡層,能夠提供認證和Erlang 數據流功能。一旦理解了 lib_chan 的原理,就能量身定制我們自己的通信基礎結構,并把它疊加在TCP/IP 之上了。 就lib_chan 本身…

MMLM之Gemini:《Introducing Gemini: our largest and most capable AI model》的翻譯與解讀

MMLM之Gemini:《Introducing Gemini: our largest and most capable AI model》的翻譯與解讀 導讀:2023年12月6日,Google重磅發布大規模多模態模型Gemini,表示了Google語言模型發展到了一個新階段,其多模態和通用能力明…

中斷、異常和系統調用(2-1,2-2,2-3)

2-1 課堂練習2.1:外部中斷 本實訓分析 Linux 0.11 對外部中斷的響應和處理過程。在每條指令執行的末尾,如果沒有關中斷,CPU 會檢查是否收到了外部中斷信號,如果有信號,則 CPU 就切換到核心態去執行對應的中斷處理程序…

Android 獲取進程名稱

Android 獲取進程名稱 本篇文章主要獲取下當前應用的進程名稱,具體代碼如下: public static String getProcessNameDevice(final Context context) {int myPid Process.myPid();if (context null || myPid < 0) {return "";}ActivityManager.RunningAppProces…

DHTMLX Scheduler PRO 6.0.5 Crack

功能豐富的 JavaScript調度程序 DHTMLX Scheduler 是一個 JavaScript 日程安排日歷&#xff0c;具有 10 個視圖和可定制的界面&#xff0c;用于開發任何類型的日程安排應用程序。 DHTMLX JS 調度程序庫的主要特性 我們的 JS 調度程序最需要的功能之一是時間軸視圖。借助時間軸…

vue-loader是如何工作的?

什么是單文件組件&#xff1f; 單文件組件是一種將模板、腳本和樣式封裝在一個 .vue 文件中的方式 例如&#xff1a; <template><div class"example">{{ msg }}</div> </template> <script>export default {data() {return {msg: &qu…

【語義分割數據集】——imagenet語義分割

地址&#xff1a;https://github.com/LUSSeg/ImageNet-S 1 例圖 2. 類別和數量信息 疑問 根據原文的描述&#xff1a;Based on the ImageNet dataset, we propose the ImageNet-S dataset with 1.2 million training images and 50k high-quality semantic segmentation annot…

【JNPF】好用、高性價比的低代碼開發平臺

目錄 1.JNPF介紹 突出優勢 2.JNPF的開放性與擴展性 平臺的開放性&#xff1a; 平臺高拓展性 在快速發展的軟件開發領域&#xff0c;低代碼平臺已經成為了一種重要的開發方法&#xff0c;它使非專業開發人員也能夠參與到軟件開發中去&#xff0c;大大加速了軟件開發的效率。…

2023年總結和2024年展望(以ue為主攻)

2023年就要過去了&#xff0c;總結下&#xff1a; 先說好的地方 1&#xff0c;pbr材質集成到了osg中&#xff0c;加上直接光和間接光。終于知道pbr咋回事了。光線追蹤的視頻也跟著敲了一個。 2&#xff0c;得到了認可。拿到了半年獎&#xff0c;leader讓我明年和架構師一起進行…

Leetcode—2034.股票價格波動【中等】

2023每日刷題&#xff08;五十二&#xff09; Leetcode—2034.股票價格波動 算法思想 實現代碼 class StockPrice { public:int last 0;multiset<int> total;unordered_map<int, int> m;StockPrice() {}void update(int timestamp, int price) {if(m.count(time…

VUE學習一、環境的安裝

1.node.js安裝 node.js是前端依賴的環境, 類似于java中的jdk 下載地址 node.js 下載 msi文件 下完就是一頓嘎嘎安裝 , 安裝后可以cmd看看node和npm的版本 1.2 yarn的安裝 Yarn是Facebook最近發布的一款依賴包安裝工具。Yarn是一個新的快速安全可信賴的可以替代NPM的依賴管…

計算機圖形學——消隱算法

目錄 消隱算法 &#xff08;1&#xff09;隱藏線消除算法 &#xff08;2&#xff09;隱藏面消除算法 曲面體消隱算法 3D Mesh 隱藏面消除算法 &#xff08;1&#xff09;深度緩沖器算法&#xff08;zBuffer&#xff09; 深度緩沖器 &#xff08;2&#xff09;深度排序…

SpringBoot的監控(Actuator) 功能

目錄 0、官方文檔 一、引入依賴 二、application.yml文件中開啟監控 三、具體使用 四、具體細節使用 五、端點開啟與禁用 六、定制Endpoint 1. 定制 /actuator/health 2. 定制 /actuator/info &#xff08;1&#xff09;直接在配置文件中寫死 &#xff08;2&#xff…

分頁顯示功能函數的核心 代碼主要參考思路

分頁顯示功能函數的核心 代碼主要參考思路 package org.utils;import java.util.List;import org.entity.Student;/*** * author 24519* 分頁的工具類**/ public class PageUtils {//頁大小&#xff08;每頁顯示多少條記錄&#xff09;private int pageSize;//當前頁private in…

如何進行代碼混淆?方法與常見工具介紹

? 目錄 什么是代碼混淆&#xff1f; 代碼混淆的方法 常見代碼混淆工具 什么是代碼混淆&#xff1f; 代碼混淆是指將計算機程序的代碼轉換成一種功能上等價&#xff0c;但難于閱讀和理解的形式的行為。混淆后的代碼很難被反編譯&#xff0c;即使反編譯成功也很難得出程序的…

【Linux系統化學習】命令行參數 | 環境變量的再次理解

個人主頁點擊直達&#xff1a;小白不是程序媛 Linux專欄&#xff1a;Linux系統化學習 代碼倉庫&#xff1a;Gitee 目錄 mian函數傳參獲取環境變量 手動添加環境變量 導出環境變量 environ獲取環境變量 本地變量和環境變量的區別 Linux的命令分類 常規命令 內建命令 …

前端面試JS—map 和 forEach 的區別

目錄 相同點&#xff1a; 不同點&#xff1a; 相同點&#xff1a; 都是循環遍歷數組中的每一項&#xff08;接收一個函數作為參數&#xff0c;并對每個數組元素執行一次&#xff09;每次執行匿名函數都支持三個參數&#xff1a;&#xff08;三個參數分別為item&#xff08;當前…

js獲取快遞單號小練習

目錄 1、css代碼 2、html代碼 3、js代碼 完整代碼 效果圖 1、css代碼 .box{width: 400px;height: 300px;margin: 100px auto;position: relative;}input{width: 250px;height: 40px;outline: none;}span{display: block;position: absolute;min-width: 270px;max-width: 40…

pytest +uiautomator2+weditor app自動化從零開始

目錄結構1.0 把設備連接單獨移出去了 模塊操作代碼&#xff0c;有一些流程操作和斷言方法 from devices import dv from time import sleep import random from tool.jt import capture_screenshotdef initialization(func):def wrapper():sleep(1)dv.app_stop(com.visteon.…