GPT-2怎么做翻譯任務?

首先需要知道的是GPT-2無論在訓練還是推理過程都是只使用了transformer decoder,并沒有使用encoder結構,那么它是怎么做的翻譯任務呢?

使用transformer encoder+decoder的著名架構有:

  • 最原始的transformer model(Attention Is All You Need)
  • BERT-to-BERT 模型(BERT for Sequence Generation)
  • T5 ( Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer)

這種使用了encoder+decoder的model一般就是將要被翻譯的語句輸入進encoder,然后得到K、V,通過attention輸入進decoder,然后用自回歸的方式逐漸生成翻譯

訓練過程

1. 數據準備

使用大規模的中英文平行語料庫,包含成對的源語言(中文)句子和目標語言(英文)句子。例如:

中文句子:你好,世界。 英文句子:Hello, world.

2. 輸入格式

為了訓練翻譯任務,可以使用帶有提示詞的輸入格式,將源語言和目標語言連接起來。例如:

"Translate Chinese to English: 你好,世界。 -> Hello, world."

3. 模型輸入

將整個輸入序列(包括提示詞、源語言句子和目標語言句子)輸入到模型中。模型會將序列中的每個詞轉換為嵌入向量,并添加位置編碼。

4.開始訓練:

  1. 初始狀態(因為訓練的語料庫是拼接好的,所以有初始輸入進入transformer decoder)

    • 輸入:"Translate Chinese to English: 你好,世界。 ->"
    • 模型預測第一個詞 "Hello"。
  2. 第一步

    • 輸入:"Translate Chinese to English: 你好,世界。 -> Hello"
    • 模型預測下一個詞 ","。
  3. 第二步

    • 輸入:"Translate Chinese to English: 你好,世界。 -> Hello,"
    • 模型預測下一個詞 "world"。
  4. 第三步

    • 輸入:"Translate Chinese to English: 你好,世界。 -> Hello, world"
    • 模型預測結束標記 "."。

5.計算loss

計算預測出的詞與真實的詞的loss

推理過程

在推理過程中,步驟類似于訓練,但模型已經訓練完畢,不再計算損失,而是生成完整的目標語言句子:

1)輸入準備

提供源語言句子和提示詞。例如:

"Translate Chinese to English: 你好,世界。 ->"

2)自回歸生成

  • 模型逐步生成目標語言句子 "Hello, world."。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/41344.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/41344.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/41344.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

計算機應用數學--第一次作業

第一次作業計算題編程題 (20分) 第一次作業 計算題 (20分)求 E ( X ) E(X) E(X), V a r ( X ) Var(X) Var(X) (1) X X X 服從 [ a , b ] [a,b] [a,b] 均勻分布。 (2)…

操作系統期末必考概念大綱(整理·全)

第一章 1、 操作系統的概念 2、 計算機發展的四個階段 3、 手工操作階段、批處理系統階段、多道程序系統階段、分時操作系統階段、通用操作系統階段 4、 批處理系統(聯機、脫機) 5、 操作系統的6個基本類型 6、 多道批處理特征 7、 分時系統特點 8、 算法…

第二節-K8s詞匯表

關鍵字詞匯表 https://kubernetes.io/zh-cn/docs/reference/glossary/?fundamentaltrue API Group (API 組)Kubernetes API 中的一組相關路徑。 API 服務器亦稱作:kube-apiserver API 服務器是 Kubernetes 控制平面的組件, 該組件負責公開了 Kubernetes API&…

2024年智慧教育與社會科學國際會議 (ICSSS 2024)

2024年智慧教育與社會科學國際會議 (ICSSS 2024) 2024 International Conference on Smart Education and Social Sciences 【重要信息】 大會地點:北京 大會官網:http://www.icicsss.com 投稿郵箱:icicssssub-conf.com 【注意:稿…

Stable-diffusion-WebUI 的API調用(內含文生圖和圖生圖實例)

前情提要 在之前嘗試使用Diffusers庫來進行stable-diffusion的接口調用以及各種插件功能實現,但發現diffusers庫中各復雜功能的添加較為麻煩,而且難以實現對采樣器的添加,safetensors格式模型的讀取。在官網上找到了webui有專門的api接口&am…

1117 數字之王

solution 判斷現有數字是否全為個位數 全為個位數,找出出現次數最多的數字,并首行輸出最多出現次數,第二行輸出所有出現該次數的數值不全為個位數 若當前位數值為0,無需處理若當前位數值非0,則每位立方相乘&#xff0…

10.x86游戲實戰-匯編指令lea

免責聲明:內容僅供學習參考,請合法利用知識,禁止進行違法犯罪活動! 本次游戲沒法給 內容參考于:微塵網絡安全 工具下載: 鏈接:https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…

Prometheus + Grafana 監控系統搭建使用指南-redis_exporter 安裝與配置

Redis 接入 Prometheus 監控系統 系列文章目錄 Prometheus 的安裝部署Grafana的安裝部署Linux服務器接入Prometheus監控-Node Exporter 安裝指南Prometheus 接入SpringBoot微服務監控Mysql 接入 Prometheus RocketMQ 接入Prometheus 監控ElasticSearch 接入 PrometheusNacos …

vue使用axios獲取信息的案例

List組件&#xff08;用來展示搜索的信息&#xff09; <template><div class"row"><!-- 列表數據 --><div class"card" v-for"user in info.users" :key"user.login" v-show"info.users.length">&l…

智慧校園-資產管理系統總體概述

智慧校園資產管理系統是面向教育機構設計的一體化數字平臺&#xff0c;其核心目標在于通過先進的信息技術手段&#xff0c;全面優化校園內部的資產管理流程。該系統致力于提升資產管理的效率與透明度&#xff0c;同時降低成本并確保所有操作符合財務及審計規范&#xff0c;為校…

Debezium系列之:單表多個tinyint(1)類型字段支持選擇字段轉化為int或者boolean

Debezium系列之:單表多個tinyint 1類型字段支持選擇字段轉化為int或者boolean 一、需求二、相關技術三、創建表和插入數據四、參數設置和字段選擇五、查看數據一、需求 單表中有多個tinyint(1)字段,需要能支持選擇某個字段類型轉化為int,某個字段類型轉化為boolean二、相關技…

RNN文獻綜述

循環神經網絡&#xff08;Recurrent Neural Network&#xff0c;RNN&#xff09;是一種專門用于處理序列數據的神經網絡模型。它在自然語言處理、語音識別、時間序列預測等領域有著廣泛的應用。本文將從RNN的歷史發展、基本原理、應用場景以及最新研究進展等方面進行綜述。 歷…

getResources().getDimension引起的問題

在xml中設置字體&#xff1a; <!-- <TextView--> <!-- android:textSize"dimen/sp_9"android:layout_height"dimen/dp_14" -->然后想著不這么設置&#xff0c;想著代碼中動態設置字體大小&#xff0c;改為如下&#xf…

TC3xx NvM小細節解讀

目錄 1.FlsLoader Driver和FlsDmu Driver 2. FlsLoader小細節 3.小結 大家好&#xff0c;我是快樂的肌肉&#xff0c;今天聊聊TC3xx NvM相關硬件細節以及MCAL針對NvM的驅動。 1.FlsLoader Driver和FlsDmu Driver 在最開始做標定的時候&#xff0c;認為標定數據既然是數據&…

安裝easy-handeye

一、aruco_ros配置 mkdir -p ~/ros_ws/src cd ~/ros_ws/src git clone -b melodic-devel https://github.com/pal-robotics/aruco_ros.git cd .. catkin_make 二、visp配置(需要聯外網下載東西&#xff0c;不然會一直出問題&#xff09; sudo apt-get install ros-melodic-…

比賽獲獎的武林秘籍:02 國獎秘籍-大學生電子計算機類競賽快速上手的流程,小白必看

比賽獲獎的武林秘籍&#xff1a;02 國獎秘籍-大學生電子計算機類競賽快速上手的流程&#xff0c;小白必看 摘要 本文主要介紹了大學生參加電子計算機類比賽&#xff08;電賽、光電設計大賽、計算機設計大賽、嵌入式芯片與系統設計大賽等比賽&#xff09;的流程和涉及到的知識…

3dmax全景圖用什么渲染軟件好?渲染100邀請碼1a12

全景圖是常見的效果圖類型&#xff0c;常用于展示大型空間&#xff0c;如展廳、會議室等。全景圖的制作需要渲染&#xff0c;下面我介紹幾個常用的渲染軟件分享給大家。 1、V-Ray&#xff1a;十分流行的渲染引擎&#xff0c;功能強大&#xff0c;它提供了高質量的光線追蹤技術…

六、資產安全—信息分級資產管理與隱私保護練習題(CISSP)

六、資產安全—信息分級資產管理與隱私保護(CISSP): 六、資產安全—信息分級資產管理與隱私保護(C

Vue實現文件預覽和下載功能的前端上傳組件

Vue實現文件預覽和下載功能的前端上傳組件 一、前言1.準備工作1.1 創建 Vue 組件1.2 組件說明 2.注意事項 一、前言 在前端開發中&#xff0c;文件上傳和預覽是常見的功能需求之一。本文將介紹如何利用 Vue.js 結合 Element UI 的上傳組件&#xff08;el-upload&#xff09;實…

RAM和ROM的區別

RAM和ROM的區別 RAM和ROM都是用來存東西的&#xff0c;比如我們熟悉的CPU緩存、電腦和手機的內存就是屬于RAM&#xff0c;而固態硬盤、U盤&#xff0c;還有我們買手機時候說的32G、64G的存儲空間&#xff0c;就屬于ROM。RAM和ROM的區別&#xff0c;簡單說就是RAM在斷電之后&am…