GPT-2怎么做翻譯任務？

GPT-2怎么做翻譯任務？

diannao/2025/7/20 19:48:34/文章來源:https://blog.csdn.net/weixin_43135178/article/details/140217229

首先需要知道的是GPT-2無論在訓練還是推理過程都是只使用了transformer decoder，并沒有使用encoder結構，那么它是怎么做的翻譯任務呢？

使用transformer encoder+decoder的著名架構有：

最原始的transformer model（Attention Is All You Need）
BERT-to-BERT 模型（BERT for Sequence Generation）
T5 ( Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer)

這種使用了encoder+decoder的model一般就是將要被翻譯的語句輸入進encoder，然后得到K、V，通過attention輸入進decoder，然后用自回歸的方式逐漸生成翻譯

訓練過程

1. 數據準備

使用大規模的中英文平行語料庫，包含成對的源語言（中文）句子和目標語言（英文）句子。例如：

中文句子：你好，世界。英文句子：Hello, world.

2. 輸入格式

為了訓練翻譯任務，可以使用帶有提示詞的輸入格式，將源語言和目標語言連接起來。例如：

"Translate Chinese to English: 你好，世界。 -> Hello, world."

3. 模型輸入

將整個輸入序列（包括提示詞、源語言句子和目標語言句子）輸入到模型中。模型會將序列中的每個詞轉換為嵌入向量，并添加位置編碼。

4.開始訓練：

初始狀態（因為訓練的語料庫是拼接好的，所以有初始輸入進入transformer decoder）：
- 輸入："Translate Chinese to English: 你好，世界。 ->"
- 模型預測第一個詞 "Hello"。
第一步：
- 輸入："Translate Chinese to English: 你好，世界。 -> Hello"
- 模型預測下一個詞 ","。
第二步：
- 輸入："Translate Chinese to English: 你好，世界。 -> Hello,"
- 模型預測下一個詞 "world"。
第三步：
- 輸入："Translate Chinese to English: 你好，世界。 -> Hello, world"
- 模型預測結束標記 "."。

5.計算loss

計算預測出的詞與真實的詞的loss

推理過程

在推理過程中，步驟類似于訓練，但模型已經訓練完畢，不再計算損失，而是生成完整的目標語言句子：

1）輸入準備：

提供源語言句子和提示詞。例如：

"Translate Chinese to English: 你好，世界。 ->"

2）自回歸生成：

模型逐步生成目標語言句子 "Hello, world."。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/41344.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/41344.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/41344.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

計算機應用數學--第一次作業

計算機應用數學--第一次作業

第一次作業計算題編程題 （20分） 第一次作業計算題 （20分）求 E ( X ) E(X) E(X)， V a r ( X ) Var(X) Var(X) （1） X X X 服從 [ a , b ] [a,b] [a,b] 均勻分布。 （2）…

閱讀更多...

操作系統期末必考概念大綱（整理·全）

操作系統期末必考概念大綱（整理·全）

第一章 1、操作系統的概念 2、計算機發展的四個階段 3、手工操作階段、批處理系統階段、多道程序系統階段、分時操作系統階段、通用操作系統階段 4、批處理系統（聯機、脫機） 5、操作系統的6個基本類型 6、多道批處理特征 7、分時系統特點 8、算法…

閱讀更多...

第二節-K8s詞匯表

第二節-K8s詞匯表

關鍵字詞匯表 https://kubernetes.io/zh-cn/docs/reference/glossary/?fundamentaltrue API Group (API 組)Kubernetes API 中的一組相關路徑。 API 服務器亦稱作:kube-apiserver API 服務器是 Kubernetes 控制平面的組件， 該組件負責公開了 Kubernetes API&…

閱讀更多...

2024年智慧教育與社會科學國際會議 (ICSSS 2024)

2024年智慧教育與社會科學國際會議 (ICSSS 2024)

2024年智慧教育與社會科學國際會議 (ICSSS 2024) 2024 International Conference on Smart Education and Social Sciences 【重要信息】大會地點：北京大會官網：http://www.icicsss.com 投稿郵箱：icicssssub-conf.com 【注意：稿…

閱讀更多...

Stable-diffusion-WebUI 的API調用(內含文生圖和圖生圖實例)

Stable-diffusion-WebUI 的API調用(內含文生圖和圖生圖實例)

前情提要在之前嘗試使用Diffusers庫來進行stable-diffusion的接口調用以及各種插件功能實現，但發現diffusers庫中各復雜功能的添加較為麻煩，而且難以實現對采樣器的添加，safetensors格式模型的讀取。在官網上找到了webui有專門的api接口&am…

閱讀更多...

1117 數字之王

1117 數字之王

solution 判斷現有數字是否全為個位數全為個位數，找出出現次數最多的數字，并首行輸出最多出現次數，第二行輸出所有出現該次數的數值不全為個位數若當前位數值為0，無需處理若當前位數值非0，則每位立方相乘&#xff0…

閱讀更多...

10.x86游戲實戰-匯編指令lea

10.x86游戲實戰-匯編指令lea

免責聲明：內容僅供學習參考，請合法利用知識，禁止進行違法犯罪活動！ 本次游戲沒法給內容參考于：微塵網絡安全工具下載： 鏈接：https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…

閱讀更多...

Prometheus + Grafana 監控系統搭建使用指南-redis_exporter 安裝與配置

Prometheus + Grafana 監控系統搭建使用指南-redis_exporter 安裝與配置

Redis 接入 Prometheus 監控系統系列文章目錄 Prometheus 的安裝部署Grafana的安裝部署Linux服務器接入Prometheus監控-Node Exporter 安裝指南Prometheus 接入SpringBoot微服務監控Mysql 接入 Prometheus RocketMQ 接入Prometheus 監控ElasticSearch 接入 PrometheusNacos …

閱讀更多...

vue使用axios獲取信息的案例

vue使用axios獲取信息的案例

List組件（用來展示搜索的信息） <template><div class"row"><div class"card" v-for"user in info.users" :key"user.login" v-show"info.users.length">&l…

閱讀更多...

智慧校園-資產管理系統總體概述

智慧校園-資產管理系統總體概述

智慧校園資產管理系統是面向教育機構設計的一體化數字平臺，其核心目標在于通過先進的信息技術手段，全面優化校園內部的資產管理流程。該系統致力于提升資產管理的效率與透明度，同時降低成本并確保所有操作符合財務及審計規范，為校…

閱讀更多...

Debezium系列之：單表多個tinyint(1)類型字段支持選擇字段轉化為int或者boolean

Debezium系列之：單表多個tinyint(1)類型字段支持選擇字段轉化為int或者boolean

Debezium系列之：單表多個tinyint 1類型字段支持選擇字段轉化為int或者boolean 一、需求二、相關技術三、創建表和插入數據四、參數設置和字段選擇五、查看數據一、需求單表中有多個tinyint(1)字段，需要能支持選擇某個字段類型轉化為int，某個字段類型轉化為boolean二、相關技…

閱讀更多...

RNN文獻綜述

RNN文獻綜述

循環神經網絡（Recurrent Neural Network，RNN）是一種專門用于處理序列數據的神經網絡模型。它在自然語言處理、語音識別、時間序列預測等領域有著廣泛的應用。本文將從RNN的歷史發展、基本原理、應用場景以及最新研究進展等方面進行綜述。歷…

閱讀更多...

getResources().getDimension引起的問題

getResources().getDimension引起的問題

在xml中設置字體：  然后想著不這么設置，想著代碼中動態設置字體大小，改為如下&#xf…

閱讀更多...

TC3xx NvM小細節解讀

TC3xx NvM小細節解讀

目錄 1.FlsLoader Driver和FlsDmu Driver 2. FlsLoader小細節 3.小結大家好，我是快樂的肌肉，今天聊聊TC3xx NvM相關硬件細節以及MCAL針對NvM的驅動。 1.FlsLoader Driver和FlsDmu Driver 在最開始做標定的時候，認為標定數據既然是數據&…

閱讀更多...

安裝easy-handeye

安裝easy-handeye

一、aruco_ros配置 mkdir -p ~/ros_ws/src cd ~/ros_ws/src git clone -b melodic-devel https://github.com/pal-robotics/aruco_ros.git cd .. catkin_make 二、visp配置(需要聯外網下載東西，不然會一直出問題） sudo apt-get install ros-melodic-…

閱讀更多...

比賽獲獎的武林秘籍：02 國獎秘籍-大學生電子計算機類競賽快速上手的流程，小白必看

比賽獲獎的武林秘籍：02 國獎秘籍-大學生電子計算機類競賽快速上手的流程，小白必看

比賽獲獎的武林秘籍：02 國獎秘籍-大學生電子計算機類競賽快速上手的流程，小白必看摘要本文主要介紹了大學生參加電子計算機類比賽（電賽、光電設計大賽、計算機設計大賽、嵌入式芯片與系統設計大賽等比賽）的流程和涉及到的知識…

閱讀更多...

3dmax全景圖用什么渲染軟件好？渲染100邀請碼1a12

3dmax全景圖用什么渲染軟件好？渲染100邀請碼1a12

全景圖是常見的效果圖類型，常用于展示大型空間，如展廳、會議室等。全景圖的制作需要渲染，下面我介紹幾個常用的渲染軟件分享給大家。 1、V-Ray：十分流行的渲染引擎，功能強大，它提供了高質量的光線追蹤技術…

閱讀更多...

六、資產安全—信息分級資產管理與隱私保護練習題（CISSP）

六、資產安全—信息分級資產管理與隱私保護練習題（CISSP）

六、資產安全—信息分級資產管理與隱私保護（CISSP）：六、資產安全—信息分級資產管理與隱私保護（C

閱讀更多...

Vue實現文件預覽和下載功能的前端上傳組件

Vue實現文件預覽和下載功能的前端上傳組件

Vue實現文件預覽和下載功能的前端上傳組件一、前言1.準備工作1.1 創建 Vue 組件1.2 組件說明 2.注意事項一、前言在前端開發中，文件上傳和預覽是常見的功能需求之一。本文將介紹如何利用 Vue.js 結合 Element UI 的上傳組件（el-upload）實…

閱讀更多...

RAM和ROM的區別

RAM和ROM的區別

RAM和ROM的區別 RAM和ROM都是用來存東西的，比如我們熟悉的CPU緩存、電腦和手機的內存就是屬于RAM，而固態硬盤、U盤，還有我們買手機時候說的32G、64G的存儲空間，就屬于ROM。RAM和ROM的區別，簡單說就是RAM在斷電之后&am…

閱讀更多...

最新文章