一.前言
前面我們介紹了RNN相關系列的模型,在當今大模型時代大家認識一下就好了,而本章節我們是要來介紹一下重中之重的Transformer模型,本章節就來介紹一下他的架構,了解Transformer模型的作?以及了解Transformer總體架構圖中各個組成部分的名稱。
二.Transformer模型的作用
基于seq2seq架構的transformer模型可以完成NLP領域研究的典型任務, 如機器翻譯, ?本?成等. 同時?可以構建預訓練語?模型,?于不同任務的遷移學習.
在接下來的架構分析中, 我們將假設使?Transformer模型架構處理從?種語??本到另?種語??本 的翻譯?作, 因此很多命名?式遵循NLP中的規則. ?如: Embeddding層將稱作?本嵌?層, Embedding層產?的張量稱為詞嵌?張量, 它的最后?維將稱作詞向量等
三.Transformer總體架構圖
3.1?Transformer總體架構?
輸?部分
輸出部分
編碼器部分
解碼器部分?
3.2?輸?部分包含?
源?本嵌?層及其位置編碼器
?標?本嵌?層及其位置編碼器?
?
3.3?輸出部分包含?
線性層
softmax層?
?
3.4?編碼器部分?
由N個編碼器層堆疊?成
每個編碼器層由兩個?層連接結構組成
第?個?層連接結構包括?個多頭?注意??層和規范化層以及?個殘差連接
第?個?層連接結構包括?個前饋全連接?層和規范化層以及?個殘差連接?
?
3.5?解碼器部分?
由N個解碼器層堆疊?成
每個解碼器層由三個?層連接結構組成
第?個?層連接結構包括?個多頭?注意??層和規范化層以及?個殘差連接
第?個?層連接結構包括?個多頭注意??層和規范化層以及?個殘差連接
第三個?層連接結構包括?個前饋全連接?層和規范化層以及?個殘差連接?
?
四.總結?
本章節主要是介紹了一下Transformer的架構,后續還會繼續更新相關知識,期待大家的點贊關注加收藏
?