GPT系列模型簡要概述

GPT-1：（0.117B參數量，0.8B words預訓練數據)

動機：

在RNN和Transformer之間，選擇了后者。

和《All your need is Attention》翻譯模型的Encoder-Decoder架構相比，只保留Decoder，因此去掉了Cross-Attention層。沒有使用sin、cos做位置編碼，用的是可訓練的位置編碼。0.117B參數量。

預訓練：

注意：是Embedding和最后一層分類層，參數共享的。原因：這個時期的模型參數小，Embedding參數量占的比重高，共享可以降低參數量。現在的模型參數大，Embedding占的比重小，都不再共享了。

微調(Fine Tune):

將上了特殊Token(Start、Extract、Delim)，讓模型感知到在做NLP任務，而不是在做句子生成。

Similarity任務，將句子1和句子2，用不同的順序，做成2個樣本，激活值相加，最后進Linear層去分類。

多選題任務，題目+選項，得到1個數值；每個選項都得到1個數值，這些數值做softmax；

Trick: 微調任務和預訓練任務，同時進行訓練。

訓練數據：

Bert：

雙向Encoder預訓練；最后加1層線形層做下游任務微調。

效果碾壓GPT-1:

GPT-2（1.542B參數量，40GB文字訓練數據量）

動機：

下游任務，放棄特殊token，改用prompt：

模型變化：

訓練變化：

效果：比不過FineTune模型。但發現了規律：隨著參數量增大，效果仍可繼續上升。

GPT-3: (175B參數量，300B token預訓練數據量）

動機：

模型修改：

引入稀疏注意力機制（每個token只和前面的部分token進行attention計算，而不是前面全部token)

訓練數據：

不同來源的數據，采樣比例不一樣。（質量差的數據，就少采樣一些）

效果：超過了最好的Fine tune模型。

GPT-4:

效果：霸榜Top-1

Insight:?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/62471.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/62471.shtml
英文地址，請注明出處：http://en.pswp.cn/web/62471.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！