GPT-1:(0.117B參數量,0.8B words預訓練數據)
動機:
在RNN和Transformer之間,選擇了后者。
和《All your need is Attention》翻譯模型的Encoder-Decoder架構相比,只保留Decoder,因此去掉了Cross-Attention層。沒有使用sin、cos做位置編碼,用的是可訓練的位置編碼。0.117B參數量。
預訓練:
注意:
是Embedding和最后一層分類層,參數共享的。原因:這個時期的模型參數小,Embedding參數量占的比重高,共享可以降低參數量。現在的模型參數大,Embedding占的比重小,都不再共享了。
微調(Fine Tune):
將上了特殊Token(Start、Extract、Delim),讓模型感知到在做NLP任務,而不是在做句子生成。
Similarity任務,將句子1和句子2,用不同的順序,做成2個樣本,激活值相加,最后進Linear層去分類。
多選題任務,題目+選項,得到1個數值;每個選項都得到1個數值,這些數值做softmax;
Trick: 微調任務和預訓練任務,同時進行訓練。
訓練數據:
Bert:
雙向Encoder預訓練;最后加1層線形層做下游任務微調。
效果碾壓GPT-1:
GPT-2(1.542B參數量,40GB文字訓練數據量)
動機:
下游任務,放棄特殊token,改用prompt:
模型變化:
訓練變化:
效果:比不過FineTune模型。但發現了規律:隨著參數量增大,效果仍可繼續上升。
GPT-3: (175B參數量,300B token預訓練數據量)
動機:
模型修改:
引入稀疏注意力機制(每個token只和前面的部分token進行attention計算,而不是前面全部token)
訓練數據:
不同來源的數據,采樣比例不一樣。(質量差的數據,就少采樣一些)
效果:超過了最好的Fine tune模型。
GPT-4:
效果:霸榜Top-1
Insight:?