BERT(雙向編碼器):
預訓練任務:
- 掩碼語言模型(MLM):隨機掩蓋15%的token,其中:
- 80%替換為[MASK]
- 10%替換為隨機token
- 10%保持原樣
- 下一句預測(NSP):判斷兩個句子是否連續(后續版本已移除)
訓練特點:
- 使用雙向Transformer編碼器
- 同時利用左右上下文信息
- 適合理解類任務:分類、標注、相似度計算
GPT(自回歸解碼器):
預訓練任務:
- 因果語言模型(CLM):給定前文預測下一個token
- 只能利用左側上下文,無法看到右側信息
訓練特點:
- 使用單向Transformer解碼器(帶掩碼注意力)
- 通過next token prediction訓練