MLM
????????MLM:Masked Language Mode:在每一個訓練序列中以15%的概率隨機地選中某個token進行MASK,當一個token被選中后,有以下三種處理方式:
- 80%的概率被[MASK],如my dog is hairy->my dog is [MASK]
- 10%的概率修改為隨機的其他token,如my dog is hairy->my dog is apple
- 10%的概率修改為隨機的其他token,如my dog is hairy->my dog is hairy
? ? ? ? 然后再對該位置的MASK進行預測。以上的MLM任務讓BERT針對被MASK的token的上下文信息預測目標token。
NSP
? ? ? ? NSP:Next Sentence Prediction,對于每一個訓練樣例,進行如下操作。
- 50%的概率保持原有順序(標注為lsNext)
- 50%的概率后面的句子被替換為文檔的其他隨機句B(標注為NotNext)。接下來把訓練樣例輸入到BERT模型中,用[CLS]對應的信息去進行二分類。