RoBERTa 和 BERT 是什么
一、BERT(Bidirectional Encoder Representations from Transformers)
提出背景:由谷歌于2019年提出,是自然語言處理領域的里程碑模型,基于Transformer編碼器架構,通過預訓練生成雙向語言表示。
核心特點:
- 雙向預訓練:通過掩碼語言模型(MLM)和下一句預測(NSP)任務,學習上下文相關的詞向量。
- 多層Transformer編碼器:基礎版(BERT-Base)包含12層編碼器,大型版(BERT-Large)包含24層編碼器。
- 輸入表示:融合詞嵌入(Token Embedding)、段嵌入(Segment Embedding)和位置嵌入(Posit