TensorFlow深度學習實戰——Transformer變體模型
- 0. 前言
- 1. BERT
- 2. GPT-2
- 3. GPT-3
- 4. Reformer
- 5. BigBird
- 6. Transformer-XL
- 7. XLNet
- 8. RoBERTa
- 9. ALBERT
- 10. StructBERT
- 11. T5 和 MUM
- 12. ELECTRA
- 13. DeBERTa
- 14. 進化 Transformer 和 MEENA
- 15. LaMDA
- 16. Switch Transformer
- 17. RETRO
- 18. Pathways 和 PaLM
- 相關鏈接
0. 前言
在 Transformer 模型提出之后,研究人員提出了大量基于 Transformer
的變體模型。本節中,介紹了流行的 Transformer
變體模型。
1. BERT
BERT
(Bidirectional Encoder Representations from Transformers
) 是 Google AI
研究團隊在 2018
年開發的語言表示模型,該模型的重要思想包括:
BERT
通過雙向自注意力 (bidirectional self-attention
) 考慮每個詞的上下文,既包括左側也包括右側。- 訓練通過隨機掩碼輸入詞元 (
token
) 進行,并避免循環,以便單詞不能間接看到自身。在自然語言處理 (Natural Language Processing
,NLP
) 中,稱為填空 (fill in the blank
)。換句話說,預訓練任務掩碼少