Day 10-2: Mini-GPT完整手寫實戰 - 從組件組裝到文本生成的端到端實現
?? 今日學習目標
- 掌握GPT架構組裝:將Transformer組件組裝成完整的生成模型
- 理解生成式預訓練:掌握自回歸語言建模的核心機制
- 端到端代碼實現:從數據預處理到模型訓練的完整流程
- 文本生成實戰:訓練Mini-GPT生成連貫的中文文本
?? 核心概念:什么是GPT?
GPT (Generative Pre-trained Transformer) 是一種基于Transformer解碼器的自回歸語言模型,它通過預測下一個詞來學習語言規律。
1. GPT vs BERT:架構差異對比
對比維度 | GPT (生成式) | BERT (理解式) | 核心區別 |
---|---|---|---|
架構設計 | 僅解碼器 (Decoder-only) | 僅編碼器 (Encoder-only) |