GPT1 大模型
- 模型架構
- 訓練過程
GPT-1 :
- 采用傳統的語言模型方法進行預訓練,擅長處理自然語言生成任務(NLG)
- OpenAI 在 2018 年 6 月推出 1.17 億個參數的 GPT-1 (Generative Pre-training , 生成式預訓練)
數據集 :
- 數據來源 : BooksCorpus 數據集,包含約 7000 本不同風格的書籍,文本大小約 5GB
- 特點 : 高質量長句,適合學習長距離信息依賴
模型特點 :
- 參數 : Transformer 層數 : 12 ; 特征維度 : 768 ; Head 數 : 12 ; 總參數量 : 1.17 億
- 優點 : 在多個任務上表現優異,易于并行化
- 缺點 : 單向語言模型 , 任務微調需要額外數據集
模型架構
語言模型的對比架構 :
- GPT : 單向 Transformer 模型 , 僅利用前文信息
- BERT : 會利用上下文的信息
GPT-1模型架構 :
- 模型結構 : 基于 Transformer 的 Decoder 模塊,取消 Multi-Head Attention 子層
- 層數:12 個 Decoder Block
訓練過程
訓練的兩階段過程 :
- 無監督的預訓練語言模型 : 用大量文本數據進行預訓練,目標是最大化句子中每個單詞的條件概率
- 有監督的下游任務 fine-tunning : 對具體下游任務進行微調,采用有監督學習的方式