大模型基礎:GPT 家族與提示學習
從 GPT-1 到 GPT-3.5
GPT(Generative Pre-trained Transformer)是 Google 于2018年提出的一種基于 Transformer 的預訓練語言模型。它標志著自然語言處理領域從 RNN 時代進入 Transformer 時代。GPT 的發展歷史和技術特點如下:
- GPT-1
2018年6月, Google 在論文 “Improving Language Understanding by Generative Pre-Training” 中首次提出 GPT 模型。GPT-1 使用 12 層 Transformer 解碼器堆疊而成,每層包含一個 multi-head self-attention 模塊和一個全連接前饋網絡。在一個包含網頁、書籍等的大規模文本數據集上進行了無監督預訓練,根據下游任務進行微調,展示了其在語言理解和生成任務上的強大能力, 是語言模型發展歷史上的重要里程碑。GPT-1 的貢獻在于證明了 Transformer 結構也可以進行無監督預訓練, 并可以捕獲語言的長距離依賴特征。GPT-1的提出推動了后續GPT模型系列的發展與革新。
- GPT-2
2019年2月, OpenAI 發布 GPT-2 模型。GPT-2 使用更大規模的數據集,包含40GB文本數據,規模比GPT-1大40倍。GPT-2基于GPT-1進行改進,提出了一種簡化的 Transformer 解碼器結構。GPT-2 展示了強大的語言生成能力, 可以根據提示文本進行長段落語言生成。GPT-2 繼承 GPT-1的設計思路, 通過擴大模型和數據集規模, 優化模型結構, 給