什么是GPT
全稱 Generative Pre-trained Transformer 是一種基于 Transformer 架構的大規模 預訓練 語言模型,由OpenAI研發,但GPT僅僅只是借鑒了Transformer 中 Decoder 的部分,并且做了升級
Transformer 架構
Transformer架構 是一種用于處理序列數據(比如文本、語音)的深度學習模型,它的核心思想是“自我關注”(Self-Attention),可以理解為“聰明地抓重點”
Transformer的核心
- 并行處理所有詞:同時看到整個句子,而不是逐個詞處理。
- 自注意力機制:讓模型自動判斷句子中哪些詞更重要,并動態調整它們之間的關系
Encoder-Decoder
- 只有Encoder的模型(如BERT):適合理解任務(文本分類、實體識別),但不能生成文本。
- 只有Decoder的模型(如GPT):擅長生成文本(寫文章、聊天),但對輸入的理解可能不如Encoder深入。
- Encoder-Decoder結合(如Transformer、T5):兩者優勢兼顧,適合需要“先理解再生成”的任務。
預訓練
簡單來說就是提前進行訓練,從大量無標注的數據中學習通用能力
預訓練的特點
- 自監督學習:無需人工標注,模型通過“填空”“預測下一詞”等任務從海量文本中自學。
- 大數據訓練:用TB級文本(如書籍、網頁)訓練,覆蓋多領域知識。
- 遷移學習:先學通用語言規律,再微調適配具體任務(如翻譯、問答)。
- 超大模型:參數規模達百億甚至萬億級(如GPT-3有1750億參數),能力更強。
- 多任務通用:同一模型通過微調或提示(Prompt)完成不同任務(寫文章、寫代碼、翻譯等)。
- Few-shot學習:僅需少量示例即可適應新任務,無需大量標注數據。
- 高計算成本:訓練耗資巨大(如GPT-3訓練花費1200萬美元),依賴高端GPU。
微調
讓預訓練模型(比如GPT、BERT)在少量特定任務數據上“再學習”,使它從“通才”變成“專才”。
- 微調只要少量的數據就可以獲取不錯的效果
- 微調成本較低,可以在單卡上運行