GPT是由openAI開發的一款基于Transformer架構的預訓練語言模型,擁有強大的生成能力和多任務處理能力,推動了自然語言處理(NLP)的快速發展。
一 GPT發展歷程
1.1 GPT-1(2018年)
是首個基于Transformer架構的模型,使用掩碼自注意力機制,但是僅僅關注了參數左側數據,沒有關注右側數據,是之前文章學習過的單項Transformer,用這個也是為了模擬人類的自左向右生成語言的方式,并確保模型在訓練和生成時的邏輯一致性。
參數量僅有1.17億,與后面的幾代比還是相差非常多的。采用了預訓練+微調范式的方法,預訓練大量的無標簽文本,學習其內容,如語法,語義,將其分類壓縮(語言建模任務),再針對下游任務在特定的小規模標注數據上微調,使模型適應具體任務。
預訓練像“通識教育”,下游任務像“專業培訓”。
概念 | 說明 |
---|---|
預訓練任務 | 模型初始訓練的任務(如語言建模、掩碼預測),用于學習通用特征。 |
下游任務 | 具體應用任務(如情感分析、翻譯),需要在預訓練基礎上額外調整。 |
微調 | 將預訓練模型適配到下游任務的過程,通常需要少量標注數據。 |
1.2 GPT-2(2019)
參數量擴大到15億,預訓練的數據更多。新增零樣本學習,無需微調即可完成多任務(如翻譯、摘要),但效果有限,并且會生成看上去挺真但實際上是假的的文本。
零樣本學習(Zero-shot Learning)是一種機器學習方法,其核心是讓模型使用已有的預訓練的通用知識積累和對輸入指令的語義理解,泛化到新任務中,從而完成新任務。
1.3 GPT-3(2020)
參數量驟增到1750億,其核心特點是使用了少樣本學習(Few-shot),僅需少量示例即可適應新任務(如寫代碼、創作故事)。但是生成內容可能包含偏見,且存在邏輯錯誤。
1.4 Codex(2021)
基于GPT-3進行了微調,支持生成代碼,是GitHub Copilot的基礎。
GitHub Copilot 是由 GitHub 和 OpenAI 聯合開發的 AI 代碼輔助工具,旨在幫助開發者更高效地編寫代碼。
1.5?ChatGPT(2022)
采用RLHF(人類反饋強化學習)優化對話能力,減少有害輸出。
RLHF(Reinforcement Learning from Human Feedback,人類反饋強化學習)是一種結合強化學習(Reinforcement Learning)和人類反饋的技術,用于優化AI模型的行為,使其更符合人類的價值觀和需求。
其關鍵步驟為:
(1)預訓練模型(Supervised Fine-Tuning, SFT)
(2)訓練獎勵模型(Reward Model, RM)
數據收集:針對同一輸入(如用戶提問),讓預訓練模型生成多個候選回答。
人類標注:由標注員對這些回答進行排序或打分(例如基于回答的準確性、善意程度)。
獎勵模型構建:學習人類偏好,預測任意回答的“質量得分”(如用排序轉化為分數)。
(3)強化學習優化策略(如PPO算法)
將預訓練模型作為初始策略,獎勵模型作為環境反饋,通過交互迭代優化模型生成的內容,最大化獎勵得分。
示例:模型生成回答 → 獎勵模型打分 → 算法調整參數使高得分回答的概率增加。
1.6?GPT-4(2023)
支持多模態輸入(文本+圖像),推理能力進一步提升。
二 GPT核心架構
2.1?Transformer解碼器堆疊:
GPT僅使用Transformer的解碼器層,每層包含掩碼自注意力機制和前饋網絡。掩碼確保生成時每個詞僅依賴左側上下文。
2.2?自回歸生成
逐詞生成文本,每次預測下一個詞的概率分布
三 訓練方法
(1) 預訓練(無監督)
任務:語言建模(預測下一個詞)。
數據源:海量文本(如書籍、網頁)。
(2) 微調(有監督)
傳統方法(如GPT-1):針對特定任務(如情感分析)用標注數據調整參數。
基于提示(如GPT-3+):通過設計輸入提示(Prompt)直接引導模型生成答案,無需參數更新。
RLHF(如ChatGPT):通過人類反饋訓練獎勵模型,再用強化學習優化生成策略。
四?關鍵挑戰與局限
生成內容的可靠性:可能產生錯誤或捏造信息(“幻覺”問題)。
偏見與倫理風險:訓練數據中的偏見可能導致歧視性輸出。
計算成本高昂:GPT-3訓練耗資數百萬美元,限制研究可及性。
可解釋性差:模型內部機制復雜,難以追蹤決策過程。
GPT系列通過迭代創新,逐步突破語言模型的邊界,展現出強大的通用性和適應性。盡管面臨挑戰,其在各行業的應用前景使其成為AI領域的重要里程碑。未來的發展將聚焦于提升效率、安全性及多模態融合。