LLM發展史
GPT模型是一種自然語言處理模型,使用Transformer來預測下一個單詞的概率分布,通過訓練在大型文本語料庫上學習到的語言模式來生成自然語言文本。
- GPT-1(117億參數),GPT-1有一定的泛化能力。能夠用于和監督任務無關的任務中。
- GPT-2(15億參數),在生成方面表現出很大天賦,閱讀摘要、聊天、續寫、編故事。
- GPT-3(1750億參數),作為一個自監督模型,可以完成自然語言處理的絕大部分任務,模仿人類敘事,創作定制詩歌,生成游戲劇本等。
- InstructGPT是一個經過微調的新版GPT-3,可以將有害的不真實的有偏差的輸出最小化。
- ChatGPT是InstructGPT的衍生產品,將人類的反饋納入訓練的過程。更好的使模型輸出與用戶意料保持一致。
- ChatGPT-4.0多模態數據支撐,智能程度更高、具備更強大的常識、Plugins插件。
關于大模型
- AI大模型是“人工智能預訓練大模型”的簡稱,包含了“預訓練”和“大模型”兩層含義,二者結合產生了一種新的人工智能模式,即模型在大規模數據集上完成了預訓練后無需微調,或僅需要少量數據的微調,就能直接支撐各類應用。
- 預訓練大模型具備大量基礎知識,針對某個垂直領域只需做微調就能完成任務。
- 當前AI大模型包含自然語言處理(NLP)、計算機視覺(CV)等,統一整合的多模態大模型等。
語言模型
- 統計語言模型是在1990年代基于統計學習方法發展起來的。其基本思想是基于馬爾科夫假設,例如根據最近的上下文預測下