大語言模型學習及復習筆記（1）語言模型的發展歷程

1.大模型進入人們視野

ChatGPT 于2022年11月底上線

模型名稱	發布時間	核心突破
GPT-3	2020年6月	首款千億參數模型，少樣本學習
GPT-3.5-Turbo	2022年11月	對話能力優化，用戶級應用落地
GPT-4	2023年3月	多模態、強邏輯推理
GPT-4o / GPT-4 Omni	2024年5月	全能輸入輸出，實時聯網
o1-preview	2024年9月

2.什么是大語言模型

語言模型的核心功能是通過概率建模預測自然語言文本的生成規律。傳統語言模型（如N-gram模型）主要基于統計方法，通過局部上下文預測詞序列的分布。然而，大語言模型（Large Language Model, LLM） 的出現標志著從單純的語言建模向復雜任務求解的躍遷，其本質是通過海量數據與深度學習技術構建的通用智能系統。

2.1 傳統語言模型的局限性

知識依賴性強：需依賴外部知識庫（如知識圖譜）補充背景信息，難以自主理解隱含語義。

泛化能力不足：需針對特定任務微調模型，適配成本高且跨領域遷移效果差。

推理能力受限：處理復雜邏輯（如多步推理、因果分析）時表現較弱，需調整模型結構或引入額外訓練策略。

2.2 大語言模型的技術突破

大語言模型通過以下創新解決了傳統模型的瓶頸：

規模躍升：參數規模達百億至萬億級，訓練數據覆蓋多領域文本，可捕捉深層語言規律與常識。

統一架構：基于Transformer的自注意力機制，支持長距離依賴建模與上下文感知，無需任務特定結構調整。

預訓練范式：通過海量無標注文本的自監督學習（如掩碼語言建模），獲得通用語義表示能力，顯著降低下游任務適配成本。

涌現能力：在零樣本/少樣本場景下展現復雜推理、知識聯想等能力，如代碼生成、多輪對話。

2.3 傳統模型的本質差異

維度	傳統語言模型	大語言模型
參數規模	百萬至千萬級	百億至萬億級
訓練數據	有限領域標注數據	跨領域無標注文本（如網頁、書籍）
任務適配	需針對性微調	通過提示工程直接調用通用能力
推理機制	局部上下文依賴	全局語義建模與邏輯鏈生成

應用與挑戰

大語言模型已廣泛應用于機器翻譯、文本生成、智能問答等領域，但其仍面臨幻覺問題（生成不準確內容）、算力需求高、倫理風險等挑戰。未來，結合外部知識庫與多模態數據可能成為進一步突破的方向。

3.大語言模型的定義和相關技術

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/897896.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/897896.shtml
英文地址，請注明出處：http://en.pswp.cn/news/897896.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！