目錄
核心定義
典型代表
核心原理
用途
優勢與局限
未來發展方向
LLM(Large Language Model)大語言模型,指通過海量文本數據訓練 能夠理解和生成人類語言的深度學習模型。
核心定義
一種基于深度神經網絡(如Transformer架構)的模型,通過預訓練(Pre-Training)從海量文本中學習語言規律,并能夠生成連貫的文本或者完成特定任務(如問答 翻譯 寫作)
典型代表
- OpenAI的GPT系列(GPT-3.5 GPT-4 GPT-4o)
- google的PaLM
- Meta的LLMA
- DeepSeek的DeepSeekd-R1
核心原理
技術要點 | 說明 |
---|---|
Transformer架構 | 核心是自注意力機制(Self-Attention),可并行處理長文本并捕捉詞語間復雜關系 |
預訓練+微調 | 先在無標注數據上預訓練(學習語言規律),在針對特定任務微調(如客服 編程) |
上下文理解 | 通過輸入提示詞(Prompt)動態生成相應,支持多輪對話和復雜邏輯推理 |
用途
應用場景 | 示例 |
---|---|
文本生成 | 寫文章、故事、營銷文案、代碼等 |
問答與對話 | 只能客服、知識庫查詢(如ChatGPT) |
翻譯與總結 | 對語言互譯,分析數據,編寫程序 |
邏輯推理 | 解數學題,分析數據,編寫程序 |
搜索增強 | 結合知識庫生成更準確的安安(如 New Bing) |
優勢與局限
優勢 | 局限 |
---|---|
泛化能力強:無需針對每個任務單獨設計模型,通過Prompt即可適配多種場景。 | 幻覺:可能生成看似合理但是不符合事實的內容(需結合知識庫緩解) |
語言理解深:能捕捉隱含語言,幽默,比喻等復雜語言現象 | 偏見與安全風險:訓練數據中的偏見可能導致輸出不當內容,需要人工審核和干預 |
持續進化:通過人類反饋強化學習(RLHF)和微調,逐步提升安全和準確性 | 缺乏真正理解:本質是統計模式匹配,而非具備人類認知或意識 |
算力成本高:訓練和運行大模型消耗大量計算資源 |
未來發展方向
更小、更高效:優化模型(如 MoE 架構),降低算力
多模態融合:結合圖像、音頻等多維度信息,如 (GPT-4V)
領域專業化:針對醫療、法律等垂直領域訓練專用模型