在【LLM】LLM 中增量解碼與模型推理解讀一文中對 LLM 常見名詞進行了介紹,本文會對 LLM 中評價指標與訓練概要進行介紹,本文并未介紹訓練實操細節,未來有機會再了解~
一、LLM 如何停止輸出
在看 LLM 評價指標前,先看看 LLM 如何停止輸出。
大模型常通過以下幾種策略控制生成終止:
- 結束符號(EOS Token)
模型生成特殊終止符(如 DeepSeek R1 MoE 中 ID 為 1 的 token)表示回答完成。
...在物理學領域做出了革命性貢獻。[EOS]
- 最大長度限制 預設生成 token 上限(常見值:512/1024/2048),防止無限生成,保障系統資源安全。
- 停止詞 / 序列觸發 設置 “\n\n”“###” 等符號為停止信號,強制結束生成(適用于格式控制)。
- 內容智能判斷
- 重復檢測:識別循環或冗余內容時自動終止。
- 語義完整性:當回答覆蓋查詢所有維度(如時間、影響)時停止。
停止機制建議組合使用(如 EOS + 最大長度),確保生成既完整又可控。
綜合來看,Decode 階段的循環機制是大模型實現長文本生成的核心:
- 效率優化:通過 KV 緩存復用大幅降低計算成本;
- 可控生成:多維度停止策略平衡輸出質量與資源消耗;
- 語義連貫:自回歸模式確保上下文邏輯銜接緊密。
二、LLM 評價指標
常見 LLM 評價指標如下:
三、LLM 訓練概要
本節主要參考: https://zhuanlan.zhihu.com/p/719730442 https://zhuanlan.zhihu.com/p/1912101103086043526
- 數據準備:喂給模型“知識”
- 收集數據:從互聯網、書籍、論文等獲取海量文本(如英文維基百科+書籍+網頁)。
- 清洗數據:過濾垃圾、重復內容、有害信息,保留高質量文本。
- 分詞(Tokenization):把文本拆成“詞語片段”(如用 Byte-Pair Encoding 或 SentencePiece)。
- 模型設計:搭建“大腦”結構
- 選擇架構:通常用 Transformer 解碼器堆疊(如 GPT 系列)。
- 確定參數量:比如 70 億、150 億參數(參數越多,模型越強,但計算成本越高)。
- 預訓練(Pre-training):自主學習語言規律
- 任務目標:通過自監督學習預測文本中的缺失部分(如遮蔽語言建模,Masked Language Modeling)
- 自回歸(AutoRegressive):根據上文預測下一個詞(如 GPT 系列)。
- 掩碼預測(Masked Modeling):隨機遮蔽部分詞,讓模型填補空缺(如 BERT)。
- 訓練方法:
- 輸入一段文本 → 模型預測下一個詞 → 計算損失(預測誤差) → 反向傳播更新參數。
- 重復數萬億次(用 GPU/TPU 集群加速),直到模型學會語言規律。
- 任務目標:通過自監督學習預測文本中的缺失部分(如遮蔽語言建模,Masked Language Modeling)
- 微調(Fine-tuning):定向優化能力 場景化訓練:用特定任務的數據(如客服對話、醫療問答)進一步優化模型。
- 監督微調(SFT):人工標注的高質量問答對,教模型生成更準確的回答。
- 強化學習(RLHF):讓人類對模型輸出打分,通過獎勵機制優化(如 ChatGPT 的訓練方法)。
- 評估與部署:測試和落地
- 評估指標:用困惑度(Perplexity)、準確率等指標測試模型性能。
- 部署上線:壓縮模型(如量化、剪枝),部署到服務器供用戶調用。
四、LLM 中學習策略
在上面的訓練過程中,提到了“自監督學習"、"強化學習”這幾個概念。這些都屬于大模型訓練過程中的學習策略或者叫學習范式,以下是對不同學習策略的總結和對比:
- 監督學習的標簽是人工標注的,這是 CNN 這些架構訓練模型或算法很常見的方法。標注的意思就是我們喂給模型的數據會被人工提前標注出特征點,比如我們會給很多圖片中的汽車做出標記,目的是告訴大模型我們打標簽的這些圖形就是汽車,讓大模型記住它。
- 強化學習不需要大量的人工標注,只是需要設計一個獎勵函數,設計好獎勵規則,當模型給出的結果是接近目標值的,我們就給一個正反饋或者高的分數。
五、常見 LLM 模型
常見 LLM 模型如下表
六、LLM 的挑戰與展望
6.1 挑戰
- 幻覺現象(Hallucination):生成看似合理但事實錯誤的內容。
- 推理成本高:內存與計算資源消耗大,部署成本高昂。
- 推理速度慢:長文本響應延遲顯著影響用戶體驗。
- 數據安全與偏見問題:訓練數據中可能包含歧視或敏感信息。
6.2 展望
LLM 目前已用于多個場景,例如:
- 文本生成:自動撰寫新聞、故事、詩歌。
- 翻譯系統:多語言互譯,甚至語音到文本。
- 情緒分析:用于品牌情感監測、影評判斷。
- 對話機器人:如 ChatGPT,提供自然流暢的對話能力。
- 代碼生成:輔助編程任務,生成/解釋代碼。
近年來也發展出支持圖像、語音、視頻等多模態輸入的 VLM(Vision-Language Models)和 VLA(Vision-Language-Action),可以研究學習的地方非常多。
后續會轉到 VLM 的學習~