寫在前面
這篇博客將基于《ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools》,深入剖析 GLM-4 系列在**模型架構設計、預訓練、后訓練(對齊)、以及關鍵技術創新(如長上下文處理、Agent 能力構建)**等環節的實現邏輯與設計考量,帶你全面了解這個強大的國產大模型家族是如何煉成的。
一、GLM 的演進之路:從追趕到并跑
回顧 ChatGLM 的發展歷程(見論文 Figure 1 和 Figure 3),可以看到一條清晰的技術演進脈絡:
- GLM-130B (2021年底 - 2022年8月): 對標 GPT-3 (davinci),驗證大規模模型(100B+)訓練技術的可行性。采用了 GLM(通用語言模型)架構和自回歸空白填充目標。在 HELM 評估中表現接近 GPT-3。
- ChatGLM-130B (2023年3月): 受 ChatGPT 啟發,在 GLM-130B 基礎上進行指令