背景
“GLM-4.5擁有 3550 億總參數量,其中 320 億活躍參數;GLM-4.5-Air 采用更緊湊的設計,擁有 1060 億總參數量,其中 120 億活躍參數。”
定義與關系
- 總參數量:模型中所有可訓練參數的總和(包括嵌入層、注意力層、前饋網絡等),反映模型的理論容量。
- 活躍參數:在單次前向傳播中實際參與計算的參數子集。例如:
- 稀疏激活模型(如MoE):每次只激活部分專家網絡(如Switch Transformer每次激活1/8的專家)。
- 動態參數共享(如LoRA、AdaLoRA):通過低秩分解或掩碼動態選擇參數。
- 條件計算(如專家選擇、路由機制):根據輸入動態決定激活哪些路徑。
關系:
活躍參數 ≤ 總參數量(通常遠小于)。例如,Switch Transformer總參數量1.6T,但單次計算僅激活約50B參數(活躍參數占比~3%)。
作用與意義
(1)效率提升
- 計算成本:活躍參數直接決定FLOPs和內存占用。稀疏激活(如MoE)允許在總參數量極大時,仍保持低計算量(如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近)。
- 存儲優化:通過參數共享(如LoRA)或量化,減少實際存儲需求(例如Meta的LLaMA-65B通過4-bit量化壓縮至33GB)。
(2)性能與容量的權衡
- 總參數量:提供潛在容量(如知識存儲),但需通過稀疏激活或動態路由有效利用。例如:
- MoE模型:總參數量大(如GLaM 1.2T),但活躍參數少(96B),在多項任務上超越GPT-3(175B全激活)。
- 過擬合風險:總參數量過大但活躍參數不足時,可能因參數利用率低導致欠擬合。
(3)訓練與推理的差異化設計
- 訓練階段:總參數量影響梯度更新范圍,但可通過梯度稀疏化(如ZeRO-3、DeepSpeed)減少實際通信量。
- 推理階段:通過動態剪枝(如Block-Sparse Attention)或專家卸載(如MoE的路由緩存),進一步降低活躍參數。
總參數量是模型的“潛在智慧”,而活躍參數是其“實際執行力”。二者的分離設計(如稀疏化、動態路由)是大模型突破規模限制的核心技術,使得“用更少的計算,實現更強的性能”成為可能。