DeepSeek在預訓練階段通過多種技術手段實現了極致的訓練效率,其中包括采用FP8混合精度訓練框架以降低計算和內存需求 ,創新性地引入Multi-head Latent Attention(MLA)壓縮KV緩存以提升推理效率,以及基于Mixture-of-Experts(MoE)的稀疏計算架構以在保證性能的同時顯著降低訓練成本。通過DualPipe算法優化流水線并行,DeepSeek實現了計算與通信的高度重疊,從而幾乎消除了跨節點MoE訓練的通信瓶頸 。此外,DeepSeek還通過知識蒸餾和精細的超參數調優進一步壓縮模型大小和計算量,實現了成本節約與性能提升的雙贏 。
極致訓練效率方法
1. FP8混合精度訓練
DeepSeek設計了FP8混合精度訓練框架,首次驗證了FP8在超大規模模型上進行訓練的可行性和有效性。
2. 稀疏計算與Mixture-of-Experts
DeepSeek-V2和V3均采用Mixture-of-Experts(MoE)架構,僅激活部分專家子網絡以減少計算量,在保證模型容量的同時降低整體訓練成本。
3. 多頭潛在注意力(MLA)
Multi-head Latent Attention通過將K