1、為了訓練更多的數據、更大的模型,提出了并行訓練框架。
2、并行的方式:數據并行、模型并行(張量并行、流水線并行)。
3、Megatron-LM 綜合應用了數據并行(Data Parallelism),張量并行(Tensor Parallelism)和流水線并行(Pipeline Parallelism)。
4、DeepSpeed的核心是ZeRO(Zero Redundancy Optimizer):顯存優化的數據并行(data parallelism, DP)方案。
ZeRO將模型訓練階段,每張卡中顯存內容分為兩類:模型(參數、梯度、Adam狀態)、剩余(激活值、臨時緩沖區、顯存碎片)。
猛猿-大模型預訓練系列