Reducing Model Checkpointing Times by Over 10x with PyTorch Distributed Asynchronous Checkpointing | PyTorch
最初來源:IBM Research
核心思想:GPU->CPU,用的是blocking;CPU->Disk,用的是異步不阻塞訓練。
異步CPU->Disk步驟,有用到組播通信,會干擾訓練中的AllReduce等組播通信。解決方法:更換了Communication Group。
?