?本期分享的是一篇SOSP 2023論文:
Gemini: Fast Failure Recovery in Distributed Training with In-Memory Checkpoints
Zhuang Wang (Rice University), Zhen Jia (Amazon Web Services, Inc.), Shuai Zheng (Amazon Web Services), Zhen Zhang (Amazon Web Services), Xinwei Fu (Amazon Web Services), T. S. Eugene Ng (Rice University) and Yida Wang (Amazon)
https://www.cs.rice.edu/~eugeneng/papers/SOSP23.pdf
摘要
? 最近,大型深度學習模型引起了學術界和工業界的廣泛關注。然而,由于大模型訓練涉及大規模資源和較長的訓練時間,訓練過程中頻繁發生故障。現有解決方案由于遠程存儲帶寬的限制,故障恢復成本較高。
? 本文提出Gemini——一種分布式訓練系統,該系統通過將CheckPoint存儲在主機設備的CPU內存中,實現大模型訓練中的快速故障恢復。然而,簡單地將CheckPoint存儲在CPU內存中存在兩個挑戰:
- 首先,故障發生時,CPU內存中的CheckPoint可用性無法保證。
- 其次,由于訓練和CheckPoint通信共享同一網絡,CheckPoint通信 可能會干擾訓練通信,影響訓練吞吐量。
? 為了解決這兩個挑戰,本文提出:
- 1) 一種可證明接近最優的CheckPoint放置策略,以最大化從CPU內存檢查點恢復故障的概率;
- 2) 一種CheckPoint通信調度算法,以最小化甚至消除檢查點通信對模型訓練的干擾。
? 評估表明,Gemini的總體故障恢復速度比現有解決方案快13倍以上。
? 論文 | SOSP23 | Gemini:大模型 內存CheckPoint 快速故障恢復