論文導讀 | SOSP23 | Gemini：大模型內存CheckPoint 快速故障恢復

?本期分享的是一篇SOSP 2023論文：

Gemini: Fast Failure Recovery in Distributed Training with In-Memory Checkpoints

Zhuang Wang (Rice University), Zhen Jia (Amazon Web Services, Inc.), Shuai Zheng (Amazon Web Services), Zhen Zhang (Amazon Web Services), Xinwei Fu (Amazon Web Services), T. S. Eugene Ng (Rice University) and Yida Wang (Amazon)

https://www.cs.rice.edu/~eugeneng/papers/SOSP23.pdf

摘要

? 最近，大型深度學習模型引起了學術界和工業界的廣泛關注。然而，由于大模型訓練涉及大規模資源和較長的訓練時間，訓練過程中頻繁發生故障。現有解決方案由于遠程存儲帶寬的限制，故障恢復成本較高。

? 本文提出Gemini——一種分布式訓練系統，該系統通過將CheckPoint存儲在主機設備的CPU內存中，實現大模型訓練中的快速故障恢復。然而，簡單地將CheckPoint存儲在CPU內存中存在兩個挑戰：

首先，故障發生時，CPU內存中的CheckPoint可用性無法保證。
其次，由于訓練和CheckPoint通信共享同一網絡，CheckPoint通信可能會干擾訓練通信，影響訓練吞吐量。

? 為了解決這兩個挑戰，本文提出：

1) 一種可證明接近最優的CheckPoint放置策略，以最大化從CPU內存檢查點恢復故障的概率；
2) 一種CheckPoint通信調度算法，以最小化甚至消除檢查點通信對模型訓練的干擾。

? 評估表明，Gemini的總體故障恢復速度比現有解決方案快13倍以上。

? 論文 | SOSP23 | Gemini：大模型內存CheckPoint 快速故障恢復

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/900257.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/900257.shtml
英文地址，請注明出處：http://en.pswp.cn/news/900257.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！