論文導讀 | SOSP23 | Gemini:大模型 內存CheckPoint 快速故障恢復

?本期分享的是一篇SOSP 2023論文:

Gemini: Fast Failure Recovery in Distributed Training with In-Memory Checkpoints

Zhuang Wang (Rice University), Zhen Jia (Amazon Web Services, Inc.), Shuai Zheng (Amazon Web Services), Zhen Zhang (Amazon Web Services), Xinwei Fu (Amazon Web Services), T. S. Eugene Ng (Rice University) and Yida Wang (Amazon)

https://www.cs.rice.edu/~eugeneng/papers/SOSP23.pdf

圖片

摘要

? 最近,大型深度學習模型引起了學術界和工業界的廣泛關注。然而,由于大模型訓練涉及大規模資源和較長的訓練時間,訓練過程中頻繁發生故障。現有解決方案由于遠程存儲帶寬的限制,故障恢復成本較高。

? 本文提出Gemini——一種分布式訓練系統,該系統通過將CheckPoint存儲在主機設備的CPU內存中,實現大模型訓練中的快速故障恢復。然而,簡單地將CheckPoint存儲在CPU內存中存在兩個挑戰:

  • 首先,故障發生時,CPU內存中的CheckPoint可用性無法保證。
  • 其次,由于訓練和CheckPoint通信共享同一網絡,CheckPoint通信 可能會干擾訓練通信,影響訓練吞吐量。

? 為了解決這兩個挑戰,本文提出:

  • 1) 一種可證明接近最優的CheckPoint放置策略,以最大化從CPU內存檢查點恢復故障的概率;
  • 2) 一種CheckPoint通信調度算法,以最小化甚至消除檢查點通信對模型訓練的干擾。

? 評估表明,Gemini的總體故障恢復速度比現有解決方案快13倍以上。

? 論文 | SOSP23 | Gemini:大模型 內存CheckPoint 快速故障恢復

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/900257.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/900257.shtml
英文地址,請注明出處:http://en.pswp.cn/news/900257.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

wordpress可視化數據采集Scrapes插件,WP博客網站自動采集發布

源碼介紹 wordpress自動采集Scrapes插件,支持ripro,modown,子比,7b2等多種WordPress主題 支持PHP7.4,PHP8.0及以上不支持 上傳插件到wp-content/plugins目錄,然后解壓 不需要寫采集規則,傻瓜式…

JavaScript Math(算數)指南

JavaScript Math(算數)指南 引言 JavaScript的Math對象是一個內置對象,提供了進行數學運算的方法和值。它對于執行基本的數學計算、生成隨機數以及執行更復雜的數學操作非常有用。本文將詳細介紹JavaScript中的Math對象,涵蓋其常…

Deep Reinforcement Learning for Robotics翻譯解讀

a. 機器人能力 1 單機器人能力(Single-robot competencies) 運動能力(Mobility) 行走(Locomotion)導航(Navigation) 操作能力(Manipulation) 靜態操作&…

最新扣子(Coze)案例教程:最新抖音視頻文案提取方法替代方案,音頻視頻提取文案插件制作,手把手教學,完全免費教程

👨?💻 星球群同學反饋,扣子平臺的視頻提取插件已下架,很多智能體及工作流不能使用,斜杠君這里研究了一個替代方案分享給大家。 方案原理:無論是任何視頻或音頻轉文案,我們提取的方式首先都是要…

yum list查詢時部分包查找不到流程分析

以下是針對 yum list available -c xxx.repo(對應 DNF 的命令行操作)的詳細流程解讀,包括參數解析、配置初始化、元數據加載、數據庫查詢,以及讀取不到特定包的場景分析。 1. 命令行參數解析與入口函數 代碼入口: dnf.cli.main.m…

k8s 1.23升級1.24

0、簡介 這里只用3臺服務器來做一個簡單的集群,當前版本是1.23.17目標升級到1.24.17 地址主機名192.168.160.40kuber-master-1192.168.160.41kuber-master-2192.168.160.42kuber-node-1 我這里設置的master2可調度pod,將master2的污點去掉 kubectl de…

# 實時人臉識別系統:基于 OpenCV 和 Python 的實現

實時人臉識別系統:基于 OpenCV 和 Python 的實現 在當今數字化時代,人臉識別技術已經廣泛應用于各種場景,從手機解鎖到安防監控,再到智能門禁系統。今天,我將通過一個完整的代碼示例,詳細講解如何使用 Pyt…

Linux:(五種IO模型)

目錄 一、對IO的重新認識 二、IO的五種模型 1.阻塞IO 2.非阻塞IO 3.信號驅動IO 4.IO多路轉接 5.異步IO 6.一些概念的解釋 三、非阻塞IO的代碼實現 1.fcntl 2.實現主程序 一、對IO的重新認識 如果有人問你IO是什么,你該怎么回答呢? 你可能會說…

將電腦控制手機編寫為MCP server

文章目錄 電腦控制手機后,截屏代碼復習MCP server構建修改MCP的config文件測試效果困惑電腦控制手機后,截屏代碼復習 def capture_window(hwnd: int, filename: str = None) -> dict:""&

[ctfshow web入門] web6

前置知識 入口點(目錄)爆破 還記得之前說過網站的入口的嗎,我們輸入url/xxx,其中如果url/xxx存在,那么訪問成功,證明存在這樣一個入口點;如果訪問失敗則證明不存在此入口點。所以我們可以通過遍歷url/xxx,…

【計算機網絡】Linux配置SNAT策略

什么是NAT? NAT 全稱是 Network Address Translation(網絡地址轉換),是一個用來在多個設備共享一個公網 IP上網的技術。 NAT 的核心作用:將一個網絡中的私有 IP 地址,轉換為公網 IP 地址,從而…

Mathematics | Branch

注:本文為“遇見數學”翻譯的 “數學分支概覽” 兩篇文章合輯。 數學世界的版圖:主要分支概覽(上) 原創 遇見數學 2025 年 04 月 03 日 12:02 河南 數學的分支(Areas of Mathematics) 在文藝復興之前&am…

Ubuntu(CentOS、Rockylinux等)快速進入深度學習pytorch環境

這里寫自定義目錄標題 安裝進入系統(如Ubuntu22.04)安裝anacondapip、conda換源pip換源conda換源 安裝nvidia安裝pytorch環境針對于wsl的優化 安裝進入系統(如Ubuntu22.04) docker 、 wsl 、 雙系統 、服務器系統 推薦 Ubuntu 20…

什么是混雜模式?為什么 macvlan 依賴它

在 macvlan 場景中,物理網絡是否支持混雜模式(Promiscuous Mode) 直接影響 macvlan 虛擬接口的通信能力。以下是詳細解釋和操作指南: 一、什么是混雜模式?為什么 macvlan 依賴它? 混雜模式的定義 當物理網絡…

物理數據流圖

物理數據流圖(Physical Data Flow Diagram, PDFD)詳解 物理數據流圖是結構化系統分析中的一種建模工具,用于描述系統在物理環境下的具體實現方式,包括硬件、軟件、人工操作和物理文件等實際組成部分。它與**邏輯數據流圖&#xf…

Linux開發工具——vim

📝前言: 上篇文章我們講了Linux開發工具——apt,這篇文章我們來講講Linux開發工具——vim 🎬個人簡介:努力學習ing 📋個人專欄:Linux 🎀CSDN主頁 愚潤求學 🌄其他專欄&a…

在 Langflow 中構建靈活的自定義組件:從基礎到高級實踐

本文深入探討了如何在 Langflow 平臺中創建功能豐富的自定義組件。通過詳細的目錄結構解析、分步實現指南和多個實戰案例,幫助開發者掌握利用 Python 生態擴展低代碼平臺的方法,打造高效的數據處理流程。 理解組件架構設計 自定義組件是在 Langflow 中創…

stm32+LTR-390UV使用教程含源碼

stm32LTR-390UV使用教程含源碼 (csdn首發源碼),本人大四學生,考研已上岸,畢設做的全向輪小車,這個是環境檢測部分LTR-390UV使用教程 文章目錄 目錄 文章目錄 前言 一、硬件準備與連接 二、數據手冊 1.…

【嵌入式系統設計師】知識點:第2章 嵌入式系統硬件基礎知識

提示:“軟考通關秘籍” 專欄圍繞軟考展開,全面涵蓋了如嵌入式系統設計師、數據庫系統工程師、信息系統管理工程師等多個軟考方向的知識點。從計算機體系結構、存儲系統等基礎知識,到程序語言概述、算法、數據庫技術(包括關系數據庫、非關系型數據庫、SQL 語言、數據倉庫等)…

Java 項目灰度發布的詳細實現與實踐

前言 灰度發布是一種通過逐步將新功能或更新推向一部分用戶來降低上線風險的技術。本文將詳細介紹如何在 Java 項目中實現灰度發布,并提供相關的配置參數、代碼示例以及 uml 圖,幫助您更好地理解和應用這一技術。 一、灰度發布的核心思想 灰度發布的核…