萬卡集群:字節搭建12288塊GPU的單一集群

文章目錄

  • 論文
  • Reference

論文

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

在這里插入圖片描述
論文鏈接:https://arxiv.org/abs/2402.15627

在這里插入圖片描述
在這里插入圖片描述

從結構上講,網絡是基于Clos的“胖樹”結構。其中一個改進是在頂層交換機上把上行與下行鏈路分開,有效降低沖突率。

在這里插入圖片描述

以下內容轉載自道明實驗室

這可能是一段時間以來,我看到的寫的最好的來自國內公司的論文:

非常客觀,非常細節,非常實戰,非常誠實也非常自信。

我推薦所有對AI訓練集群感興趣的朋友認真閱讀。

因為只是短評,我就略過細節挑一些重點,怎么部署集群過于技術化,就不涉及了。至于GPU與光模塊的配比關系也不涉及,國內公司因為芯片限制,網絡部分只要做到匹配即可,算力利用率(MFU)高不代表算力高,從規模上講,這個集群是最高規格之一,但是從性能而言,一定不能算頂級的了。

重點反而是在集群規模達到萬卡以上,會碰到的問題,以及字節的解決方案,重點在于,如果論文是真實的(很大概率),那么我們對于下一階段國產模型能力的大幅提升應該有足夠的信心。

1、大幅優化的初始化時間,在沒經過優化的情況下,2048張GPU的集群初始化時間是1047秒,經過各種優化后,初始化時間下降到5秒以下,10000張GPU集群的初始化時間降到30秒以下;

2、錯誤后快速恢復能力。論文里把這個叫做容錯能力(Fault Tolerance),我認為不是非常準確,因為正如論文中的表述,萬卡集群會不可避免的隨時隨地發生軟硬件故障,這些都要導致訓練進程停下,再開始(GPU其實是很脆弱的,CUDA經常會有BUG,硬盤很容易壞,數據里出現一個奇怪的字符,也可能導致程序錯誤,等等,反正,只要集群超過上百個節點,各種奇奇怪怪的故障都會有可能發生)。所以第一層保障機制是Checkpointing,也就是高頻的把訓練進程保存下來,一旦宕機,快速重啟后,就加載上一次存檔,繼續訓練。為了加快這種經常發生的讀寫速度,論文介紹了文件系統的優化,技術細節略過。同樣的,上一節提到的初始化時間的大幅縮減,在這里也起到了巨大的作用,畢竟重啟是家常便飯。第三層保障,就是建立完整的系統狀態監控及自動檢測機制,對超過90%的故障都能自動檢測,定位,并快速恢復。

3、截止2023年9月,字節建立起了超過一萬張Ampere架構GPU(A100A800)的集群,目前正在建設Hopper架構的集群(H100H800)。

4、那些被簡單描述的“血淚教訓”。GPU的個性(同樣的卡,就是有那么幾張會慢一點,奇怪一點),網絡閃斷,不必要的等待,等等。這些問題,不是一直跟幾百臺以上規模的集群打交道,是不可能有認知的。所以,大模型訓練本質上是一個工程問題

5、顯然,字節花了接近一年時間去“搞定”基礎設施,這,或許是模型研發生命周期里最重要的一步。

Reference

https://mp.weixin.qq.com/s/xSE_7TKPMcJjlxywbFyL2g

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/710976.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/710976.shtml
英文地址,請注明出處:http://en.pswp.cn/news/710976.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

三、《任務列表案例》前端程序搭建和運行

本章概要 整合案例介紹和接口分析 案例功能預覽接口分析 前端工程導入 前端環境搭建導入前端程序 啟動測試 3.1 整合案例介紹和接口分析 3.1.1 案例功能預覽 3.1.2 接口分析 學習計劃分頁查詢 /* 需求說明查詢全部數據頁數據 請求urischedule/{pageSize}/{currentPage} 請…

stm32觸發硬件錯誤位置定位

1.背景 1. 項目中,調試過程或者測試中都會出現程序跑飛問題,這個時候問題特別難查找。 2. 觸發硬件錯誤往往是因為內存錯誤。這種問題特別難查找,尤其是產品到了測試階段,而這個異常復現又比較難的情況下,簡直頭疼。…

初學JavaScript總結

0 JavaScript html完成了架子,css做了美化,但是網頁是死的,需要給他注入靈魂,所以接下來需要學習JavaScript,這門語言會讓頁面能夠和用戶進行交互。JavaScript又稱為腳本語言,可以通過腳本實現用戶和頁面的…

每日shell腳本之打印99乘法表

每日shell腳本之打印99乘法表 #!/bin/bash for i in $(seq 1 9); dofor j in $(seq 1 9); doecho -n "$i * $j $(($i * $j)) "doneecho done

Programming Abstractions in C閱讀筆記:p306-p307

《Programming Abstractions in C》學習第75天,p306-p307總結,總計2頁。 一、技術總結 1.Quicksort algorithm(快速排序) 由法國計算機科學家C.A.R(Charles Antony Richard) Hoare(東尼.霍爾)在1959年開發(develop), 1961年發表…

Mac 制作可引導安裝器

Mac 使用U盤或移動固態硬盤制作可引導安裝器(以 Monterey 為例) 本教程參考 Apple 官網相關教程 創建可引導 Mac OS 安裝器 重新安裝 Mac OS 相關名詞解釋 磁盤分區會將其劃分為多個單獨的部分,稱為分區。分區也稱為容器,不同容器…

VR虛擬現實技術應用到豬抗原體檢測的好處

利用VR虛擬仿真技術開展豬瘟檢測實驗教學確保生豬產業健康發展 為了有效提高豬場豬瘟防控意識和檢測技術,避免生豬養殖業遭受豬瘟危害,基于VR虛擬仿真技術開展豬瘟檢測實驗教學數據能大大推動基層畜牧養殖業持續穩步發展保駕護航。 一、提高實驗效率 VR虛…

鯤鵬arm64架構下安裝KubeSphere

鯤鵬arm64架構下安裝KubeSphere 官方參考文檔: https://kubesphere.io/zh/docs/quick-start/minimal-kubesphere-on-k8s/ 在Kubernetes基礎上最小化安裝 KubeSphere 前提條件 官方參考文檔: https://kubesphere.io/zh/docs/installing-on-kubernetes/introduction/prerequi…

基于大模型思維鏈(Chain-of-Thought)技術的定制化思維鏈提示和定向刺激提示的心理咨詢場景定向ai智能應用

本篇為個人筆記 記錄基于大模型思維鏈(Chain-of-Thought)技術的定制化思維鏈提示和定向刺激提示的心理咨詢場景定向ai智能應用 人工智能為個人興趣領域 業余研究 如有錯漏歡迎指出!!! 目錄 本篇為個人筆記 記錄基…

價格腰斬,騰訊云2024優惠活動云服務器62元一年,多配置報價

騰訊云服務器多少錢一年?62元一年起,2核2G3M配置,騰訊云2核4G5M輕量應用服務器218元一年、756元3年,4核16G12M服務器32元1個月、312元一年,8核32G22M服務器115元1個月、345元3個月,騰訊云服務器網txyfwq.co…

Node.js中的并發和多線程處理

在Node.js中,處理并發和多線程是一個非常重要的話題。由于Node.js是單線程的,這意味著它在任何給定時間內只能執行一個任務。然而,Node.js的事件驅動和非阻塞I/O模型使得處理并發和多線程變得更加高效和簡單。在本文中,我們將探討…

【排坑】搭建 Karmada 環境

git clone 報錯 問題:Failed to connect to github.com port 443:connection timed out 解決: git config --global --unset http.proxy【hack/local-up-karmada.sh】 1. karmada ca-certificates (no such package) 問題:fetching http…

老化的電動車與高層電梯樓的結合,將是巨大的安全隱患

中國是全球最大的電動汽車市場,其實中國還是全球最大的電動兩輪車市場,而電動兩輪車的老化比電動汽車更快,電動汽車的電池壽命可以達到10年,而電動兩輪車的電池壽命只有3-5年,而首批電動兩輪車至今已老化得相當嚴重&am…

【Pytorch深度學習開發實踐學習】【AlexNet】經典算法復現-Pytorch實現AlexNet神經網絡(1)model.py

算法簡介 AlexNet是人工智能深度學習在CV領域的開山之作,是最先把深度卷積神經網絡應用于圖像分類領域的研究成果,對后面的諸多研究起到了巨大的引領作用,因此有必要學習這個算法并能夠實現它。 主要的創新點在于: 首次使用GPU…

AI語音識別的技術解析

從語音識別算法的發展來看,語音識別技術主要分為三大類,第一類是模型匹配法,包括矢量量化(VQ) 、動態時間規整(DTW)等;第二類是概率統計方法,包括高斯混合模型(GMM) 、隱馬爾科夫模型(HMM)等;第三類是辨別器…

golang gin單獨部署vue3.0前后端分離應用

概述 因為公司最近的項目前端使用vue 3.0,后端api使用golang gin框架。測試通過后,博文記錄,用于備忘。 步驟 npm run build,構建出前端項目的dist目錄,dist目錄的結構具體如下圖 將dist目錄復制到后端程序同級目錄…

嵌入式軟件bug從哪里來,到哪里去

摘要:軟件從來不是一次就能完美的,需要以包容的眼光看待它的殘缺。那問題究竟為何產生,如何去除呢? 1、軟件問題從哪來 軟件缺陷問題千千萬萬,主要是需求、實現、和運行環境三方面。 1.1 需求描述偏差 客戶角度的描…

PSO-CNN-LSTM多輸入回歸預測|粒子群算法優化的卷積-長短期神經網絡回歸預測(Matlab)——附代碼數據

目錄 一、程序及算法內容介紹: 基本內容: 亮點與優勢: 二、實際運行效果: 三、算法介紹: 四、完整程序數據分享下載: 一、程序及算法內容介紹: 基本內容: 本代碼基于Matlab平臺…

5 局域網基礎(3)

1.AAA 服務器 AAA 是驗證、授權和記賬(Authentication、Authorization、Accounting)3個英文單詞的簡稱,是一個能夠處理用戶訪問請求的服務器程序,提供驗證授權以及帳戶服務,主要目的是管理用戶訪問網絡服務器,對具有訪問權的用戶提供服務。AAA服務器通常…

Java TCP文件上傳案例

文件上傳分析 【客戶端】輸入流,從硬盤讀取文件數據到程序中。【客戶端】輸出流,寫出文件數據到服務端。【服務端】輸入流,讀取文件數據到服務端程序。【服務端】輸出流,寫出文件數據到服務器硬盤中。 基本實現 服務端實現 pu…