筆記-分布式計算基礎

Distributed Computing

one-to-many communication: a type of operations performed across all workers
1. Reduce : 類似聚合，但是在聚合過程中進行平均或求和
2. Broadcast: 向所有的workers發送相同的復制
Parameter server 的bottle neck(瓶頸)

parameter server主要起的作用就是同步信息的作用，不希望有類似server的節點：All-Reduce
Naive All reduce implementation

需要循環，每次傳輸所有的數據
Better All reduce implementation

每個節點只和旁邊的節點做交互，也需要循環三次，但每次只傳輸旁邊的一部分
更聰明的方式： Recursive Halving reduce(遞歸減半規約)

同上面的類似，也是臨近的workers交換，對于8個worker來說，做了3次的iteration，然后交換間隔是 $2^0,2^1,2^3$ ，這樣可以將時間復雜度從 $O(N)降到O(log?N)O(N)降到O(\log N)$

如果我們訓練一個非常大的大模型，那么即使是最好的GPU也沒法完全將模型權重完全加載到內存中，然而，訓練需要存儲梯度和優化器

在fp32精度下，如果模型的weight占2bytes，那么其gradients大概也占2bytes左右，如果優化器使用Adam，其optimizer states因為要存儲parameters, momentum 和variance,所以大概需要6倍（這個倍數取決于配置，再怎么配置一般也都是weight的三到四倍），即使是使用A100或者H100顯卡（80G）來訓練，最多也只能訓練5.0B的模型
第一種方式 ZERO-1

沒個GPU存放完整的額weight和gradients,分割optimizer states 到N個不同的GPU卡上，假設N=64，則這時候用80G的顯卡，大概能訓練19B參數量的模型
第二種方式ZERO-2

相比zero-1，除了optimizer states，我們還將gradients也分布在不同的GPU上，假設N=64, 則這時候用80G的顯卡，大概能訓36B參數量的模型
第三種方式ZERO-3

將optimizer states,gradients and weights都分布在不同的GPU上，假設N=64, 則這時候用80G的顯卡，大概能訓320B參數量的模型
在pytorch中，ZERO-3等價于FSDP (FullyShardedDataParallel),即所有的參數都做parallelism

難點在于GPU之間的通信，如何將GPU前后向傳播聯合起來計算

下圖表示的是4層網絡在訓練的時候，使用F代表Forward,B代表Backward,下面圖中的（b）Training timeline,其橫軸為時間軸，假設這4層網絡分別存放在4個GPU上

所以計算的順序為GPU0->GPU1->GPU2->GPU3->GPU3->GPU2->GPU1->GPU0,那么這四個GPU沒個都使用了兩個時間單元，占有率都是 $28=0.25\frac{2}{8}=0.25$ ,這意味著其他75%的時間都是空閑的，而且這25%還是在假設沒個pipeline的執行時間是一樣的情況下，否則這個占有率還可能更低，這個是pipeline并行的一大問題，沒有辦法很好的利用到GPU的資源

同一時間點只有一個設備在計算，其他的都在等待。

讓它多跑一跑不斷地將計算給到流水線,如下圖，將batch為16的分為4個batch為4的（Micro-batch技術），下圖下面的部分，這時候T=14, 那么每個GPU的使用率就是 $4?84?14=47\frac{4*8}{4*14}=\frac{4}{7}$ ，這樣空閑的時間實際上就下降了很多，當然如果再將任務拆解的更小，還可以提升使用

注意，紅色為空閑時間
如何提高Pipeline Paralisem的效率？盡量將任務拆解的更小，然后做micro-batch

將上面的三種并行方法都混在一起

下面的相同的顏色表示同一個server里面的GPU(Model Parallel是Tensor Parallelism)

需要注意的是：

為什么同一個server中用 ModelParallel(Tensor Parallelism)？

因為tensor并行是高通信的，GPU之間需要經常交互，同一個server中交互更快
如何設計并行？

當模型太大，無法加載到一個GPU上：使用pipeline parallelism來拆分模型

當layer太大，無法加載到一個GOU上：使用tensor parallelism來拆分layer

通信的時間可能比計算的時間更長，所以我們需要降低通信的開銷

在同一個數據中心，數據通信網絡延遲可能是1毫秒到10毫秒，無線wifi連接數據通信延遲是100ms，地球間的通信網絡延遲大概是500毫秒到1秒，但是在同一個機架內（同一個GPU集群上）那么延遲1納秒，非常小
減小傳輸的數據大小

在worker之間，或者在GPU之間，減小傳輸的數據（gradient,parameters）大小
1. 梯度剪枝
2. 量化（會損失精度和信息）
壓縮通信：梯度剪枝

注意梯度剪枝是一種基于梯度信息的剪枝方法。它通過分析梯度的大小來決定哪些神經元或連接是重要的，哪些可以被移除，區別于梯度裁剪

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/88659.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/88659.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/88659.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！