[分布式訓練] 單機多卡的正確打開方式：理論基礎

轉自：https://fyubang.com/2019/07/08/distributed-training/

瓦礫由于最近bert-large用的比較多，踩了很多分布式訓練的坑，加上在TensorFlow和PyTorch之間更換，算是熟悉了一下各類框架的分布式訓練接口，由于集中在一起講可能比較亂，筆者準備分三到四篇來講一下深度學習的分布式訓練。這一篇先講一下“分布式訓練的類型與算法”。

分布式訓練的需求和重要性不需要多說，隨著GPT、BERT、xlnet這些預訓練模型的出現，普通的16G的顯存已經不足以支撐深度學習模型訓練的要求了，這時候就需要用到分布式訓練來提高效率。

注意：這個系列主要介紹單機多卡的分布式訓練情況（這種情況比較常見，土豪和大佬們請忽略）。

總的來說，分布式訓練分為這幾類：

按照并行方式來分：模型并行 vs 數據并行
按照更新方式來分：同步更新 vs 異步更新
按照算法來分：Parameter Server算法 vs AllReduce算法

模型并行 vs. 數據并行

假設我們有n張GPU：

模型并行：不同的GPU輸入相同的數據，運行模型的不同部分，比如多層網絡的不同層。
數據并行：不同的GPU輸入不同的數據，運行相同的完整模型。

在這里插入圖片描述

當模型非常大，一張GPU已經存不下的時候，可以使用模型并行，把模型的不同部分交給不同的機器負責，但是這樣會帶來很大的通信開銷，而且模型并行各個部分存在一定的依賴，規模伸縮性差。因此，通常一張可以放下一個模型的時候，會采用數據并行的方式，各部分獨立，伸縮性好。

同步更新 vs. 異步更新

對于數據并行來說，由于每個GPU負責一部分數據，那就涉及到如果更新參數的問題，分為同步更新和異步更新兩種方式。

同步更新：每個batch所有GPU計算完成后，再統一計算新權值，然后所有GPU同步新值后，再進行下一輪計算。
異步更新：每個GPU計算完梯度后，無需等待其他更新，立即更新整體權值并同步。

在這里插入圖片描述

同步更新有等待，速度取決于最慢的那個GPU；異步更新沒有等待，但是涉及到更復雜的梯度過時，loss下降抖動大的問題。所以實踐中，一般使用同步更新的方式。

Parameter Server算法 vs. Ring AllReduce算法

這里講一下常用的兩種參數同步的算法：PS 和 Ring AllReduce。

假設有5張GPU：

Parameter Server：GPU 0將數據分成五份分到各個卡上，每張卡負責自己的那一份mini-batch的訓練，得到grad后，返回給GPU 0上做累積，得到更新的權重參數后，再分發給各個卡。
Ring AllReduce：5張以環形相連，每張卡都有左手卡和右手卡，一個負責接收，一個負責發送，循環4次完成梯度累積，再循環4次做參數同步。分為Scatter Reduce和All Gather兩個環節。

Parameter Server算法

在這里插入圖片描述

Parameter Server的思想其實有點類似于MapReduce，以上講同步異步的時候，都是用的這種算法，但是它存在兩個缺點：

每一輪的訓練迭代都需要所有卡都將數據同步完做一次Reduce才算結束，并行的卡很多的時候，木桶效應就會很嚴重，計算效率低。
所有的GPU卡需要和Reducer進行數據、梯度和參數的通信，當模型較大或者數據較大的時候，通信開銷很大。

假設有 $N$ 個GPU，通信一次完整的參數所需時間為 $K$ ，那么使用PS架構，花費的通信成本為：
$T = 2 (N ? 1) K$
所以我們亟需一種新的算法來提高深度學習模型訓練的并行效率。

Ring AllReduce算法

2017 年 Facebook 發布了《Accurate, large minibatch SGD: Training ImageNet in 1 hour 》驗證了大數據并行的高效性，同年百度發表了《Bringing HPC techniques to deep learning 》，驗證了全新的梯度同步和權值更新算法的可行性，并提出了一種利用帶寬優化環解決通信問題的方法——Ring AllReduce。

在這里插入圖片描述

Parameter Service最大的問題就是通信成本和GPU的數量線性相關。而Ring AllReduce的通信成本與GPU數量無關。Ring AllReduce分為兩個步驟：Scatter Reduce和All Gather。

Scatter Reduce過程：首先，我們將參數分為N份，相鄰的GPU傳遞不同的參數，在傳遞N-1次之后，可以得到每一份參數的累積（在不同的GPU上）。

在這里插入圖片描述

All Gather：得到每一份參數的累積之后，再做一次傳遞，同步到所有的GPU上。

在這里插入圖片描述

根據這兩個過程，我們可以計算到All Reduce的通信成本為：
$T=2(N?1)KNT=2(N-1)\frac{K}{N}$
可以看到通信成本T與GPU數量無關。

由于All Reduce算法在通信成本上的優勢，現在幾個框架基本上都實現了其對于的官方API，后面幾篇，瓦礫會跟大家一起過一遍TF，Torch的分布式訓練API具體是怎么用的，有哪些坑。

Reference

是時候放棄Tensorflow，擁抱Horovod了
Tensorflow單機多卡實現
Binging HPC Techniques to Deep Learning
Training Neural Nets on Larger Batches: Practical Tips for 1-GPU, Multi-GPU & Distributed setups

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/532787.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/532787.shtml
英文地址，請注明出處：http://en.pswp.cn/news/532787.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！