本文整理自bilibili Zomi視頻
1、行切分和列切分
注意:
(1)A按列切分時,X無需切分,split復制廣播到A1和A2對應設備即可。最后Y1和Y2需要拼接下,即All Gather
(2)A按行切分時,X需要按列切分split,最終Y1和Y2需要做All Reduce Sum操作
(3)多次連續矩陣乘,可以把All Gather和Split省略,這個操作是不必要的。
1.1 反向傳播
備注:
(1)這個視頻中有人提到為什么需要對X進行求導,可以看做X為上一層或上一個模塊的輸出,要對上一層參數進行求導,就必須要對X求導。
(2)反向傳播時,注意是兩個設備上X的導數求和
行并行
2、MLP
備注:
(1)經過了兩次矩陣乘,A按列切分,算出的Y1和Y2也為按列切分了,故B按行切分即可。
(2)f為copy,g為all reduce
3、Attention
備注:
(1)這里的Q,K,V是按頭的個數進行列切分