Megatron系列——流水線并行

Megatron系列——流水線并行

news/2025/6/22 12:06:26/文章來源:https://blog.csdn.net/u012599545/article/details/147903977

內容總結自：bilibili zomi 視頻大模型流水線并行?

注：這里PipeDream 1F1B對應時PP，Interleaved 1F1B對應的是VPP

1、樸素流水線并行

備注：

（1）紅色三個圈都為空泡時間，GPU沒有做任何計算

（2）共有4張卡，大batch size下，F0為第1次前向，依次流水線執行。所有stage完成后，再執行第1次反向B0。

（3）所有stage反向傳播完計算好梯度后，所有stage同時更新參數

GPU利用率非常低。

2、Gpipe 流水線并行

解決辦法：

（1）將大的batch size拆分為多個小的micro batch size，如數據1計算完了后，直接進入下一個stage device2計算，無需等待數據8執行完。

空泡率：

（1）micro? batch_size越高，空泡率越低

（2）m個micro-batch前向結束時，內存達到峰值，不斷增加m可能導致內存不夠。解決辦法為重計算，即部分層不存儲中間結果，在計算梯度時再重新計算中間結果。

（3）MFU 模型利用率提高

3、1F1B PP（非交錯式）

備注：

（1）在最后一個stage，即NPU4上可以看到，1次前向1次反向，交替進行，因此叫做1F1B。這個NPU上只保存了1份激活值，即前向中間結果，及時反向后釋放。而NPU1最多有4份

4、1F1B interleaving VPP（交錯式）

要持續降低bubble占比，有上圖兩種方式，第二種方式為將每張卡上搞多個stage。

（1）如NPU1負責第1層和第5層。按照原來的1F1B的方法，若有4張卡，分4個stage，則每張卡負責連續的2層，如NPU1負責1-2層，當數據1過來，需要在NPU1上經過2層計算后才到第二張卡。反而通過本方案，數據1過來后，只要經過1層計算，馬上到第二張卡，第二張卡及以后的等待時間變短了。這時第一張卡可以做數據2的計算。

完整的圖如下：

（1）這里橫坐標為時間線，如第1時刻，只有NPU1在做數據1的計算，第4時刻NPU1在做數據4計算，NPU4在做數據1的計算。

（2）第5時刻，NPU4已經完成數據1的計算了，按照上一張圖的說法，意味著數據1已經完成了第4層的計算，這時候可以回到第一張卡做數據1的第5層前向計算了。這時NPU2還在做數據4的第一層前向計算。其他的可以見圖所示。

（3）第9時刻，數據1已經完成完整的8層前向計算，在NPU4上可以做反向傳播，執行1F1B了。其他的類似。

空泡率：

5、其他的流水線并行?

6、分布式PP實現方案

是所有并行中最難的，分為以下兩種實現方式：

7、PP 代碼實現

（1）模型實例化構建

（2）每個NPU只構建對應offset的layers

每個rank的層數為：總層數//pp數，若只有一層，如何分配？
embedding和output layer如何分配到第一個NPU和最后一個NPU的，代碼在哪里？

（3）確定執行交錯式或非交錯式的前向反向函數

?

這里面num_microbatches_remaining為對應rank還有多少個micro batchs沒有執行完。

（3）3個步驟，接收、前向計算、發送

（4）反向傳播

?

NPU0和NPU1在不斷通訊，NPU1完成B1反向傳播時，會將結果發給NPU0，同時等待數據2前向計算的結果。?

?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/905168.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/905168.shtml
英文地址，請注明出處：http://en.pswp.cn/news/905168.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

在Web應用中集成Google AI NLP服務的完整指南：從Dialogflow配置到高并發優化

在Web應用中集成Google AI NLP服務的完整指南：從Dialogflow配置到高并發優化

在當今數字化客服領域，自然語言處理(NLP)技術已成為提升用戶體驗的關鍵。Google AI提供了一系列強大的NLP服務，特別是Dialogflow，能夠幫助開發者構建智能對話系統。本文將詳細介紹如何在Web應用中集成這些服務，解決從模型訓練到高并發處理的全套技術挑戰。一、Dialogflow…

閱讀更多...

Wi-Fi網絡角色及功能詳解

Wi-Fi網絡角色及功能詳解

在 Wi-Fi 網絡中，不同的角色和組件協同工作以實現無線通信。以下是 Wi-Fi 中的主要角色及其功能： 1. 基礎設施模式（Infrastructure Mode） 這是最常見的 Wi-Fi 網絡架構，包含以下核心角色： 接入點&#xff…

閱讀更多...

密碼學--希爾密碼

密碼學--希爾密碼

一、實驗目的 1、通過實現簡單的古典密碼算法，理解密碼學的相關概念 2、理解明文、密文、加密密鑰、解密密鑰、加密算法、解密算法、流密碼與分組密碼等。二、實驗內容 1、題目內容描述 ①定義分組字符長度 ②隨機生成加密密鑰，并驗證密鑰的可行性 …

閱讀更多...

[C++] 一個線程打印奇數一個線程打印偶數

[C++] 一個線程打印奇數一個線程打印偶數

要求開辟兩個線程打印從0-100的數，一個線程打印奇數一個線程打印偶數，要求必須按照1,2,3,4,5,6…100這種按照順序打印使用std::shared_mutex的版本 #ifndef PrintNumber2_H_ #define PrintNumber2_H_#include <shared_mutex>class PrintNumber2…

閱讀更多...

MySQL全量、增量備份與恢復

MySQL全量、增量備份與恢復

目錄數據備份一、數據備份類型二、常見備份方法擴展：GTID與XtraBackup ?一、GTID（全局事務標識符）? ?1. 定義與核心作用? ?2. GTID在備份恢復中的意義? ?3. GTID配置與啟用? ?二、XtraBackup的意義與核心價值? ?1. 定…

閱讀更多...

木馬查殺篇—Opcode提取

木馬查殺篇—Opcode提取

【前言】介紹Opcode的提取方法，并探討多種機器學習算法在Webshell檢測中的應用，理解如何在實際項目中應用Opcode進行高效的Webshell檢測。 Ⅰ 基本概念 Opcode：計算機指令的一部分，也叫字節碼，一個php文件可以抽取出…

閱讀更多...

DeepSeek-R1-Distill-Qwen-1.5B代表什么含義？

DeepSeek-R1-Distill-Qwen-1.5B代表什么含義？

DeepSeek?R1?Distill?Qwen?1.5B 完整釋義與合規須知一句話先行這是 DeepSeek?AI?把自家?R1?大模型?的知識，通過蒸餾壓縮進一套 Qwen?1.5B 架構的輕量學生網絡，并以寬松開源許可證發布的模型權重。 1?|?名字逐段拆解片段意義備注DeepSee…

閱讀更多...

Megatron系列——張量并行

Megatron系列——張量并行

本文整理自bilibili Zomi視頻 1、行切分和列切分注意： （1）A按列切分時，X無需切分，split復制廣播到A1和A2對應設備即可。最后Y1和Y2需要拼接下，即All Gather （2）A按行切分時&#…

閱讀更多...

java agent技術

java agent技術

從JDK1.5之后引入了java angent技術 Java Agent 是一種強大的技術，它允許開發者在 JVM 啟動時或運行期間動態地修改類的字節碼，從而實現諸如性能監控、日志記錄、AOP（面向切面編程）等功能 java agent依賴于Instrumentation API&…

閱讀更多...

LLaMA Factory 深度調參

LLaMA Factory 深度調參

注意，本文涵蓋從基礎調參到前沿研究的完整知識體系，建議結合具體業務場景靈活應用。一篇“參考文獻”而非“可運行的代碼”。https://github.com/zysNLP/quickllm 初始指令： llamafactory-cli train \--stage sft \--do_train True \--mode…

閱讀更多...

Linux驅動：驅動編譯流程了解

Linux驅動：驅動編譯流程了解

要求 1、開發板中的linux的zImage必須是自己編譯的 2、內核源碼樹，其實就是一個經過了配置編譯之后的內核源碼。 3、nfs掛載的rootfs，主機ubuntu中必須搭建一個nfs服務器。內核源碼樹解壓 tar -jxvf x210kernel.tar.bz2 編譯 make x210ii_qt_defconfigmakeCan’t use ‘…

閱讀更多...

Redis集群模式、持久化、過期策略、淘汰策略、緩存穿透雪崩擊穿問題

Redis集群模式、持久化、過期策略、淘汰策略、緩存穿透雪崩擊穿問題

Redis四種模式單節點模式架構??：單個Redis實例運行在單臺服務器。 ??優點??： ??簡單??：部署和配置容易，適合開發和測試。 ??低延遲??：無網絡通信開銷。 ??缺點??： ??單點故障??&…

閱讀更多...

1.2 函數

1.2 函數

函數的本質是描述變量間的依賴關系：??一個變量（自變量）的變化會唯一確定另一個變量（因變量）的值??。 ??基本構成??：通過符號（如YF(X)）表達規則，X輸入 → F處理 …

閱讀更多...

2025數字孿生技術全景洞察：從工業革命到智慧城市的跨越式發展

2025數字孿生技術全景洞察：從工業革命到智慧城市的跨越式發展

引言數字孿生技術，這一融合物理世界與虛擬鏡像的革新性工具，正以驚人的速度重塑產業格局。2025年，中國數字孿生市場規模預計達214億元，工業制造領域占比超40%，其技術深度與行業落地成果令人矚目。本文將結合最新數據與…

閱讀更多...

RabbitMQ 工作模式

RabbitMQ 工作模式

RabbitMQ 一共有 7 中工作模式，可以先去官網上了解一下（一下截圖均來自官網）：RabbitMQ 官網 Simple P：生產者，要發送消息的程序；C：消費者，消息的接受者；hell…

閱讀更多...

VBA會被Python代替嗎

VBA會被Python代替嗎

VBA不會完全被Python取代、但Python在自動化、數據分析與跨平臺開發等方面的優勢使其越來越受歡迎、兩者將長期并存且各具優勢。 Python以其易于學習的語法、強大的開源生態系統和跨平臺支持，逐漸成為自動化和數據分析領域的主流工具。然而，VBA依舊在Exc…

閱讀更多...

【開源工具】深度解析：基于PyQt6的Windows時間校時同步工具開發全攻略

【開源工具】深度解析：基于PyQt6的Windows時間校時同步工具開發全攻略

🕒 【開源工具】深度解析：基于PyQt6的Windows時間校時同步工具開發全攻略 🌈 個人主頁：創客白澤 - CSDN博客 🔥 系列專欄：🐍《Python開源項目實戰》 💡 熱愛不止于代碼，熱…

閱讀更多...

大模型項目：普通藍牙音響接入DeepSeek，解鎖語音交互新玩法

大模型項目：普通藍牙音響接入DeepSeek，解鎖語音交互新玩法

本文附帶視頻講解【代碼宇宙019】技術方案：藍牙音響接入DeepSeek，解鎖語音交互新玩法_嗶哩嗶哩_bilibili 目錄效果演示核心邏輯技術實現大模型對話（技術： LangChain4j 接入 DeepSeek） 語音識別（…

閱讀更多...

qt命名空間演示

qt命名空間演示

#ifndef CIR_H #define CIR_Hnamespace cir {double PI3.141592653;//獲取圓行周長double getLenthOfCircle(double radius){return 2*PI*radius;}//獲取圓形面積double getAreaOfCircle(double radius){return PI*radius*radius;}} #endif // CIR_H#include <iostream> …

閱讀更多...

使用 Java 反射動態加載和操作類

使用 Java 反射動態加載和操作類

Java 的反射機制（Reflection）是 Java 語言的一大特色，它允許程序在運行時檢查、加載和操作類、方法、字段等元信息。通過 java.lang.Class 和 java.lang.reflect 包，開發者可以動態加載類、創建實例、調用方法，甚至在運行時構造新類。反射是 Java 靈活性的核心，廣泛應用于…

閱讀更多...

最新文章