為了高性能、超大規模的模型訓練，這個組合“出道”了

點擊上方藍字

關注我們

（本文閱讀時間：3分鐘)

近年來，在大量數據上訓練的基于 transformer 的大規模深度學習模型在多項認知任務中取得了很好的成果，并且被使用到一些新產品和功能背后，進一步增強了人類的能力。在過去五年中，這些模型的規模增長了幾個數量級。從最初的 transformer 模型的幾百萬個參數一直到最新的 5300 億個參數的 Megatron-Turing (MT-NLG 530B) 模型（如圖所示），客戶對于前所未有的大規模訓練和微調大型模型的需求越來越強烈。

大模型和硬件能力全景圖??

Azure 機器學習（AzureML）帶來了大量由 InfiniBand 互連提供支持的最新 GPU，以應對大規模 AI 訓練。我們已經在 Azure 上訓練了 Megatron/Turing 和 GPT-3這些模型。以前，為了訓練這些模型，用戶需要設置和維護一個復雜的分布式訓練基礎設施，通常涉及幾個手動的步驟，容易出錯，從而導致在可用性和性能方面的體驗不佳。

今天，我們很自豪地宣布在我們的軟件堆棧中取得突破——使用 DeepSpeed 和 1024 A100 來擴展 2T 參數模型的訓練，并在 1K+ GPU 規模上提供精簡的用戶體驗。我們將通過 AzureML（包括充分優化的 PyTorch 環境）為您帶來這些軟件創新，它為大規模訓練提供了出色的性能和易于使用的界面。

如下圖所示，微軟正在采用全棧優化方法，其中硬件、操作系統、VM image、Docker image（含優化后的PyTorch、DeepSpeed、ONNX 運行時和其他Python包)、面向用戶的Azure ML APIs都已經過優化、集成和測試，具有出色的性能和可擴展性。?

微軟針對 Azure 上可擴展分布式訓練的全棧優化

這個優化的堆棧使我們能夠使用DeepSpeed on Azure有效地擴展大型模型的訓練。與其他云場商發布的數據相比，我們支持 2 倍大的模型大小（2 萬億 vs. 1 萬億參數），擴展到 2 倍的 GPU（1024 vs. 512），以及高達 1.8 倍的計算吞吐量/GPU（150 TFLOPs vs. 81 TFLOPs）。

如果您想更深入地了解性能數據，以及Azure 和 DeepSpeed 如何使您輕松、高效地大規模訓練萬億參數模型，請掃碼或點擊最下方“閱讀原文”。原博客文末有豐富的相關資源！

長按識別二維碼

點擊「閱讀原文」前往原博客~

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/283968.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/283968.shtml
英文地址，請注明出處：http://en.pswp.cn/news/283968.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！