新華三通用大模型算力底座方案：為AI時代注入強大動力

在人工智能技術日新月異的今天，大模型作為推動AI進步的重要驅動力，是百行百業不斷追逐的熱點。大模型以其強大的泛化能力、卓越的模型效果和廣泛的應用場景，正改變著人工智能的未來。作為國內領先的ICT解決方案提供商，新華三集團憑借其在算力服務器、無損網絡、高性能存儲和算力調度平臺等領域的豐富經驗和技術實力，推出了新華三通用大模型算力底座方案，旨在為AI時代注入強大動力。

大模型發展的機遇與挑戰

大模型是指具有大量參數的機器學習模型，不同領域內，大模型的參數量級有所不同：自然語言（NLP）類模型，普遍認為超過50億（5B）參數才算是大模型；而要達到與ChatGPT相仿的能力一般需千億規模（100B）參數，例如我們常提到的GPT-3（175B）就屬于生成式語言模型；而計算機視覺（CV）類模型，目前50億（5B）參數的就屬于大模型級別了。

大模型的優勢在于其強大的泛化能力，通過在海量數據上進行預訓練使得大模型能夠學習到大量通用知識、捕捉到更多細節，這使得大模型在面臨新的任務時，只需要進行微調就能迅速適應，從而在具體任務中取得更好的表現；同時，大模型還具有廣泛的應用場景，從文本生成、機器翻譯到圖像識別、語音識別，大模型都能發揮重要作用。

大模型關鍵技術支撐

大模型業務分為預訓練、微調、推理三個主要階段，每個階段具體內容如下圖所示：
在這里插入圖片描述

大模型訓練技術簡述：

一、并行策略選擇：

大模型多機并行訓練時，大部分會用到模型并行和數據并行策略，少部分會用到專家并行策略；模型并行又分為張量并行和流水線并行，以下僅對常用的三種并行策略進行簡要說明：

1、張量并行：
在這里插入圖片描述
將模型進行層內切分，每張GPU保存模型同一層的部分參數，所有GPU共享同一批數據；模型參數進行層內切分后部署不同的設備，在前向和反向過程中都需要接收其他設備產生的結果（點對點Send/Recv），同時每個設備的梯度同樣需要聚合后再分發給各個設備進行模型參數更新（AllReduce）；通信量與模型規模正相關，單卡可達10GB+，一個Step一次通信。

2、流水線并行：
在這里插入圖片描述
將模型進行層間切分，每張GPU保存模型的部分層，同時將Mini Batch劃分為若干Micro Batch傳入流水線；通過層間切分位置（邊界層）點對點Send/Recv同步激活與梯度，正向傳激活，反向傳梯度；通信量與層間交互相關，一般在MB級別，一Step幾十次通信。

3、數據并行：
在這里插入圖片描述
相同的模型分布在不同的GPU/計算節點/計算集群上，對數據集進行切分后并行計算；訓練時每臺設備負責處理不同的mini-batch，由此會產生不同的梯度，系統會將不同設備產生的梯度聚合到一起，計算均值，再分發給各個設備進行模型參數更新，通信開銷主要來源于梯度的聚合和分發，Allreduce同步矩陣乘結果；通信量與batchsize有關，矩陣可達GB級別，一個Step幾十次通信。

二、多機訓練過程簡述：

如下圖所示，每個計算POD之間是數據并行，每個POD內部，單臺機器內部是張量并行，多臺機器之間是流水線并行，下面的示意圖是進行一輪Epoch訓練的過程。

在這里插入圖片描述
第一步，數據并行：數據集按照POD數量拆分后作為樣本輸入，并行傳入到多個模型副本當中。

第二步，張量并行：切分后的每份模型，在第一臺機器內部，按照多張GPU執行順序進行張量并行計算，期間進行多次數據集合運算。

第三步，流水線并行：第一臺機器內部的GPU計算完成后通過流水線并行傳輸到第二臺機器的GPU當中，傳輸的數據為上一臺GPU計算的結果（實際會更復雜）。

第四步，重復進行張量并行和流水線并行，直到單一計算POD內的最后一臺GPU服務器完成了數據集合運算。

第五步，權重同步：所有計算POD內的多個模型副本在完成一輪Epoch計算后，采用數據并行進行一次全量的權重同步，之后開始進行下一輪Epoch訓練，直到收斂為止。

大模型推理技術簡述：

在這里插入圖片描述
如上圖所示，推理服務經程序封裝后可看作是需要GPU運行的應用程序，推理服務不持久化數據，所以服務可重入，若需要對推理結果進行沉淀，需要用大數據的手段在服務之外進行API分流監控；由于應用程序無狀態，可進行應用程序的負載均衡，以提升推理的并發能力，此部分和普通應用相同；基礎設施故障后，應用可以根據策略遷移到其他設備上，但GPU的類型和型號需要和原環境保持一致；若容器形式部署，可以像微服務應用程序一樣進行業務層面的編排；若為虛擬機，則可以用基于云上的業務編排系統進行業務編排。

綜上對訓練和推理技術的分析，可以得出，大模型是一個復雜的系統工程，從數據采集開始，最后到提供相應的大模型服務，落地一個垂直領域的大模型不僅需要高效算法，更需要全面的業務規劃和基礎設施規劃，才能保證大模型高效部署落地。

在這里插入圖片描述

當今大模型的發展也面臨著如下挑戰：

算力層面：受限于部分GPU供應問題，替代方案性能無法延續原有技術方案；此外，眾多的GPU卡型號導致測試標準不統一、主機廠商適配進度不一、交付周期不定等問題。

存力層面：需要大模型場景專用存儲；提供更高的存儲讀、寫帶寬及IOPS；具備良好的擴展性；擁有靈活的數據保護策略。

運力層面：具備高帶寬、低延時特性；支持RDMA或RoCE通信協議；可實現快速部署、便捷調優；達到可視化運維、快速定位問題所在。

管理平臺：面向大模型業務的專業調度管理平臺；多元算力可快速適配、全面納管；具備大模型全生命周期服務能力；具有完善的運維功能。

總之，大模型是一個復雜的系統工程，從數據采集開始，最后到提供相應的大模型服務，落地一個垂直領域的大模型不僅需要高效算法，更需要全面的業務規劃和算力底座規劃，才能保證大模型高效部署落地。

新華三算力底座解決方案

面對上述挑戰和需求，新華三集團憑借在做的豐富經驗和技術實力，推出了新華三通用大模型算力底座方案。該方案可以幫助用戶從無到有建設一個私域的大模型算力底座集群，助力垂直行業大模型加速落地。

新華三通用大模型算力底座方案架構圖：
在這里插入圖片描述

算力解決之道：

新華三秉承多元算力發展理念，采用與NVIDIA高端卡性能接近的國產化加速卡或滿足合規要求的Intel或AMD GPU卡；并與多家GPU卡廠商深度合作，基于不同廠商優勢特性，形成算力芯片評測標準，以客戶不同算力需求為導向匹配最優選擇，并自建適配標準、實現快速交付，形成多元高效的算力體系。
在這里插入圖片描述
存力解決之道：

新華三針對大模型場景，推出專用CX系列存儲；單節點20GB/s+帶寬、30萬IOPS；輕松擴展至PB級可用容量，性能線性增加；數據保護采用多副本或糾刪碼，供用戶按需選擇。
在這里插入圖片描述
運力解決之道：

新華三SeerFabric或Infiniband滿足高帶寬、低延時要求；提供優化后的RoCE或原生RDMA通信協議；一鍵自動化部署、動態閉環調優；網絡可視化、智能分析，讓運維更高效。
在這里插入圖片描述
管理解決之道：

新華三自研大模型場景專用管理平臺，傲飛算力平臺；自研GPU通用適配框架，適配周期縮短至2周以內；內置大模型全棧工作流，助力AI業務探究；監控、告警全面直觀，讓運維更輕松。
在這里插入圖片描述
AI時代，“算力即生產力”，新華三集團依托“AI in ALL”技術戰略，為AI時代的大模型應用提供了全方位的支持。未來，新華三集團將繼續秉持“精耕務實，為時代賦智慧”的理念，持續升級產品及解決方案，充分發揮“算力×聯接”的倍增效應，持續進化通用大模型算力底座方案，加速百行百業擁抱AI技術的美好未來。