在人工智能技術日新月異的今天,大模型作為推動AI進步的重要驅動力,是百行百業不斷追逐的熱點。大模型以其強大的泛化能力、卓越的模型效果和廣泛的應用場景,正改變著人工智能的未來。作為國內領先的ICT解決方案提供商,新華三集團憑借其在算力服務器、無損網絡、高性能存儲和算力調度平臺等領域的豐富經驗和技術實力,推出了新華三通用大模型算力底座方案,旨在為AI時代注入強大動力。
大模型發展的機遇與挑戰
大模型是指具有大量參數的機器學習模型,不同領域內,大模型的參數量級有所不同:自然語言(NLP)類模型,普遍認為超過50億(5B)參數才算是大模型;而要達到與ChatGPT相仿的能力一般需千億規模(100B)參數,例如我們常提到的GPT-3(175B)就屬于生成式語言模型;而計算機視覺(CV)類模型,目前50億(5B)參數的就屬于大模型級別了。
大模型的優勢在于其強大的泛化能力,通過在海量數據上進行預訓練使得大模型能夠學習到大量通用知識、捕捉到更多細節,這使得大模型在面臨新的任務時,只需要進行微調就能迅速適應,從而在具體任務中取得更好的表現;同時,大模型還具有廣泛的應用場景,從文本生成、機器翻譯到圖像識別、語音識別,大模型都能發揮重要作用。
大模型關鍵技術支撐
大模型業務分為預訓練、微調、推理三個主要階段,每個階段具體內容如下圖所示:
大模型訓練技術簡述:
一、并行策略選擇:
大模型多機并行訓練時,大部分會用到模型并行和數據并行策略,少部分會用到專家并行策略;模型并行又分為張量并行和流水線并行,以下僅對常用的三種并行策略進行簡要說明:
1、張量并行:
將模型進行層內切分,每張GPU保存模型同一層的部分參數,所有GPU共享同一批數據;模型參數進行層內切分后部署不同的設備,在前向和反向過程中都需要接收其他設備產生的結果(點對點Send/Recv),同時每 個設備的梯度同樣需要聚合后再分發給各個設備進行模型參數更新(AllReduce);通信量與模型規模正相關,單卡可達10GB+,一個Step一次通信。
2、流水線并行:
將模型進行層間切分,每張GPU保存模型的部分層,同時將Mini Batch劃分為若干Micro Batch傳入流水線;通過層間切分位置(邊界層)點對點Send/Recv同步激活與梯度,正向傳激活,反向傳梯度;通信量與層間交互相關,一般在MB級別,一Step幾十次通信。
3、數據并行:
相同的模型分布在不同的GPU/計算節點/計算集群上,對數據集進行切分后并行計算;訓練時每臺設備負責處理不同的mini-batch,由此會產生不同的梯度,系統會將不同設備產生的梯度聚合到一起,計算均值, 再分發給各個設備進行模型參數更新,通信開銷主要來源于梯度的聚合和分發,Allreduce同步矩陣乘結果;通信量與batchsize有關,矩陣可達GB級別,一個Step幾十次通信。
二、多機訓練過程簡述:
如下圖所示,每個計算POD之間是數據并行,每個POD內部,單臺機器內部是張量并行,多臺機器之間是流水線并行,下面的示意圖是進行一輪Epoch訓練的過程。
第一步,數據并行:數據集按照POD數量拆分后作為樣本輸入,并行傳入到多個模型副本當中。
第二步,張量并行:切分后的每份模型,在第一臺機器內部,按照多張GPU執行順序進行張量并行計算,期間進行多次數據集合運算。
第三步,流水線并行:第一臺機器內部的GPU計算完成后通過流水線并行傳輸到第二臺機器的GPU當中,傳輸的數據為上一臺GPU計算的結果(實際會更復雜)。
第四步,重復進行張量并行和流水線并行,直到單一計算POD內的最后一臺GPU服務器完成了數據集合運算。
第五步,權重同步:所有計算POD內的多個模型副本在完成一輪Epoch計算后,采用數據并行進行一次全量的權重同步,之后開始進行下一輪Epoch訓練,直到收斂為止。
大模型推理技術簡述:
如上圖所示,推理服務經程序封裝后可看作是需要GPU運行的應用程序,推理服務不持久化數據,所以服務可重入,若需要對推理結果進行沉淀,需要用大數據的手段在服務之外進行API分流監控;由于應用程序無狀態,可進行應用程序的負載均衡,以提升推理的并發能力,此部分和普通應用相同;基礎設施故障后,應用可以根據策略遷移到其他設備上,但GPU的類型和型號需要和原環境保持一致;若容器形式部署,可以像微服務應用程序一樣進行業務層面的編排;若為虛擬機,則可以用基于云上的業務編排系統進行業務編排。
綜上對訓練和推理技術的分析,可以得出,大模型是一個復雜的系統工程,從數據采集開始,最后到提供相應的大模型服務,落地一個垂直領域的大模型不僅需要高效算法,更需要全面的業務規劃和基礎設施規劃,才能保證大模型高效部署落地。
當今大模型的發展也面臨著如下挑戰:
算力層面:受限于部分GPU供應問題,替代方案性能無法延續原有技術方案;此外,眾多的GPU卡型號導致測試標準不統一、主機廠商適配進度不一、交付周期不定等問題。
存力層面:需要大模型場景專用存儲;提供更高的存儲讀、寫帶寬及IOPS;具備良好的擴展性;擁有靈活的數據保護策略。
運力層面:具備高帶寬、低延時特性;支持RDMA或RoCE通信協議;可實現快速部署、便捷調優;達到可視化運維、快速定位問題所在。
管理平臺:面向大模型業務的專業調度管理平臺;多元算力可快速適配、全面納管;具備大模型全生命周期服務能力;具有完善的運維功能。
總之,大模型是一個復雜的系統工程,從數據采集開始,最后到提供相應的大模型服務,落地一個垂直領域的大模型不僅需要高效算法,更需要全面的業務規劃和算力底座規劃,才能保證大模型高效部署落地。
新華三算力底座解決方案
面對上述挑戰和需求,新華三集團憑借在做的豐富經驗和技術實力,推出了新華三通用大模型算力底座方案。該方案可以幫助用戶從無到有建設一個私域的大模型算力底座集群,助力垂直行業大模型加速落地。
新華三通用大模型算力底座方案架構圖:
算力解決之道:
新華三秉承多元算力發展理念,采用與NVIDIA高端卡性能接近的國產化加速卡或滿足合規要求的Intel或AMD GPU卡;并與多家GPU卡廠商深度合作,基于不同廠商優勢特性,形成算力芯片評測標準,以客戶不同算力需求為導向匹配最優選擇,并自建適配標準、實現快速交付,形成多元高效的算力體系。
存力解決之道:
新華三針對大模型場景,推出專用CX系列存儲;單節點20GB/s+帶寬、30萬IOPS;輕松擴展至PB級可用容量,性能線性增加;數據保護采用多副本或糾刪碼,供用戶按需選擇。
運力解決之道:
新華三SeerFabric或Infiniband滿足高帶寬、低延時要求;提供優化后的RoCE或原生RDMA通信協議;一鍵自動化部署、動態閉環調優;網絡可視化、智能分析,讓運維更高效。
管理解決之道:
新華三自研大模型場景專用管理平臺,傲飛算力平臺;自研GPU通用適配框架,適配周期縮短至2周以內;內置大模型全棧工作流,助力AI業務探究;監控、告警全面直觀,讓運維更輕松。
AI時代,“算力即生產力”,新華三集團依托“AI in ALL”技術戰略,為AI時代的大模型應用提供了全方位的支持。未來,新華三集團將繼續秉持“精耕務實,為時代賦智慧”的理念,持續升級產品及解決方案,充分發揮“算力×聯接”的倍增效應,持續進化通用大模型算力底座方案,加速百行百業擁抱AI技術的美好未來。