新華三通用大模型算力底座方案:為AI時代注入強大動力

在人工智能技術日新月異的今天,大模型作為推動AI進步的重要驅動力,是百行百業不斷追逐的熱點。大模型以其強大的泛化能力、卓越的模型效果和廣泛的應用場景,正改變著人工智能的未來。作為國內領先的ICT解決方案提供商,新華三集團憑借其在算力服務器、無損網絡、高性能存儲和算力調度平臺等領域的豐富經驗和技術實力,推出了新華三通用大模型算力底座方案,旨在為AI時代注入強大動力。

大模型發展的機遇與挑戰

大模型是指具有大量參數的機器學習模型,不同領域內,大模型的參數量級有所不同:自然語言(NLP)類模型,普遍認為超過50億(5B)參數才算是大模型;而要達到與ChatGPT相仿的能力一般需千億規模(100B)參數,例如我們常提到的GPT-3(175B)就屬于生成式語言模型;而計算機視覺(CV)類模型,目前50億(5B)參數的就屬于大模型級別了。

大模型的優勢在于其強大的泛化能力,通過在海量數據上進行預訓練使得大模型能夠學習到大量通用知識、捕捉到更多細節,這使得大模型在面臨新的任務時,只需要進行微調就能迅速適應,從而在具體任務中取得更好的表現;同時,大模型還具有廣泛的應用場景,從文本生成、機器翻譯到圖像識別、語音識別,大模型都能發揮重要作用。

大模型關鍵技術支撐

大模型業務分為預訓練、微調、推理三個主要階段,每個階段具體內容如下圖所示:
在這里插入圖片描述

大模型訓練技術簡述:
一、并行策略選擇:

大模型多機并行訓練時,大部分會用到模型并行和數據并行策略,少部分會用到專家并行策略;模型并行又分為張量并行和流水線并行,以下僅對常用的三種并行策略進行簡要說明:

1、張量并行:
在這里插入圖片描述
將模型進行層內切分,每張GPU保存模型同一層的部分參數,所有GPU共享同一批數據;模型參數進行層內切分后部署不同的設備,在前向和反向過程中都需要接收其他設備產生的結果(點對點Send/Recv),同時每 個設備的梯度同樣需要聚合后再分發給各個設備進行模型參數更新(AllReduce);通信量與模型規模正相關,單卡可達10GB+,一個Step一次通信。

2、流水線并行:
在這里插入圖片描述
將模型進行層間切分,每張GPU保存模型的部分層,同時將Mini Batch劃分為若干Micro Batch傳入流水線;通過層間切分位置(邊界層)點對點Send/Recv同步激活與梯度,正向傳激活,反向傳梯度;通信量與層間交互相關,一般在MB級別,一Step幾十次通信。

3、數據并行:
在這里插入圖片描述
相同的模型分布在不同的GPU/計算節點/計算集群上,對數據集進行切分后并行計算;訓練時每臺設備負責處理不同的mini-batch,由此會產生不同的梯度,系統會將不同設備產生的梯度聚合到一起,計算均值, 再分發給各個設備進行模型參數更新,通信開銷主要來源于梯度的聚合和分發,Allreduce同步矩陣乘結果;通信量與batchsize有關,矩陣可達GB級別,一個Step幾十次通信。

二、多機訓練過程簡述:

如下圖所示,每個計算POD之間是數據并行,每個POD內部,單臺機器內部是張量并行,多臺機器之間是流水線并行,下面的示意圖是進行一輪Epoch訓練的過程。

在這里插入圖片描述
第一步,數據并行:數據集按照POD數量拆分后作為樣本輸入,并行傳入到多個模型副本當中。

第二步,張量并行:切分后的每份模型,在第一臺機器內部,按照多張GPU執行順序進行張量并行計算,期間進行多次數據集合運算。

第三步,流水線并行:第一臺機器內部的GPU計算完成后通過流水線并行傳輸到第二臺機器的GPU當中,傳輸的數據為上一臺GPU計算的結果(實際會更復雜)。

第四步,重復進行張量并行和流水線并行,直到單一計算POD內的最后一臺GPU服務器完成了數據集合運算。

第五步,權重同步:所有計算POD內的多個模型副本在完成一輪Epoch計算后,采用數據并行進行一次全量的權重同步,之后開始進行下一輪Epoch訓練,直到收斂為止。

大模型推理技術簡述:

在這里插入圖片描述
如上圖所示,推理服務經程序封裝后可看作是需要GPU運行的應用程序,推理服務不持久化數據,所以服務可重入,若需要對推理結果進行沉淀,需要用大數據的手段在服務之外進行API分流監控;由于應用程序無狀態,可進行應用程序的負載均衡,以提升推理的并發能力,此部分和普通應用相同;基礎設施故障后,應用可以根據策略遷移到其他設備上,但GPU的類型和型號需要和原環境保持一致;若容器形式部署,可以像微服務應用程序一樣進行業務層面的編排;若為虛擬機,則可以用基于云上的業務編排系統進行業務編排。

綜上對訓練和推理技術的分析,可以得出,大模型是一個復雜的系統工程,從數據采集開始,最后到提供相應的大模型服務,落地一個垂直領域的大模型不僅需要高效算法,更需要全面的業務規劃和基礎設施規劃,才能保證大模型高效部署落地。

在這里插入圖片描述

當今大模型的發展也面臨著如下挑戰:

算力層面:受限于部分GPU供應問題,替代方案性能無法延續原有技術方案;此外,眾多的GPU卡型號導致測試標準不統一、主機廠商適配進度不一、交付周期不定等問題。

存力層面:需要大模型場景專用存儲;提供更高的存儲讀、寫帶寬及IOPS;具備良好的擴展性;擁有靈活的數據保護策略。

運力層面:具備高帶寬、低延時特性;支持RDMA或RoCE通信協議;可實現快速部署、便捷調優;達到可視化運維、快速定位問題所在。

管理平臺:面向大模型業務的專業調度管理平臺;多元算力可快速適配、全面納管;具備大模型全生命周期服務能力;具有完善的運維功能。

總之,大模型是一個復雜的系統工程,從數據采集開始,最后到提供相應的大模型服務,落地一個垂直領域的大模型不僅需要高效算法,更需要全面的業務規劃和算力底座規劃,才能保證大模型高效部署落地。

新華三算力底座解決方案

面對上述挑戰和需求,新華三集團憑借在做的豐富經驗和技術實力,推出了新華三通用大模型算力底座方案。該方案可以幫助用戶從無到有建設一個私域的大模型算力底座集群,助力垂直行業大模型加速落地。

新華三通用大模型算力底座方案架構圖:
在這里插入圖片描述

算力解決之道:

新華三秉承多元算力發展理念,采用與NVIDIA高端卡性能接近的國產化加速卡或滿足合規要求的Intel或AMD GPU卡;并與多家GPU卡廠商深度合作,基于不同廠商優勢特性,形成算力芯片評測標準,以客戶不同算力需求為導向匹配最優選擇,并自建適配標準、實現快速交付,形成多元高效的算力體系。
在這里插入圖片描述
存力解決之道:

新華三針對大模型場景,推出專用CX系列存儲;單節點20GB/s+帶寬、30萬IOPS;輕松擴展至PB級可用容量,性能線性增加;數據保護采用多副本或糾刪碼,供用戶按需選擇。
在這里插入圖片描述
運力解決之道:

新華三SeerFabric或Infiniband滿足高帶寬、低延時要求;提供優化后的RoCE或原生RDMA通信協議;一鍵自動化部署、動態閉環調優;網絡可視化、智能分析,讓運維更高效。
在這里插入圖片描述
管理解決之道:

新華三自研大模型場景專用管理平臺,傲飛算力平臺;自研GPU通用適配框架,適配周期縮短至2周以內;內置大模型全棧工作流,助力AI業務探究;監控、告警全面直觀,讓運維更輕松。
在這里插入圖片描述
AI時代,“算力即生產力”,新華三集團依托“AI in ALL”技術戰略,為AI時代的大模型應用提供了全方位的支持。未來,新華三集團將繼續秉持“精耕務實,為時代賦智慧”的理念,持續升級產品及解決方案,充分發揮“算力×聯接”的倍增效應,持續進化通用大模型算力底座方案,加速百行百業擁抱AI技術的美好未來。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/39389.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/39389.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/39389.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux kfence使用與實現原理

0 背景 為了更好的檢測linux kernel中內存out-of-bounds、mem-corruption、use-after-free、invaild-free等問題,調研了kfence功能(該功能在linux kernel 5.12引入),幫助研發更好的分析與定位這類內存錯誤的問題。 一、kfence介…

【ES】--Elasticsearch的Nested類型介紹

目錄 一、問題現象二、普通數組類型1、為什么普通數組類型匹配不準?三、nested類型四、nested類型查詢操作1、只根據nested對象內部數組條件查詢2、只根據nested對象外部條件查詢3、根據nested對象內部及外部條件查詢4、向nested對象數組追加新數據5、刪除nested對象數組某一個…

2025中國淄博化工展|淄博化工技術展|淄博化工裝備展

CTEE2025第九屆中國(淄博)化工技術裝備展覽會 時間:2025年5月16-18日 地點:山東淄博國際會展中心 主辦單位:山東省機械工業科學技術協會 青島藍博國際會展有限公司 眾所周知,山東省是我國化工大省。2023年上半年&am…

Go GMP:并發編程實踐

💝💝💝歡迎蒞臨我的博客,很高興能夠在這里和您見面!希望您在這里可以感受到一份輕松愉快的氛圍,不僅可以獲得有趣的內容和知識,也可以暢所欲言、分享您的想法和見解。 推薦:「stormsha的主頁」…

0053__CancelIO的作用:防止為發送的數據丟失

CancelIO的作用:防止為發送的數據丟失-CSDN博客 cancelIoEx 函數 (ioapiset.h) - Win32 apps | Microsoft Learn

【Java】Logbook優化接口調用日志輸出,優雅!

logbook 簡介 很多人可能沒有接觸過 logbook,但它的確是一個很好用的日志框架。引用官網的介紹 Logbook 是一個可擴展的 Java 庫,可以為不同的客戶端和服務器端技術啟用完整的請求和響應日志記錄。它通過以下方式滿足了特殊需求: 允許 Web 應…

計算機網絡期末復習4(武夷學院版)

第四章 網絡層 1、網際協議IP以及配套協議(書P119) 網際協議(IP):IP協議是網絡層的核心協議,負責數據包的編址和路由。它定義了數據包的格式和處理規則。 配套協議:地址解析協議ARP&#xf…

【工具】VS Code使用global插件實現代碼跳轉

🐚作者簡介:花神廟碼農(專注于Linux、WLAN、TCP/IP、Python等技術方向)🐳博客主頁:花神廟碼農 ,地址:https://blog.csdn.net/qxhgd🌐系列專欄:善假于物&#…

粵港聯動,北斗高質量國際化發展的重要機遇

今年是香港回歸27周年,也是《粵港澳大灣區發展規劃綱要》公布5周年,5年來各項政策、平臺不斷為粵港聯動增添新動能。“十四五”時期的粵港澳大灣區,被國家賦予了更重大的使命,國家“十四五”《規劃綱要》提出,以京津冀…

時序約束(二): input delay約束和output delay約束

一、input delay約束 在千兆以太網數據收發項目中,RGMII的數據輸入方式為DDR,源同步輸入方式,可以用之前提到的分析模型進行約束。 在時序約束原理中我們提到,input delay約束的就是發射沿lunch到數據有效的延時,根據…

Vue 3中 <script setup> 與生命周期鉤子函數的詳細解析

Vue 3中 <script setup> 與生命周期鉤子函數的詳細解析 Vue 3 引入了 <script setup> 語法糖&#xff0c;這是一種簡化和集成組件邏輯的新方式。盡管 <script setup> 簡化了組件的編寫&#xff0c;但仍然可以利用 Vue 提供的生命周期鉤子函數來管理組件的生…

【光伏開發】光伏項目開發流程

光伏項目作為可再生能源領域的重要組成部分&#xff0c;其開發過程涉及多個環節&#xff0c;從項目初期的可行性研究到后期的運營維護&#xff0c;每一步都至關重要。本文將按照項目確認、前期階段、中期階段、后期階段的順序&#xff0c;詳細介紹光伏項目的開發流程。 一、項…

Rust 基礎教程

Rust 編程語言教程 Rust是一門注重安全、并發和性能的系統編程語言。本文將從Rust的基本語法、常用功能到高級特性&#xff0c;詳細介紹Rust的使用方法。 目錄 簡介環境配置基礎語法 變量和常量數據類型函數控制流 所有權和借用 所有權借用 結構體和枚舉 結構體枚舉 模塊和包…

一文搞懂 java 線程池:基礎知識

你好&#xff0c;我是 shengjk1&#xff0c;多年大廠經驗&#xff0c;努力構建 通俗易懂的、好玩的編程語言教程。 歡迎關注&#xff01;你會有如下收益&#xff1a; 了解大廠經驗擁有和大廠相匹配的技術等 希望看什么&#xff0c;評論或者私信告訴我&#xff01; 文章目錄 …

Linux:網絡基礎1

文章目錄 前言1. 協議1.1 為什么要有協議&#xff1f;1.2 什么是協議&#xff1f; 2. 網絡2.1 網絡通信的問題2.2 網絡的解決方案——網絡的層狀結構2.3 網絡和系統的關系2.4 網絡傳輸基本流程2.5 簡單理解IP地址2.6 跨網絡傳輸 總結 前言 在早期的計算機發展中&#xff0c;一開…

【云計算】阿里云、騰訊云、華為云平臺數據庫對比

目錄 一、云數據庫關鍵信息調研對比 二、詳細功能 1、阿里云RDS 2、騰訊云RDS 3、華為云RDS 一、云數據庫關鍵信息調研對比 云平臺支持數據庫部署對比支持功能備注阿里云 Mysql、Postgresql等 特有數據庫&#xff1a;PolarDB&#xff0c;適配mysql 基礎-單節點賬號管…

實現漸變字體的方案

需要注意&#xff0c;這個切圖是把一整塊&#xff0c;都切出來做的。所以需要用span&#xff0c;不能是div 還有描邊的話&#xff0c;scale會有邊距縮放的問題&#xff0c;描邊就用font weight 來實現 style{{ background: "var(--Linear, linear-gradient(96deg, #fff…

【華為戰報】5月、6月HCIP考試戰報!

華為認證&#xff1a;HCIA-HCIP-HCIE 點擊查看&#xff1a; 【華為戰報】4月 HCIP考試戰報&#xff01; 【華為戰報】2月、3月HCIP考試戰報&#xff01; 【華為戰報】11月份HCIP考試戰報&#xff01; 【HCIE喜報】HCIE備考2個月絲滑通關&#xff0c;考試心得分享&#xff…

Python序列化和反序列化

一.序列化和反序列化 在Python中&#xff0c;序列化&#xff08;Serialization&#xff09;和反序列化&#xff08;Deserialization&#xff09;是處理對象數據的過程&#xff0c;主要用于對象的存儲或網絡傳輸。 序列化&#xff08;Serialization&#xff09; 序列化是將Pyth…

7.x86游戲實戰-C++實現跨進程讀寫-跨進程寫內存

免責聲明&#xff1a;內容僅供學習參考&#xff0c;請合法利用知識&#xff0c;禁止進行違法犯罪活動&#xff01; 本次游戲沒法給 內容參考于&#xff1a;微塵網絡安全 上一個內容&#xff1a;6.x86游戲實戰-C實現跨進程讀寫-通過基址讀取人物狀態標志位 上一個內容通過基…