AIDC智算中心建設:計算力核心技術解析

目錄

一、智算中心發展概覽

二、計算力核心技術解析


一、智算中心發展概覽

智算中心是人工智能發展的關鍵基礎設施,基于人工智能計算架構,提供人工智能應用所需算力服務、數據服務和算法服務的算力基礎設施,融合高性能計算設備、高速網絡以及先進的軟件系統,為人工智能訓練和推理提供高效、穩定的計算環境。智算中心的主要功能包括:

  • 提供強大的計算能力:智算中心采用專門的AI算力硬件,如GPU、NPU、TPU等,以支持高校的AI計算任務。

  • 高效的數據處理:智算中心融合了高性能計算設備和高速網絡,能夠處理大規模的數據集和復雜的計算任務。

  • 支持多種AI應用:智算中心適用于計算機視覺、自然語言處理、機器學習等領域,處理圖像識別、語音識別、文本分析、模型訓練推理等任務。

圖片

智算中心AIDC內涵

狹義上講,智算中心是通用算力中心的升級,在傳統數據中心的基礎上融合GPU、TPU、FPGA等專用芯片支撐大量數據處理和復雜模型訓練。AIDC把不同的計算任務實時智能調度分配給不同的服務器集群以提升計算效率。簡單講智算中心就是“機房+網絡+GPU 服務器+算力調度平臺”的融合基礎設施,是傳統數據中心的增值性延伸。

廣義地說,智算中心是提供人工智能應用所需算力服務、數據服務和算法服務的新型算力基礎設施,包含基礎層、平臺層和應用層。其中,基礎部分是支撐智算中心建設與應用的先進人工智能理論和計算架構,平臺部分圍繞智算中心算力生產、聚合、調度、釋放的作業邏輯展開;應用層提供算力生產供應、數據開放共享、智能生態建設和產業創新聚集。是融合算力+數據+算法的新型基礎設施,是AI技術一體化的載體,是傳統云的智能化升級。

圖片

人工智能作為引領未來的戰略性技術,逐步成為衡量國家國際競爭力的重要領域,高性能算力是人工智能發展的重要組成部分。從全球范圍看,各國紛紛制定人工智能相關的戰略和政策,推動高性能算力發展。如美國成立智算中心基礎設施特別工作組、歐盟出臺《歐盟高性能計算共同計劃》、日本發布《人工智能戰略2022》等。我國也于2023年出臺《算力基礎設施高質量發展行動計劃》,進一步凝聚產業共識、強化政策引導,全面推動我國算力基礎設施高質量發展。報告要求,到2025年要實現如下主要目標:

圖片

算力常用計量單位是每秒執行的浮點運算次數(FLOPS,Floating-point operations per second),數值越大計算能力越強。

KFLOPS(kiloFLOPS)=10^3 FLOPS

MFLOPS(megaFLOPS)=10^6 FLOPS

GFLOPS(gigaFLOPS)=10^9 FLOPS

TFLOPS(teraFLOPS)=10^12 FLOPS

PFLOPS(petaFLOPS)=10^15 FLOPS

EFLOPS(exaFLOPS)=10^18 FLOPS

存儲容量常用計量單位是艾字節(EB,1EB=2^60bytes)

圖片

圖片

智算中心產業及市場規模

智算中心產業鏈涵蓋從AI芯片/服務器等設計制造、基礎設施建設,到智算服務提供,以及生成式大模型研發及基于大模型的行業應用。

圖片

在需求的推動下我國智算中心市場投資規模高速增長。2022年生成式人工智能大模型推向市場,在過國內引起AIGC發展熱潮,大模型訓練對智能算力的需求迅速攀升。2023年起國內頭部互聯網企業及科技公司加速AIGC布局,政府也牽頭建設公共智能算力中心,賦能社會數字化轉型需求,全國智算中心投資火熱,智算中心市場規模大幅增長,尤其是今年1月份DeekSeep的火爆出圈,更是進一步加速了這一進程。

圖片

雖然近期有消息稱,智算中心建設暫時按下了減速鍵,但是未來,AI大模型應用場景,不斷豐富,商用進程逐步加快,智算中心市場增長動力逐漸由訓練切換至推理,市場進入平穩增長期,預計2028年我國智算中心市場投資規模有望達到2886億元。

圖片

二、計算力核心技術解析

AI芯片

智算中心常見應用場景為訓練和推理,根據其對算力精度的需求的差異分為FP32、TF32、FP16、BF16、INT8、FP8、FP6、FP4等。智能算力的核心是CPU、GPU、FPGA、ASIC等各類計算芯片。AI芯片內核數量多,擅長并行計算,滿足AI算法所需要的大量并行處理能力,并顯著提升計算效率和靈活性。智算服務器是智算中心的主要算力硬件一般采用CPU+GPU、CPU+FPGA、CPU+ASIC等異構形式,以充分發揮不同算力芯片在性能、成本和能耗上的優勢。

圖片

高性能芯片技術快速迭代創新,為人工智能發展提供保障,進而帶動智算中心發展,Nvidia作為全球GPU算力芯片市場領導者,代表性產品H100、A100、V100技術指標處于領先水平,最新的Blackwell架構B200 GPU采用先進的4納米工藝,實現了基于FP4高達40PFLOPS的運算能力,相較前代提升5倍。其他科技巨頭如AMD、英特爾、微軟、亞馬遜和谷歌也在AI芯片領域展開競爭。同時,我國AI芯片國產化進程正在加速發展,華為、寒武紀、海光信息、景嘉微以及阿里、百度等企業不僅在自研AI芯片技術上取得重要進展,還通過產品集成、行業解決方案及生態伙伴合作等方式推進國產AI芯片商業化應用,為智能算力發展提供堅實基礎。

圖片

Nvidia H100 GPU

本節基于Nvidia的公開資料GPU H100報告為例,解析GPU的相關技術實現。

圖片

GPU在本質上是一個PCI-E插卡/扣卡,由PCB(Printed Circult Board,印刷電路板)、GPU芯片、GPU內存(即“顯存”)及其他附屬電路構成。

圖片

Nvidia H100 GPU的核心芯片是Nvidia GH100,對外的接口有16個PCI-E 5.0通道、18個NVLink 4.0通道和6個HBM 3/HBM 2e通道。

  • 在Nvidia H100 GPU卡上,Nvidia GH100 的16個PCI-E 5.0通道用于連接到CPU,實現CPU將程序指令發送到GPU,并為GPU提供訪問計算機主存儲器的通道,總共可以提供約63GBps的理論傳輸帶寬。

  • 與Nvidia GH100 配套的顯存是HBM(High Bandwidth Memory,高帶寬內存)。HBM是由三星、AMD和SK Hynix等芯片廠商在2013年提出的一種在DDR內存的基礎上進一步提升內存性能的內存接口標準,仍然采用DDR內存的時序標準。與DDR內存不同,HBM充分利用了內存芯片封裝內部的立體空間,在內存芯片中將多層存儲電路堆疊起來,以實現在較小的平面面積上獲得極高的內存容量和帶寬。Nvidia GH100 芯片支持6個HBM Stack,每個HBM Stack都可以提供800GBps的傳輸帶寬,總內存帶寬可達到4.8TBps。

圖片

  • Nvidia GH100 還提供了18個NVLink 4.0通道,共提供900GBps的理論傳輸帶寬,可以直接連接到其他GPU,或通過NVLink Switch連接多個GPU,實現GPU之間的互訪,讓一個GPU可以在CPU無感知的情況下訪問另一個GPU的內存,而無需繞行PCI-E總線。

在Nvidia H100 GPU卡上,PCI-E 5.0通道和NVLink通道是連接到GPU卡外部的,而HBM通道在PCB內部連接到PCB上的HBM芯片,不延伸到卡外部。另外,Nvidia提供了不帶NVLink的精簡版本Nvidia H100 GPU卡,這樣Nvidia GH100芯片上的NVLink接口也就閑置了,在其他規格上也有一定的精簡。同時,Nvidia考慮到其他因素,為特定的國家和地區提供了進一步精簡規格的GPU,比如Nvidia H800等。

圖片

SM 流式多處理器

下圖是Nvidia GH100芯片的內部架構圖,在Nvidia GH100芯片中,除了NVLink接口、PCI-E接口和HBM接口,真正的核心部件就是SM(Streaming Multiprocessor,流式多處理器)。

圖片

整個Nvidia GH100 芯片有8個GPC(CPU Processing Cluster,GPU處理集群),每4個GPC都共有30MB的L2 Cache(二級緩存),每個GPC都有9個TPC(Texture Processing Cluster,紋理處理集群),在每個TPC內都有2個SM。也就是說,整顆Nvidia GH100 芯片集成了144個SM。

圖片

SM內部結構如下圖所示。在每個SM內部都有256KB的L1 Data Cache(一級數據緩存),被所有計算單元共享,同時,在SM內部還有4個紋處理單元Tex。SM的計算核心部件是Tensor Core和CUDA Core(下圖中一個INT32單元、2個FP32單元和1個FP64計算單元組成)。除此之外,還有L0 Instruction Cache(一級指令緩存)等部件。

圖片

在Hopper架構中,每個SM都有4個象限,每個象限都包含1個Tensor Core和32個CUDA Core,總計4個Tensor Core和128個CUDA Core。整顆芯片可用的CUDA Core數量為144 X 128 = 18432個,可用的Tensor Core 數量為144 X 4 = 576個。

內存加速器

為了提升Tensor Core的內存存取速度,Nvidia在Hopper架構中引入了TMA(Tensor Memory Accelerator,張量存儲加速器),以提高Tensor Core讀寫內存的交換效率。TMA可以讓Tensor Core使用張量維度和塊坐標指定數據傳輸,而不是簡單地按數據地址直接尋址,這在矩陣分割等場景中能進一步提升尋址效率。例如,在Nvidia A100上,線程本身需要生成矩陣的子矩陣中各行數據所在的地址,并執行所有數據復制操作。但在基于Hopper架構的Nvidia H100中,TMA可以自動生成矩陣中各行的地址序列,接管數據復制任務,將線程解放出來做真正有價值的計算任務。TMA加速的工作原理如下圖。

圖片

數據局部性考量

在GPU這種超大規模的并行計算機中,對數據局部性的考量變得尤為重要,對于GPU而言,就是要將數據盡量放在靠近計算單元的位置,這樣能夠讓計算單元盡可能發揮緩存的低延遲和高帶寬優勢。如果想充分利用時間局部性和空間局部性提升計算機的性能,就首先要充分理解計算單元和緩存。

  • 在Hopper架構下,訪問速度最快的是SM中每個象限的1KB Register File。

  • 訪問速度次之的是每個象限的1塊L0指令緩存,被32個CUDA Core和1個Tensor Core共用。

  • 訪問速度更慢一些的,是每個SM中的256KB L1 Data Cache,由所有CUDA Core和Tensor Core共用。

  • 比L1 Data Cache更慢的是在整顆芯片中集成的60MB的L2 Cache,由2個BANK 組成,最慢的是Nvidia GH100 芯片外部的HBM3顯存。

在劃分工作負載時,也需要充分考慮這幾個閾值,在避免發生緩存沖突的同時,將系統性能發揮到最大。

異步計算

除了基于緩存的優化外,并行計算在異步計算方面也進行了優化。異步計算就是盡量杜絕任務的互鎖或序列化操作,充分利用所有計算單元,避免計算單元等待和阻塞。Hopper架構提供了SM之間共享內存的交換網絡,每個線程塊都可以將自身的內存共享出來,是的其他線程塊的CUDA Core和Tensor Core能夠直接通過load/store/atomic等操作訪問。

Hopper架構還繼承和改進了Amper架構的一個重要特性:MIG(Multi-Intance CPU),支持GPU的硬件虛擬化。在MIG的加持下,可以將GPU劃分為多個彼此隔離的GPU實例給不同的用戶使用,每個GPU實例都擁有自己獨立的SM和顯存,如下圖所示。

圖片

在Hopper架構中對MIG進行了安全方面的增強,能夠支持可信計算,還增加了對MIG虛擬化實例監控能力,從而更適應多租戶的云服務場景。

IO框架

分布式計算機系統,I/O設計往往也是影響系統性能的重要因素。典型的分布式I/O設計有虛擬化系統中常用的VirtIO,高性能計算中常用的HPFS,以及大數據平臺依托的HDFS。在常規的分布式訓練模式中,會涉及以下問題:

  • CPU對其他節點上的GPU下發GPU指令

  • GPU和GPU之間的交互,比如交換彼此計算出的權重、取值等。

  • GPU與本地存儲設備的交互,比如讀取模型和樣本。

  • GPU與遠端存儲設備的交互,比如讀取其他節點上的模型和樣本。

對于這些問題,Nvidia給出的解決方案是讓GPU使用盡量短的路徑實現直通,也就是GPU Direct。對此Nvidia提供了對應的I/O設計框架:Magnum IO,如下所示。

圖片

Magnum IO四大核心組件:Storage IO、Network IO、In-Network Compute和IO Management。這幾大組件都是GPU Direct的一部分,或者是支撐GPU Direct運行的保障體系。GPU Direct是Nvidia開發的一種技術,可實現GPU與其他設備(例如主機內存、其他GPU、網絡接口卡NIC或存儲設備)之間的直接通信和數據傳輸,而不涉及CPU。

圖片


往期推薦

一文解讀DeepSeek在保險業的應用-CSDN博客

一文解讀DeepSeek在銀行業的應用_deepseek在銀行的應用-CSDN博客

一文解讀DeepSeek大模型在政府工作中具體的場景應用_大模型會議紀要場景-CSDN博客

一文解讀DeepSeek大模型在政務服務領域的應用-CSDN博客

一文解讀DeepSeek在工業制造領域的應用-CSDN博客

一文解讀DeepSeek的安全風險、挑戰與應對策略_deepseek的發展帶來的風險與挑戰-CSDN博客

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/79415.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/79415.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/79415.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

IoTDB時序數據庫V2.0.2大版本更新的一些梳理

一些小知識: 關于事務:時序數據庫是沒有事務的,它和關系數據庫的應用場景不同,通常情況下不需要多點同時操作同一條數據,而且要保證極高的吐出量,事務太消耗資源,并且時序數據庫提供了覆寫的功能…

CSS定位詳解

在前端開發中,CSS 定位(positioning)是一個核心概念,它決定了元素在頁面上的位置和布局方式。無論是構建復雜的交互界面,還是實現簡單的頁面排版,CSS 定位都是不可或缺的工具。本文將全面介紹 CSS 中的五種…

React 語法擴展

useReducer鉤子函數 不同action類型返回不同處理行為 useState()函數返回解構為兩個值 state當前狀態 dispatch修改狀態函數 dispatch()函數參數為一個actuon對象 如 : 樣例: import { useReducer } from react; import ./App.css;// 定義一個Reduce…

MCP協議與Dify集成教程

一、MCP協議概述 MCP(Model Control Protocol)是一種新興的開放協議,為大型語言模型(LLM)與外部應用之間構建了雙向通信通道。它就像是AI的"USB-C"接口,幫助模型發現、理解并安全調用各種外部工…

學習springboot-條件化配置@Conditional(條件注解)

前言 在Spring Boot中,Conditional 注解及其相關注解是用于條件化配置的重要工具。它們允許開發者根據特定條件決定是否加載某個Bean或配置類。 注意:Conditional 相關注解,通常和Bean搭配使用 學習springboot-Bean管理(Bean 注…

2025年- H18-Lc126-54.螺旋矩陣(矩陣)---java版

1.題目描述 2.思路* 思路1: 補充2: directions[1][0] // 表示“下”這個方向的行增量(1) directions[1][1] // 表示“下”這個方向的列增量(0) int[][] directions {{0, 1}, {1, 0}, {0, -1}, {-…

微信小程序連續多個特殊字符自動換行解決方法

效果圖 .wxml <view class"container"><text>沒轉換{{text}}</text><view style"height: 60rpx;" /><text>轉換后{{convert}}</text> </view>.js Page({data: {text:&#xff01;&#xff01;&#xff01;&am…

編程速遞-RAD Studio 12.3 Athens四月補丁:關注軟件性能的開發者,安裝此補丁十分必要

2025年4月22日&#xff0c;Embarcadero發布了針對RAD Studio 12.3、Delphi 12.3以及CBuilder 12.3的四月補丁。此更新旨在提升這些產品的質量&#xff0c;特別關注于Delphi編譯器、C 64位現代工具鏈、RAD Studio 64位IDE及其調試器、VCL庫和其他RAD Studio特性。強烈建議所有使…

Linux 進程基礎(二):操作系統

目錄 一、什么是操作系統&#xff1a;用戶和電腦之間的「翻譯官」&#x1f310; OS 的層狀結構&#x1f9e9; 案例解析&#xff1a;雙擊鼠標的「跨層之旅」 二、操作系統的必要性探究&#xff1a;缺乏操作系統的環境面臨的挑戰剖析&#x1f511; OS 的「管理者」屬性&#xff1…

第 11 屆藍橋杯 C++ 青少組中 / 高級組省賽 2020 年真題,選擇題詳細解釋

一、選擇題 第 2 題 在二維數組按行優先存儲的情況下&#xff0c;元素 a[i][j] 前的元素個數計算如下&#xff1a; 1. **前面的完整行**&#xff1a;共有 i 行&#xff0c;每行 n 個元素&#xff0c;總計 i * n 個元素。 2. **當前行的前面元素**&#xff1a;在行內&#x…

1??7??three.js_OrbitControls相機控制器

17、相機軌道控制器 3D虛擬工廠在線體驗相機軌道控制器OrbitControls 它是 Three.js 中最常用的交互控制器之一,專門用于通過鼠標/觸摸控制相機圍繞一個目標點(target)旋轉、縮放和平移。import {OrbitControls } from three/addons/controls/OrbitControls.js; const cont…

以下是在 Ubuntu 上的幾款PDF 閱讀器,涵蓋輕量級、功能豐富和特色工具:

默認工具&#xff1a;Evince&#xff08;GNOME 文檔查看器&#xff09; 特點&#xff1a;Ubuntu 預裝&#xff0c;輕量快速&#xff0c;支持基本標注和書簽。 安裝&#xff1a;已預裝&#xff0c;或手動安裝&#xff1a; sudo apt install evince功能全面&#xff1a;Okular&…

基于用戶場景的汽車行駛工況構建:數據驅動下的能耗優化革命

行業現狀&#xff1a;標準工況與用戶場景的割裂 全球汽車行業普遍采用WLTC工況進行能耗測試&#xff0c;但其與真實道路場景差異顯著。據研究&#xff0c;WLTC工況下車輛能耗數據比實際道路低10%-30%&#xff0c;導致用戶對續航虛標投訴激增&#xff08;數據來源&#xff1a;東…

chili3d調試10 網頁元素css node deepwiki 生成圓柱體 生成零件圖片

.input是input的外框&#xff0c;.input input是input的內框 沙雕 全部input都換成textarea了 自己的方法用接口定義&#xff0c;把自己的方法pub出去&#xff0c;定義在內部拉出去只是取個值 這其實是mainwindow端pub回來的 窗口pub端把數據pub回 mainwindow端讓mainwindow端…

Redis 啟用 TLS 加密傳輸配置

Redis 啟用 TLS 加密傳輸配置 一、Redis TLS 加密概述 Redis 從 6.0 版本開始原生支持 TLS 加密傳輸&#xff0c;可以保護客戶端與服務器之間的通信安全&#xff0c;防止數據被竊聽或篡改。 二、準備工作 確認 Redis 版本?&#xff1a; redis-server --version確保版本 ≥…

【Linux】深入理解程序地址空間

&#x1f31f;&#x1f31f;作者主頁&#xff1a;ephemerals__ &#x1f31f;&#x1f31f;所屬專欄&#xff1a;Linux 目錄 前言 一、什么是程序地址空間 二、深入理解程序地址空間 1. 引例 2. 理解地址轉化 3. 再談程序地址空間 4. 補充知識 總結 前言 在現代操作系…

【深度學習-Day 5】Python 快速入門:深度學習的“瑞士軍刀”實戰指南

Langchain系列文章目錄 01-玩轉LangChain&#xff1a;從模型調用到Prompt模板與輸出解析的完整指南 02-玩轉 LangChain Memory 模塊&#xff1a;四種記憶類型詳解及應用場景全覆蓋 03-全面掌握 LangChain&#xff1a;從核心鏈條構建到動態任務分配的實戰指南 04-玩轉 LangChai…

解決在 Linux 中 WPS 字體缺失問題

解決在 Linux 中 WPS 字體缺失問題 安裝方式 安裝方式 首先下載你所需要的字體文件 在字體文件所在的目錄下右鍵點擊在命令行中打開 或 Open in Terminal sudo mkdir /usr/share/fonts/myfontssudo cp ./* /usr/share/fonts/myfonts執行命令&#xff0c;更新字體緩存 sudo fc…

668SJBH報刊發行系統

1 前言 隨著我國信息產業的迅猛發展&#xff0c;手工管理方式已不適應社務管理的要求&#xff0c;報社的日常管理正面臨著信息化的挑戰&#xff0c;采用計算機管理以提高服務質量和管理水平勢在必行。發行管理是社務管理的一個重要組成部分&#xff0c;是報社和客戶聯系的紐帶…

K8S - 從零構建 Docker 鏡像與容器

一、基礎概念 1.1 鏡像&#xff08;Image&#xff09; “軟件的標準化安裝包” &#xff0c;包含代碼、環境和配置的只讀模板。 技術解析 鏡像由多個層組成&#xff0c;每層對應一個Dockerfile指令&#xff1a; 應用代碼 → 運行時環境 → 系統工具鏈 → 啟動配置核心特性…