【LLM】大模型算力基礎設施——核心硬件GPU/TPU,架構技術NVLink/RDMA,性能指標FP64/FLOPS(NVIDIA Tesla型號表)

【LLM】大模型算力基礎設施——核心硬件GPU/TPU,架構技術NVLink/RDMA,性能指標FP64/FLOPS(NVIDIA Tesla型號表)

文章目錄

    • 1、核心硬件GPU/TPU,NVIDIA Tesla
    • 2、集群架構設計 NVLink / RDMA / Alluxio
    • 3、性能關鍵指標,FP64 / FLOPS

1、核心硬件GPU/TPU,NVIDIA Tesla

核心硬件 chip

  • GPU(圖形處理器)
    代表:NVIDIA A100/H100、AMD MI300X
    優勢:萬級CUDA核心(A100含6912個核心),顯存帶寬達2TB/s(H100),支持TF32/FP64混合精度計算
    適用場景:深度學習訓練、大規模并行計算
  • TPU(張量處理器)
    代表型號:谷歌 v4版本達275 TFLOPS(BF16)
    特點:脈動陣列架構優化矩陣運算,片上內存集成(減少數據搬運延遲)
  • ASIC(專用 chip )
    Tesla Dojo(1.1 EFLOPS算力集群)
  • FPGA(現場可編程門陣列)
    應用:微軟Brainwave項目
    優勢:低延遲推理(可編程邏輯單元實現定制化計算)
  • CPU協同計算
    AMD EPYC 9754(128核Zen4架構)
    Intel Sapphire Rapids(AMX指令集加速AI)

NVIDIA 顯卡型號

  • NVIDIA將顯示核心分為三大系列。GeForce個人家用;Quadro專業繪圖設計;Tesla大規模的并聯電腦運算。 1

  • Tesla類型: 1
    K-Series(Kepler架構2012):K8、K10、K20c、K20s、K20m、K20Xm、K40t、K40st、K40s、K40m、K40c、K520、K80
    P-Series(Pascal架構2016):P4、P6、P40、P100
    V-Series(Volta架構2017):V100
    T-Series(Turing架構2018):T4
    A-Series(Ampere架構2020):A10、A16、A30、A40、A100、A800
    H-Series(Hopper架構2022): H20,H100,H200
    L-Series(Ada Lovelace架構2023):L40,L4,L20

  • Quadro類型
    NVIDIA RTX Series:RTX A2000、RTX A4000、RTX A4500、RTX A5000、RTX A6000
    Quadro RTX Series:RTX 3000、RTX 4000、RTX 5000、RTX 6000、RTX 8000

  • GeForce類型
    Geforce 10:GTX 1050、GTX 1050Ti、GTX 1060、GTX 1070、GTX 1070Ti、GTX 1080、GTX 1080Ti
    Geforce 16:GTX 1650、GTX 1650 Super、GTX 1660、GTX 1660 Super、GTX 1660Ti
    Geforce 20:RTX 2060、RTX 2060 Super、RTX 2070、RTX 2070 Super、RTX 2080、RTX 2080 Super、RTX 2080Ti
    Geforce 30:RTX 3050、RTX 3060、RTX 3060Ti、RTX 3070、RTX 3070Ti、RTX 3080、RTX 3080Ti、RTX 3090 RTX 3090Ti
    Geforce 40:RTX 4090 …
    Geforce 50:RTX 5090 …
    顯卡天梯圖 :1, 2, 3

  • 通用的 GPU 中包含三種核心
    分別是 CUDA Core、Tensor Core 和 RT Core,這三種核心各自具有不同的特性和功能。
    CUDA Core:CUDA Core 是用于通用并行計算任務的計算核心,可以執行單精度和雙精度浮點運算,以及整數運算。它在處理廣泛的并行計算任務方面非常高效。
    Tensor Core:Tensor Core 是針對深度學習和 AI 工作負載而設計的專用核心,可以實現混合精度計算并加速矩陣運算,尤其擅長處理半精度(FP16)和全精度(FP32)的矩陣乘法和累加操作。Tensor Core 在加速深度學習訓練和推理中發揮著重要作用。
    RT Core:RT Core 是專門用于光線追蹤處理的核心,能夠高速進行光線和聲音的渲染,對于圖形渲染和光線追蹤等任務具有重要意義
    在這里插入圖片描述
    在這里插入圖片描述

nvidia Tesla近3年型號(含A100, A800, H800, H100, H200, H20, L2, L20)
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述

參考資料:1, 2

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

2、集群架構設計 NVLink / RDMA / Alluxio

集群架構設計

  • NVLink全互聯(計算)
    NVIDIA DGX H100:8卡通過NVLink 4.0互聯(900GB/s帶寬)
    避免PCIe瓶頸(傳統x16僅64GB/s)

  • InfiniBand網絡 網絡
    NDR 400G標準(延遲<1μs)
    GPUDirect RDMA技術(數據直達GPU顯存) 什么是RDMA技術 2 3

  • 存儲加速方案 存儲
    非易失內存(NVDIMM):持久化參數存儲
    分布式緩存(如Alluxio):加速數據管道
    共享對象存儲,文件存儲

技術棧選型

  • 計算加速庫
    CUDA 12.3(支持動態并行)
    oneAPI 2024(統一CPU/GPU/FPGA編程)
  • 框架優化
    PyTorch 2.3(編譯式執行圖)
    TensorFlow Lite(稀疏化推理)
  • 調度系統
    Kubernetes + Kubeflow(彈性擴縮容)
    Slurm(超算級作業調度)

NVLink全互聯技術

  • NVLink是NVIDIA開發的GPU間高速互連技術,旨在突破PCIe帶寬限制,實現多GPU之間的低延遲、高帶寬數據交換。
  • 帶寬:第三代NVLink單鏈路達50GB/s(雙向),遠高于PCIe 4.0 x16(32GB/s)。
    拓撲靈活性:支持全互聯(All-to-All)、網狀(Mesh)、混合連接。
    統一內存:支持GPU顯存池化(NVLink Shared Memory)。
  • 全互聯模式下,每塊GPU通過NVLink直接與其他所有GPU相連,實現最優通信效率。
    在這里插入圖片描述
# 查看NVLink鏈路激活情況
nvidia-smi topo -mGPU0    GPU1    GPU2    GPU3    GPU4    GPU5    GPU6    GPU7
GPU0     X      NV12    NV12    NV12    NV12    NV12    NV12    NV12
GPU1    NV12     X      NV12    NV12    NV12    NV12    NV12    NV12
...  
("NV12"表示12條NVLink鏈路激活)# 設置環境變量啟用GPU顯存池化
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
export CUDA_MPS_PIPE_DIRECTORY=/tmp/nvidia-mps
export CUDA_MPS_LOG_DIRECTORY=/tmp/nvidia-log
nvidia-cuda-mps-control -d# PyTorch:自動檢測NVLink,需確保數據并行時使用nccl后端。
torch.distributed.init_process_group(backend='nccl')nvidia-smi dmon -s pucvmt  # 監控NVLink帶寬利用率
nvidia-smi # 查看利用率,鏈路狀態

GPUDirect RDMA技術

  • GPUDirect RDMA(Remote Direct Memory Access)是NVIDIA開發的一項技術,允許第三方設備(如網卡、存儲設備)繞過CPU,直接通過PCIe總線訪問GPU顯存,從而顯著降低數據傳輸延遲并提升帶寬利用率。
  • 核心目標:消除CPU和系統內存的拷貝開銷,加速GPU與外部設備(如InfiniBand網卡、NVMe SSD)間的數據交換。
  • 典型應用:分布式AI訓練、高性能計算(HPC)、實時數據處理。
    在這里插入圖片描述
# 安裝NVIDIA驅動和CUDA
sudo apt install nvidia-driver-530 cuda-12.2
# 安裝RDMA驅動(MLNX_OFED)
wget https://www.mellanox.com/downloads/ofed/MLNX_OFED-5.8-3.0.7.0/MLNX_OFED_LINUX-5.8-3.0.7.0-ubuntu22.04-x86_64.tgz
tar -xzvf MLNX_OFED-*.tgz && cd MLNX_OFED-* && sudo ./mlnxofedinstall# 啟用GPUDirect RDMA:
# 檢查GPU和網卡是否支持
nvidia-smi topo -m  # 確認GPU與網卡是"PIX"或"PHB"連接# 加載內核模塊
sudo modprobe nv_peer_mem
sudo service openibd restart# 安裝支持GPUDirect的OpenMPI
./configure --with-cuda=/usr/local/cuda --with-rdma=/usr/mellanox
make -j8 && sudo make install# 運行測試(需GPU-aware MPI)
mpirun -np 2 --mca btl_openib_want_cuda_gdr 1 ./your_gpu_app# 開發
// 1. 分配GPU顯存并獲取IPC句柄
cudaIpcMemHandle_t handle;
void* d_ptr;
cudaMalloc(&d_ptr, size);
cudaIpcGetMemHandle(&handle, d_ptr);
// 2. 在另一進程/節點打開顯存
void* remote_ptr;
cudaIpcOpenMemHandle(&remote_ptr, handle, cudaIpcMemLazyEnablePeerAccess);
// 3. 通過RDMA網卡直接讀寫remote_ptr(需MPI或自定義通信層)

Alluxio 技術

  • Alluxio 是一個開源的 內存級虛擬分布式存儲系統,充當計算框架(如Spark、Flink)和底層存儲系統(如HDFS、S3、OSS)之間的抽象層
    加速數據訪問:通過內存緩存、數據本地化優化,減少I/O瓶頸。
    統一命名空間:整合多種存儲系統(HDFS/S3/NFS等),提供透明訪問接口。
    數據共享:支持多計算框架(Spark/Presto/MapReduce)共享同一份緩存數據。
  • LLM 訓練需反復讀取TB級文本數據(如Common Crawl)
  • 1.Alluxio可以加速訓練數據加載
    如將遠程存儲(如S3)的數據緩存在訓練集群本地內存/SSD中,減少數據加載延遲。
    同時支持預熱緩存(Preload),在訓練開始前主動加載數據,避免I/O等待。
  • 2.可以共享中間數據
    多個訓練任務(如超參搜索)需共享預處理后的數據集或檢查點。
    提供 統一命名空間,避免數據重復拷貝到各計算節點。通過內存緩存加速檢查點(Checkpoint)的讀寫,縮短恢復時。
  • 3.混合云數據橋接
    訓練數據在私有HDFS,但計算集群在公有云。緩存私有數據到云上Alluxio節點,避免跨數據中心傳輸。
    在這里插入圖片描述

# 下載Alluxio(以2.9.3為例)
wget https://downloads.alluxio.io/downloads/files/2.9.3/alluxio-2.9.3-bin.tar.gz
tar -xzf alluxio-2.9.3-bin.tar.gz
cd alluxio-2.9.3# 配置底層存儲(如S3)
cp conf/alluxio-site.properties.template conf/alluxio-site.properties
echo "alluxio.master.mount.table.root.ufs=s3://your-bucket/path" >> conf/alluxio-site.properties# 啟動集群
./bin/alluxio format
./bin/alluxio-start.sh local# 預加載S3數據到Alluxio緩存
alluxio fs load /s3/dataset
# PyTorch直接讀取Alluxio緩存中的檢查點
checkpoint = torch.load("alluxio://master:19998/checkpoints/model.pt")# 在每臺Worker節點配置緩存路徑(內存+SSD)
echo "alluxio.worker.ramdisk.size=100GB" >> conf/alluxio-site.properties
echo "alluxio.worker.tieredstore.levels=2" >> conf/alluxio-site.propertiesfrom torch.utils.data import DataLoader
from alluxiofs import AlluxioFileSystem  # Alluxio的POSIX接口# 掛載Alluxio為本地路徑(通過FUSE)
fs = AlluxioFileSystem("alluxio://master:19998")
fs.mount("/mnt/alluxio")# 直接讀取緩存數據
dataset = HuggingFaceDataset("/mnt/alluxio/dataset")
dataloader = DataLoader(dataset, batch_size=32)# 查看緩存命中率(確保熱數據在內存中)
alluxio fsadmin report

3、性能關鍵指標,FP64 / FLOPS

算力單位:浮點運算次數 FLOPS

  • (Floating Point Operations Per Second,簡稱FLOPS) 是用來衡量計算設備執行浮點運算能力的指標。
    這個指標通常用來描述處理器(CPU)、圖形處理器(GPU)或其他計算設備在一秒鐘內能夠執行多少次浮點運算。
    浮點運算是指能夠處理帶有小數點的數學運算,這對于科學計算、工程模擬、圖形渣染等領域尤為重要。

  • FP(Float PerSecond) = FLOPS(Floating Point Operations Per Second)
    單位:K=>M=>G=>T=>P=>E
    FP32:單精度浮點(訓練基線)
    FP16:半精度(主流訓練/推理混合精度)
    FP8:NVIDIA H100新增格式(推理加速3x)
    INT8/INT4:整數量化(推理專用,INT8吞吐量可達FP16的2倍)
    在這里插入圖片描述

  • 精度降低
    FP32 → FP16:吞吐量2x↑,精度損失<1%
    FP16 → INT8:吞吐量再2x↑,需校準量化(Quantization Aware Training)
    INT8 → INT4:極致壓縮(適用于NLP模型如BERT)

其他指標

  • PCIe帶寬:
    Gen4 x16 = 32GB/s(可能成為多卡互聯瓶頸)
    Gen5 x16 = 64GB/s(H100標配)

訓練場景 vs 推理場景

  • 算力密度:推理需在單位時間內完成更多請求(如自動駕駛的毫秒級響應)
  • 顯存容量:訓練時需保留反向傳播的中間結果,推理只需前向計算(如175B參數的GPT-3訓練需1.6TB顯存,推理僅需~80GB)
  • 精度要求:推理可通過量化犧牲少量精度換取吞吐量提升(如TensorRT的INT8量化技術)
  • 能效比:推理部署在邊緣設備,因此需要低功耗
    在這里插入圖片描述
指標訓練場景要求推理場景要求
算力密度>50T FLOPS/卡>200T FLOPS/卡
顯存容量80GB+(HBM2e)16-48GB(GDDR6X)
互聯帶寬600GB/s+200GB/s+
能效比<500W/TFLOPS<100W/FLOPS

參考資料:1, 2, 3, 4, 5

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/80240.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/80240.shtml
英文地址,請注明出處:http://en.pswp.cn/web/80240.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

spark的Standalone模式介紹

Apache Spark 的 Standalone 模式是其自帶的集群管理模式&#xff0c;無需依賴外部資源管理器&#xff08;如 YARN 或 Mesos&#xff09;&#xff0c;可快速部署和運行 Spark 集群。以下是對 Standalone 模式的詳細介紹&#xff1a; 1. 核心組件 Master 節點 集群的主控制器…

YOLOv7訓練時4個類別只出2個類別

正常是4個類別&#xff1a; 但是YOLOv7訓練完后預測總是只有兩個類別&#xff1a; 而且都是LFM和SFM 我一開始檢查了下特征圖大小&#xff0c;如果輸入是640*640的話&#xff0c;三個尺度特征圖是80*80,40*40,20*20&#xff1b;如果輸入是416*416的話&#xff0c;三個尺度特征…

【Unity】用事件廣播的方式實現游戲暫停,簡單且實用!

1.前言 在做Unity項目的時候&#xff0c;要考慮到“游戲暫停”的功能&#xff0c;最直接的辦法是修改游戲的Time.TimeScale 0f。但是這種方式的影響也比較大&#xff0c;因為它會導致游戲中很多程序無法正常運行。 于是我就有了一個想法&#xff0c;在游戲中想要暫停的對象&…

Suna: 開源多面手 AI 代理

GitHub&#xff1a;GitHub - kortix-ai/suna: Suna - Open Source Generalist AI Agent 更多AI開源軟件&#xff1a;發現分享好用的AI工具、AI開源軟件、AI模型、AI變現 - 小眾AI Suna 是一個完全開源的 AI 助手&#xff0c;可幫助您輕松完成實際任務。通過自然對話&#xff0c…

直接從圖片生成 html

1. 起因&#xff0c; 目的: 無意間碰到一個網站: https://wise.com/zh-cn/currency-converter/brl-to-cny-rate其實我就是想搜一下巴西的貨幣單位是什么。這個網站的設計很漂亮&#xff0c; 尤其是顏色搭配很不錯&#xff0c;討人喜歡。所以我想讓 AI 幫我生成類似的效果。本文…

驗證碼與登錄過程邏輯學習總結

目錄 前言 一、驗證碼與登錄 二、使用步驟 1.先apipost測試一波 2.先搞驗證碼 3.跨域問題 4.后端走起 總結 前言 近期要做一個比較完整的demo&#xff0c;需要自己做一個前端登錄頁面&#xff0c;不過api接口都是現成的&#xff0c;一開始以為過程會很easy&#xff0c;…

軌道炮--范圍得遍歷,map巧統計

1.思路很難想&#xff0c;但代碼一看一下就明白了&#xff0c;就是模擬時間&#xff0c;map存起來遍歷也不受10*6影響 2.每次先統計點對應的直線&#xff0c;再動這個點&#xff0c;map一遍歷實時更新ma統計max&#xff0c;AC!!!! https://www.luogu.com.cn/problem/P8695 #i…

Vue 3.5 新特性深度解析:全面升級的開發體驗

Vue 3.5 新特性深度解析&#xff1a;全面升級的開發體驗 前言 隨著Vue 3.5的正式發布&#xff0c;這個漸進式JavaScript框架再次帶來了令人興奮的改進。本文將深入剖析Vue 3.5的核心更新&#xff0c;幫助開發者快速掌握新特性并應用于實際項目。 ? 核心新特性 1. 增強的響應…

質量管理工程師面試總結

今天閑著無聊參加了學校招聘會的一家雙選會企業&#xff0c;以下是面試的過程。 此次面試采用的是一對多的形式。&#xff08;此次三個求職者&#xff0c;一個面試官&#xff09; 面試官&#xff1a;開始你們每個人先做個自我介紹吧。 哈哈哈哈哈哈哈哈&#xff0c;其實我們…

c++ std庫中的文件操作學習筆記

1. 概述 C標準庫提供了 頭文件中的幾個類來進行文件操作&#xff0c;這些類封裝了底層的文件操作&#xff0c;提供了面向對象和類型安全的接口&#xff0c;使得文件讀寫更加便捷和高效。主要的文件流類包括&#xff1a; std::ifstream&#xff1a;用于從文件中讀取數據。 st…

【網絡安全】SQL注入

如果文章不足還請各位師傅批評指正&#xff01; 想象一下&#xff0c;你經營著一家咖啡店&#xff0c;顧客可以通過店內的點單系統下單。這個系統會根據顧客的輸入&#xff0c;向后廚發送指令&#xff0c;比如“為顧客A準備一杯拿鐵”。 然而&#xff0c;如果有個不懷好意的顧客…

解決Mawell1.29.2啟動SQLException: You have an error in your SQL syntax問題

問題背景 此前在openEuler24.03 LTS環境下的Hive使用了MySQL8.4.2&#xff0c;在此環境下再安裝并啟動Maxwell1.29.2時出現如下問題 [ERROR] Maxwell: SQLException: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version f…

Oracle APEX IR報表列寬調整

目錄 1. 問題&#xff1a;如何調整Oracle APEX IR報表列寬 2. 解決辦法 1. 問題&#xff1a;如何調整Oracle APEX IR報表列寬 1-1. 防止因標題長而數據短&#xff0c;導致標題行的文字都立起來了&#xff0c;不好看。 1-2. 防止因數據太長而且中間還沒有空格&#xff0c;把列…

pytorch 14.3 Batch Normalization綜合調參實踐

文章目錄 一、Batch Normalization與Batch_size綜合調參二、復雜模型上的Batch_normalization表現1、BN對復雜模型&#xff08;sigmoid&#xff09;的影響2、模型復雜度對模型效果的影響3、BN對復雜模型&#xff08;tanh&#xff09;的影響 三、包含BN層的神經網絡的學習率優化…

Model.eval() 與 torch.no_grad() PyTorch 中的區別與應用

Model.eval() 與 torch.no_grad(): PyTorch 中的區別與應用 在 PyTorch 深度學習框架中&#xff0c;model.eval() 和 torch.no_grad() 是兩個在模型推理&#xff08;inference&#xff09;階段經常用到的函數&#xff0c;它們各自有著獨特的功能和應用場景。本文將詳細解析這兩…

Swagger go中文版本手冊

Swaggo(github.com/swaggo/swag)的注解語法是基于 OpenAPI 2.0 (以前稱為 Swagger 2.0) 規范的,并添加了一些自己的約定。 主要官方文檔: swaggo/swag GitHub 倉庫: 這是最權威的來源。 鏈接: https://github.com/swaggo/swag重點關注: README.md: 包含了基本的安裝、使用…

物聯網設備遠程管理:基于代理IP的安全固件更新通道方案

在物聯網設備遠程管理中&#xff0c;固件更新的安全性直接關系到設備功能穩定性和系統抗攻擊能力。結合代理IP技術與安全協議設計&#xff0c;可構建安全、高效的固件更新通道。 一、代理IP在固件更新中的核心作用 網絡層隱匿與路由優化 隱藏更新源服務器&#xff1a;通過代理I…

【C++重載操作符與轉換】句柄類與繼承

目錄 一、句柄類的基本概念 1.1 什么是句柄類 1.2 句柄類的設計動機 1.3 句柄類的基本結構 二、句柄類的實現方式 2.1 基于指針的句柄類 2.2 值語義的句柄類 2.3 引用計數的句柄類 三、句柄類與繼承的結合應用 3.1 實現多態容器 3.2 實現插件系統 3.3 實現狀態模式…

谷歌曾經的開放重定向漏洞(如今已經修復) -- noogle DefCamp 2024

題目描述: 上周&#xff0c;我決定創建自己的搜索引擎。這有點難&#xff0c;所以我背上了另一個。我也在8000端口上嘗試了一些東西。 未發現題目任何交互,但是存在一個加密js const _0x43a57f _0x22f9; (function(_0x3d7d57, _0x426e05) {const _0x16c3fa _0x22f9, _0x3187…

【C#】ToArray的使用

在 C# 中&#xff0c;ToArray 方法通常用于將實現了 IEnumerable<T> 接口的集合&#xff08;如 List<T>&#xff09;轉換為數組。這個方法是 LINQ 提供的一個擴展方法&#xff0c;位于 System.Linq 命名空間中。因此&#xff0c;在使用 ToArray 方法之前&#xff0…