隨著英偉達卡被禁售,國產顯卡市場逐漸崛起。以華為、曙光為第一梯隊代表,壁仞、燧原、寒武紀等為第二梯隊代表,場景覆蓋從圖像識別到大模型訓練、推理,落地領域包括金融、安防、智能汽車、IOT、智能客服等行業
國內主流的GPU提供商:
- 昆侖芯:昆侖芯(北京)科技有限公司前身為百度智能芯片及架構部,于2021年4月完成獨立融資,首輪估值約130億元。是國內最早布局AI加速領域,深耕10余年,是一家在體系結構、芯片實現、軟件系統和場景應用均有深厚積累的AI芯片企業。
- 壁仞科技:壁仞科技創立于 2019 年,在 GPU、DSA(專用加速器)和計算機體系結構等領域具有深厚的技術積累。公司致力于開發原創性的通用計算體系,建立高效的軟硬件平臺,同時在智能計算領域提供一體化的解決方案。
- 燧原科技:燧原科技是一家專注于人工智能領域云端算力平臺的創業公司,致力為人工智能產業發展提供普惠的基礎設施解決方案,提供自主知識產權的高算力、高能效比、可編程的通用人工智能訓練和推理產品。其創新性架構、互聯方案和分布式計算及編程平臺,可廣泛應用于云數據中心、超算中心、互聯網、金融及智慧城市等多個人工智能場景。燧原科技是國內第一家同時擁有高性能云端訓練和云端推理產品的創業公司,同時也是國內第一個發布第二代人工智能訓練產品組合的公司。燧原科技自成立以來,已完成多輪融資,并發布了多款人工智能訓練和推理產品。
- 海光:海光DCU(Data Center Unit)系列產品以GPGPU(通用并行計算圖形處理器)架構為基礎,兼容通用的“類CUDA”環境。該系列產品可廣泛應用于大數據處理、人工智能、商業計算等應用領域。海光DCU產品能適配、適應國際主流商業計算軟件和人工智能軟件,是國內具有全精度浮點數據和各種常見整型數據計算能力的GPGPU產品。其采用“類CUDA”通用并行計算架構,可廣泛應用于電信、金融、互聯網、教育、交通等重要行業或領域。
- 寒武紀:寒武紀公司是一家專注于人工智能芯片領域的科技企業,成立于2016年。該公司的主要業務是設計、生產基于人工智能芯片的處理器,以及提供基于這些芯片的解決方案。這些芯片可以應用于各種需要人工智能處理能力的領域,如云計算、智能家居、智能安防等。
- 華為昇騰:目前提供包括推理卡與訓練卡,訓練卡主要包括910A和910B,910A性能接入A10910B目前性能接近A800的80%,但生態有待完善
國內GPU廠商產品及參數
品牌 | 昆侖芯 | 壁仞科技? | 燧原科技? | 海光 | 寒武紀 | 華為海思? | |
產品 | R200 | BR100? | i20? | 深算一號 | MLU370-X8 | 昇騰910? | |
發布日期 | 2021 | 2022? | 2021? | 2021 | 2022 | 2018? | |
半精度(FP16) | 128 TFLOPS | NA? | 128 TFLOPS? | NA | 96 TFLOPS? | 320 TFLOPS? | |
單精度(FP32) | 32 TFLOPS | 256 TFLOPS? | 32 TFLOPS? | NA | 24 TFLOPS? | NA? | |
雙精度(FP64) | NA | NA? | NA? | ?? 10.8 TFLOPS | NA? | NA? | |
INT8 | 256 TOPS | 2048 TOPS? | 256 TOPS? | ??? NA | 256 TOPS | 640 TOPS? | |
CUDA兼容 | NA | 是? | 否? | NA | 否? | NA? |
海外GPU廠商產品及參數:
品牌 | AMD? | AMD | NVIDIA | NVIDIA | NVIDIA | NVIDIA | NVIDIA |
產品 | INSTINCT MI100? | ?INSTINCT M1250? | P100 | V100 SXM2 | T4 | A100 80GB | H100 PCle? |
發布日期 | 2020 | 2021 | 2016 | 2017 | 2018 | 2020 | 2022 |
工藝 | 7nm | 6nm | 16nm | 12nm | 12nm | 7nm | 4nm |
半精度(FP16) | 184.6 TFLOPS | 362.1 TFLOPS | 21.2 TFLOPS | 125 TFLOPS | 65 TFLOPS | 312 TFLOPS | NA |
半精度(FP16 Tensor Core) | NA | NA | 不支持 | 不支持 | 不支持 | 不支持 | 1600 TFLOPS* |
單精度(FP32) | ?23.1 TFLOPS? | 45.3 TFLOPS | 10.6 TFLOPS | 15.7 TFLOPS | NA | 19.5 TFLOPS | 48 TFLOPS |
單精度(FP32 Tensor Float) | 46.1 TFLOPS(AMD為Matrix Core)? | 90.5 TFLOPS (AMD為Matrix Core) | 不支持 | 不支持 | 不支持 | 156 TFLOPS | 800 TFLOPS |
雙精度(FP64) | ?11.5 TFLOPS | 45.3 TFLOPS | 5.3 TFLOPS | 7.8 TFLOPS | 8.1 TFLOPS | 9.7 TFLOPS | 24TFLOPS |
雙精度(FP64 Tensor Core) | 不支持 | 90.5 TFLOPS (AMD為Matrix Core)? | 不支持 | 不支持 | 不支持 | 19.5 TFLOPS | 48 TFLOPS? |
INT8 | 184.6 TOPs | 362.1 TOPs | NA | NA | 130TOPs | 624TOPs | NA |
INT8(Tensor Core) | 不支持 | NA | 不支持 | 不支持 | 不支持 | 不支持 | 3200TOPs |
CUDA兼容 | 否? | 否? | 是 | 是 | 是 | 是 | 是 |
國內外GPU卡的主要差距
1. 技術差距:國外GPU卡在技術研發方面領先,擁有較高的計算性能和能效比。而國內GPU卡在技術研發方面相對滯后,與國外產品存在一定的性能差距。
2. 編程軟件:主要是CUDA、Pytorch相關的軟件完善度不夠,需要一個比較長的時間來積累
3. 用戶生態:包括集成商生態,用戶生態,軟件生態、人才生態、行業生態、場景生態等需要完善
為了縮小國內外GPU卡的差距,國內企業需要加強自主研發和創新,提高技術研發能力;同時,需要加強生態系統建設,完善硬件、軟件、開發工具w和應用場景等方面的布局;還需要加強市場推廣和品牌建設,提高市場競爭力和影響力。