【AI大模型新型智算中心技術體系深度分析 2024】

文末有福利！

ChatGPT 系列大模型的發布，不僅引爆全球科技圈，更加夯實了人工智能（Artificial Intelligence, AI）在未來改變人類生產生活方式、引發社會文明和競爭力代際躍遷的戰略性地位。當前各國政府已全面布局 AI，作為 AI 技術發展的關鍵底座，智算中心的建設和部署在全球范圍內提速。

**然而，早期建設的智算中心，以承載中小模型、賦能企業數智化轉型為主要目的，在技術標準、生態構建、業務發展和全局運營等各方面仍有待提升。**當追逐大模型成為行業標準動作，面向大模型的新型智算中心（New Intelligent Computing Center，NICC）成為新時期關注的焦點。

**新型智算中心的建設是一個系統工程，需要“算存網管效”多個維度的協同設計。**為構建智能服務的核心和基礎，定義新型智算中心技術體系架構，并面向未來大模型孵化，從新互聯、新算效、新存儲、新平臺和新節能等五個領域提出下一代技術演進建議，希望本文為大家在新型智算中心的硬件設備選型、算力集群設計、機房散熱規劃、軟硬工程調優、全局運營調度等多個方面的技術路線選型提供幫助。

一、智算中心行業發展現狀

1.1 智能算力躍升為全球第一大算力，智算中心建設如火如荼

1956 年第一次 AI 發展浪潮信息伊始，60 多年來，從理論探索到大數據驅動，從深度學習到大模型智能涌現，AI 正在成為一項新興的通用型技術，向多場景、規模化、AIGC（AI Generated Content）等方向快速演進。智能算力作為 AI 的底座型技術迎來需求井噴。據統計，到 2030 年，全球智能算力需求增長約 390 倍，增速遠超摩爾定律。據《中國算力發展指數白皮書（2022）》指出，我國智能算力也在近幾年保持快速增長態勢。2021 年我國智算規模已達到 104E FLOPS，占比超過總算力的 50%，預計到 2030 年將升至 70%，成為算力的主要增長極。智算成為全球第一大算力已是大勢所趨。

至此，智算中心作為一種新型算力基礎設施為大家所熟悉。不同于傳統的云數據中心和超算中心，智算中心是以 GPU、AI 加速卡等智能算力為核心、集約化建設的新型數據中心，為人工智能應用提供所需的算力服務、數據服務和算法服務，使能各行各業數智化轉型升級

圖 1-1 美國智能超算中心

智算中心的戰略地位不斷提升，為構造未來競爭發展優勢，很多國家都在積極開發和部署智算中心。其中，美國能源部及國家科學基金會主導，將智算中心和超算中心結合，建設超大規模智能超算中心，為科學研究提供高性能計算資源（如圖 1-1），例如，橡樹嶺國家實驗室的 Summit（3.4E），阿貢國家實驗室的 Polaris 和 Aurora（約 10E），勞倫斯伯克利實驗室的 Perlmutter（3.8E）等，這些智能超算中心往往具有單體算力大、技術領先等特點。美國科技巨頭也是智算中心的主要建設者，包括谷歌的開放機器學習中心（9E），特斯拉 Dojo 集群（據稱 2024 年末規模達到 100E），Meta AI 超級計算機（9.9E）等。

國內智算中心建設熱潮始于 2020 年，目前已有 40+ 城市建成或正在建設智算中心（如圖1-2），包括武漢人工智算計算中心（200P）、南京智能計算中心（800P）、合肥先進計算中心（12P）、鵬城云腦 II（1E）等，其中 12 個位于“東數西算”八大樞紐，這些智算中心主要由地方政府與企業合建，總體投資規模超千億，旨在帶動當地產業智能化升級。

國內互聯網和 AI 企業自建的智算中心是國內智能算力的重要組成如阿里在張北和烏蘭察布建設的總規模達 15E 的智算中心，旨在結合智能駕駛、智慧城市等業務，探索云服務后的智算服務新業態；百度在山西陽泉建設規模 4E 的智算中心，孵化國內首個正式發布的大模型“文心一言”；商湯作為國內頭部 AI 企業，投資 56 億在上海臨港建設人工智能計算中心，規模超 4E，主要面向智慧商業、智慧城市、智慧生活和智能汽車四大板塊，發展 AIaaS（AI as a Service）服務。

1.2 早期智算中心在技術、標準、生態、運營等方面仍面臨挑戰

當前智算中心主要以單供應方全棧體系構建為主，尚未形成業界統一的設計方案，因此各地智算中心在技術、標準、生態、運營等方面仍面臨挑戰。

在技術方面

早期建設的智算中心以承載中小模型為主，AI 服務器大多是 PCIe 機型，配備獨立的文件存儲，互聯方式則以節點內 PCIe 通信與節點間傳統以太網為主。

隨著通用大模型的普及，智算中心的設計思路需要從原先以單芯片、單服務器粒度提供算力服務的模式，轉變為支持巨量并行計算，提供高吞吐、高能效的集群算力。

在標準方面

由于各地智算中心大都是當地政府與 AI 芯片、整機廠家合作建設為主，技術方案深度綁定，容易形成多種派系。亟需通過制定行業標準，一方面降低客戶學習和使用的時間成本，另一方面加強產業鏈上下游企業的協同，促進智算產業的高質量發展。

在生態方面

因為 AI 是軟硬深度耦合的技術棧，國外主流產品“先入為主”，主導生態發展，相比之下國內 AI 起步較晚，在芯片算力和軟件棧適配方面均存在差距。在智算生態豎井式發展的當下，需要加強引導，為后續 AI 應用的適配和跨架構遷移奠定基礎。

在運營方面

各地智算中心的服務對象多為區域內的行業客戶、科研院所和高校，較少考慮全局協同，隨著東數西算、東數西渲等應用需求不斷豐富，需要提前布局跨區域的全局算力調度，提升算力高質量供給和數據高效率流通。

由此可見，未來智算中心亟需朝著技術先進、標準統一、軟硬協同、兼容開放的方向發展。