
文章主要探討了AI計算時代數據中心的轉型,涉及計算技術的多樣性、規格尺寸和加速器的發展、大型語言模型(LLM)的發展、功耗和冷卻趨勢、基準測試的重要性以及數據中心的發展等方面。為大家提供深入了解AI基礎設施發展的視角。
?計算技術的多樣性與應用場景
1. CPU:作為數據中心的傳統“主力軍”,在推理任務中表現出色,特別是配備充足內存的CPU在處理繁重圖像處理任務時具有優勢,但在快速計算能力方面不及GPU。
2. GPU:最初設計用于圖形處理,隨著張量核心的引入,在各種AI應用中廣泛使用。
3. FPGA:以流水線指令聞名,適合諸如語音轉文本轉換等任務。
4. DSA:專注于高效執行矩陣乘法,針對特定工作負載進行高度優化,但難以輕易應用于其他IT任務。
由此可見:
- 在處理能力和可編程性方面,CPU具有顯著靈活性;
- GPU通過CUDA技術發展提供高性能和可編程性;
- FPGA高度定制化;
- DSA針對特定工作負載優化,需要軟件調整以實現最佳性能。

?規格尺寸和加速器?
-
多種規格尺寸的發展:
從M.2和PCI CEM到定制芯片設計,包括Cerebras開創的大型單片晶圓級解決方案,以及Nvidia的Grace Hopper這樣的高速緩存一致性CPU/GPU正在崛起,每種設計都針對特定工作負載進行優化。
-
推理和訓練的應用趨勢:
在推理任務中,主要看到M.2嵌入式規格尺寸和PCI CEM的廣泛應用;在訓練方面,逐漸轉向使用越來越定制化的GPU。
?大型語言模型(LLM)?
-
模型規模與算力需求:
隨著LLM模型規模的擴大,對算力的需求顯著增加,計算需求呈現出大約10倍的增長軌跡,訓練作業的最大關鍵績效指標取決于訓練時間,因此引入不同類型的加速器成為關鍵。
-
數據集的組合:
隨著視覺元素的加入,文本、視覺和視頻等不同數據集的組合在LLM中變得普遍。

?功耗和冷卻?
-
功耗增長趨勢:
當前最高功率的GPU大約為700瓦,PCI CEM約為400瓦,未來幾代的功耗預計將顯著增長,這將對冷卻設施產生重大影響。
-
冷卻設施的發展:
冷卻基礎設施變得至關重要,液體冷卻與空氣冷卻的結合成為主要趨勢,液體冷卻不會完全取代空氣冷卻平臺,許多數據中心仍然偏好并部署空氣冷卻基礎設施。
?基準測試的重要性
-
MLCommons的發展:
MLCommons起源于基于MLPerf的基準測試,并演進擴展了其范圍,涵蓋存儲、高性能計算以及跨這些領域的多樣化基準測試開發。
-
基準測試與模型的關系:
基準測試往往滯后于LLM快速增長的行業步伐,但像MLCommons和MLPF這樣的基準測試覆蓋了訓練、推理和存儲等多個方面,為評估特定加速器提供了一個框架,有助于從芯片的角度評估其性能以及與期望的關鍵績效指標(KPI)的對齊情況。
-
推理和訓練領域的基準測試:
在推理方面,關注從數據中心延伸到邊緣環境,通過評估不同的模型類別來確定最佳的持續時間和KPI;在訓練領域,為模型和基準測試實踐在訓練和推理領域的一致分類提供了支持。
?數據中心的發展
-
機架功率趨勢:
隨著LLM的增長,數據中心的機架功率從歷史上的每機架10至20千瓦線性增長至每機架75至100千瓦甚至更高,這可能導致新的綠色數據中心的增加,改造現有的舊數據中心以滿足這些需求將是一項挑戰。
-
數據中心層面的視角轉變:
從節點級別開始,各種功率、基準測試、規格尺寸和精度的加速器正在涌現,使得數據中心需要從節點級別上升到機架級別,再到數據中心級別進行考慮,冷卻變得具有挑戰性,液體冷卻迅速得到采用,未來液體冷卻可能在AI計算場景中占據主導地位。

?AI基礎設施的發展?
-
從節點級別到集群級別的部署:
AI基礎設施的發展趨勢已不再局限于部署僅配備2到8個GPU的節點來完成任務,將更多地轉向集群級別的部署。
- 2.關鍵因素:
-網絡設計和連接方式:為了使GPU、FPGA或專用加速器等計算單元高效運行,必須認真考慮網絡設計,包括如何連接存儲、數據的位置以及如何迅速地將數據傳輸到計算單元中并解決問題。
-機架和數據中心級別的電力預算:到2025年,應該考慮或部署每個機架功率在70到100千瓦的數據中心,需要從機架級別和數據中心級別的電力預算出發,深入思考未來幾年內這一特定領域的所有增長趨勢。
-與數據中心人員的溝通:所有生成式AI應用程序的部署規模已遠超過之前的預測,需要與數據中心人員進行深入的溝通,了解他們的需求,并基于這些需求進行構建,而不是簡單地將GPU組裝成一個節點。
?行業應用
-
科技巨頭的數據中心轉型:
以谷歌、亞馬遜、微軟等科技利用AI技術優化數據中心的運營和管理,提高能效和計算效率。
-
金融行業的數據中心應用:
金融機構借助AI驅動的數據中心進行風險評估、欺詐檢測和交易處理等業務,以及面臨的挑戰和解決方案。
-
醫療行業的數據中心創新:
醫療領域數據中心應用于醫學影像分析、疾病預測和個性化醫療等,以及利用AI技術推動醫療行業的發展。
?技術創新
-
量子計算在數據中心的潛力:
量子計算與傳統計算技術相結合,為數據中心帶來更高的計算能力和解決復雜問題的能力。
-
邊緣計算與數據中心的協同發展:
邊緣計算在數據中心架構中起著重要的作用,邊緣計算與數據中心協同工作以提高數據處理的實時性和效率。
-
AI芯片的發展:
當前人工智能芯片市場的競爭強烈,未來芯片技術會向更高的算力、更低的能耗和更好的兼容性而發展。
?展望未來
-
AI 與數據中心的深度融合:
隨著AI技術的不斷發展,數據中心將更加智能化,能夠自動優化資源配置、預測故障并進行自我修復,提高運營效率和可靠性。
-
新型計算架構的出現:
未來可能會出現一些新型的計算架構,如類腦計算等,這些架構將為數據中心帶來更高的性能和更低的能耗。
-
數據中心的綠色可持續發展:
在全球對環境保護日益重視的背景下,數據中心將朝著綠色可持續的方向發展,采用更多的可再生能源、優化冷卻技術以提高能源利用率。
-
邊緣數據中心的崛起:
隨著物聯網、5G等技術的普及,邊緣數據中心將發揮越來越重要的作用,能夠更快地處理和分析數據,減少延遲,滿足實時性要求較高的應用場景。
-
數據中心的全球化布局:
為了滿足不同地區用戶的需求,數據中心將進一步全球化布局,同時也需要應對不同地區的政策、法規和文化差異。

數據中心的未來發展充滿著機遇與挑戰。技術的不斷創新、計算需求的持續增長、對能源效率和可持續性的重視,以及政策法規的影響等因素,都將塑造數據中心的未來格局。
#數據中心#綠色節能#AI#人工智能#高性能計算#HPC#液冷#水冷#AI基礎設施#LLM#大語言模型