AI正在徹底重塑云基礎設施。
IDC最新《2025年IDC MarketScape:全球公有云基礎設施即服務(IaaS)報告》顯示,AI正在通過多種方式重塑云基礎設施,公有云IaaS有望繼續保持快速增長,預計2025年全球IaaS的整體規模將達到1880億美元。
那么,為什么這一輪的AI浪潮對于云基礎設施變革有如此大的影響力?從全球云計算領導者亞馬遜云科技的轉變便能一窺究竟。IDC認為,亞馬遜云科技在可擴展性方面的卓越表現、成熟的開發者社區以及對AI基礎設施的積極投入,使其成為需要先進云能力的企業的首選。
AI從四個方面重塑云基礎設施
傳統云計算以CPU通用計算為核心,滿足于各種應用的存儲與計算需求。然而,隨著AI大模型近年來的迅速崛起,以及智能體(AI Agent)大量涌現,AI對于AI對GPU、NPU等異構算力的依賴遠超預期,并且直接驅動著云基礎設施走向變革。
IDC在該報告中指出,AI正通過多種方式重塑云基礎設施,主要包括四個方面:
其一、AI帶來大量的異構算力需求,直接驅動著亞馬遜云科技等所有云服務商對GPU、TPU和FPGA等專用硬件進行大量投資;
其二、AI相關技術正在迅速融入云基礎設施日常的管理運維之中,由于云服務商的基礎設施規模龐大,借助AI技術能夠有效改善基礎設施的運營效率和成本;
其三、AI正在推動云安全體系的升級,企業需要以AI驅動型安全工具來響應日益復雜的威脅;
其四、云服務商需要利用AI技術來對需求預測,并優化資源分配,推動開發AI驅動的服務與應用等。
與過去相比,云基礎設施的確正在產生一系列的變化,AI對于云基礎設施的運維、安全等影響尤為重要。那么,在生成式AI帶動的這一輪AI浪潮中,AI的訓練、推理乃至應用都需要龐大的算力支撐,企業在未來的數字化轉型中,應該如何合理的選擇基礎設施?又應該如何選擇合理的云服務商?
對此,IDC在報告中也給出具體建議。IDC認為,重點需要考慮部署決策的原則、AI功能的集成度以及系統可觀測性相關的安全性:工作負載部署決策不能僅局限于成本考量,服務集成度、供應商服務的廣度,以及對互操作性和開放標準的支持力度,均至關重要;將AI功能集成到云基礎設施中也越來越成為一個關鍵的差異化因素;建議優先選擇具備強大開箱即用安全功能,且對系統可觀測性有全面方案的供應商。
亞馬遜云科技領跑全球IaaS市場
回顧云計算將近二十年的發展歷史,基礎設施乃云服務商最為核心的競爭力之一,基礎設施的覆蓋范圍與規模、運維管理能力、資源調度分配能力以及對于現代化應用的支持能力直接決定著云服務商提供各類云服務的質量。
作為云計算一哥,亞馬遜云科技自成立以來,就極為重視基礎設施的建設、迭代和演進,在基礎設施覆蓋的范圍、以及IaaS領域涵蓋的核心服務如計算、網絡、安全等多個方面進行持續擴展及創新。
進入到AI時代,亞馬遜云科技繼續引領云基礎設施的變革。今年2月份財報會議,亞馬遜宣布將在2025年資本投資投入1000億美元,其中大部分將用于亞馬遜云科技AI基礎設施的建設等,其金額大幅領先其他競爭對手,足以表明亞馬遜云科技對于AI和云基礎設施的重視。
在本次IDC報告中,亞馬遜云科技也被評為“領導者”,并且在能力和戰略的雙維度上均為“領導者”。亞馬遜云科技在服務范圍方面無可匹敵,豐富的服務種類使亞馬遜云科技對需要專業能力、混合基礎設施或高度可擴展應用程序的企業具有吸引力。當需要最廣泛的云服務組合以及經過驗證的可擴展性和創新能力時,可以考慮亞馬遜云科技。
仔細分析,亞馬遜云科技之所以能夠領跑全球IaaS市場,關鍵在于其基礎設施的覆蓋度、強大的自研芯片能力、領先的網絡架構以及高標準的安全體系,從多個方面建立起業界領先的云基礎設施。
首先,亞馬遜云科技已經建成全球覆蓋規模的基礎設施遍及36個地理區域的114個可用區,后續還計劃在新西蘭和沙特阿拉伯等新建4個區域、12個可用區。為支持AI應用對于基礎設施帶來的種種挑戰,亞馬遜云科技持續推動數據中心創新,包括簡化電氣和機械設計,在冷卻、機架設計和控制系統進行創新。簡化的電力分配和機械系統能夠實現高達99.9999%的基礎設施可用性,并將可能受到電氣問題影響的機架數量減少89%;更新后的冷卻系統將無縫集成空氣和液體冷卻功能,用于支持AI超級計算解決方案,以最低的成本為客戶提供最佳性能和效率。由數據和生成式AI驅動的軟件能夠精確預測服務器最佳部署方式,以最大化電力使用效率等。
其次,亞馬遜云科技一直砸加速“自研芯片”的創新。眾所周知,隨著AI大模型開始進入到各行各業之中,越來越多用戶需要包括推理等各類算力。如何高效、便捷、合理成本地為用戶提供各種AI算力需求,就成為云服務商接下來重點角逐的領域。
亞馬遜云科技的法寶是堅持“自研芯片”,推出多個系列的自研芯片,包括Amazon Nitro系統、通用處理器芯片Amazon Graviton、機器學習訓練芯片Amazon Trainium和推理芯片Amazon Inferentia等一系列自研芯片。在訓練方面,Amazon EC2 Trn2實例與當前基于GPU的EC2 P5e和P5en實例相比,性價比提升30-40%;單實例配備16個Trainium2芯片,可提供高達20.8 Petaflops浮點算力的性能,非常適合訓練和推理高達數十億參數的大型語言模型。
第三,AI對于計算帶來變革,也驅動著網絡不斷突破。AI 算力如何更加高效地發揮生產價值,僅僅依靠AI芯片的簡單堆砌是萬萬行不通,AI 計算網的重要性也與日俱增,直接決定著整個AI集群的效率。亞馬遜云科技在網絡集群的創新也堪稱業界典范。
亞馬遜云科技第二代UltraCluster網絡架構,也稱為"10p10u"網絡,支持超過20,000個GPU協同工作,帶寬達10Pb/s,延遲低于10μs(微秒),這一突破性的性能躍遷將模型訓練時間縮短至少15%。同時還推出了兼具中央控制和優化及分布式的速度和彈性的SIDR(Scalable,Intent Driven Routing)全新網絡路由協議。相比傳統的BGP、OSPF等協議,SIDR在亞馬遜云科技的10p10u網絡中能在不到1秒內恢復網絡,速度比傳統方法快10倍,顯著提升了分布式AI訓練中的可靠性和實時性,確保網絡在故障發生時也能保持高效運行。10p10u是亞馬遜云科技有史以來擴展最快的網絡,在2024年,安裝了超過300萬條鏈路。
第四,隨著生成式AI崛起,安全態勢也在發生深刻變化,攻擊側、防守側乃至監管側都在積極探索AI在安全領域的應用,甚至衍生出數據、模型和應用等一系列安全挑戰。亞馬遜云科技認為“安全是設計出來的”,無論是基礎設施還是服務,從設計之初就應該將安全作為首要任務,并嵌入到從架構到操作的各個環節,從而為客戶提供靈活、安全的云計算環境。
為此,亞馬遜云科技采取的思路是在每個區域的基礎設施采用同樣最高安全標準進行構建和運營,所有用戶均可基于同樣安全的基礎設施進行創新。此外,亞馬遜云科技還不斷使用創新技術提升基礎設施的安全性,例如亞馬遜云科技通過自動推理技術實現以可驗證的方式提升系統的可觀測性,為關鍵系統按預期運行提供了嚴格的數學保證。這些經過自動推理驗證的基礎設施和云服務,不僅能夠提高客戶云上構建的安全性,還能更快提供更高性能的代碼,并最終節約成本。
綜合觀察,幾年前有人認為云計算正在走向同質化,隨著AI的崛起,AI算力需求的持續涌現,云基礎設施也迎來了巨大的發展空間,這無疑為亞馬遜云科技這樣的廠商帶來了極大的創新舞臺。面向未來,隨著千億美元投資的落地,亞馬遜云科技有望成為AI時代的創新高地,幫助各行各業催生新一輪創新浪潮。