1. 云智算的演進背景
傳統云計算面臨三大挑戰:
- 算力需求激增:AI大模型訓練需十萬卡級GPU集群,資源調度能力不足。
- 網絡性能瓶頸:TB級參數同步對低時延、高吞吐要求遠超傳統網絡架構。
- 服務形態單一:IaaS/PaaS無法覆蓋AI全鏈路需求(數據處理、訓練、推理)。
云智算通過算網深度融合和全棧智能化,升級為下一代云計算范式。
2. 云智算體系架構
四層架構升級:
- AI IaaS:算網一體基礎設施,支持異構算力(云邊端)統一編排與即取即用。
- AI PaaS:提供AI開發全流程工具鏈,降低技術門檻,提升創新效率。
- MaaS:匯聚多領域模型與智能體,加速AI行業滲透。
- AI SaaS:覆蓋多樣化場景的智能化應用,賦能千行百業。
3. 關鍵技術方向
-
計算技術
- 國產算力芯片(如大云磐石DPU):優化帶寬、時延,構建自主生態。
- 智算超節點:突破GPU互聯瓶頸,支持64卡高速互聯,國產化替代。
- 算力原生:統一異構芯片接口,實現“一次開發,跨芯部署”。
-
存儲技術
- 訓推多級緩存:利用CXL技術實現GPU顯存、主存、網絡存儲協同,提升資源利用率。
-
網絡技術
- 卡間互聯(OISA協議):支持百納秒級時延與無損傳輸。
- 機間互聯(GSE架構):革新以太網協議,滿足十萬卡集群組網需求。
-
算網一體技術
- 算力路由:動態感知算網狀態,優化資源調度。
- 在網計算:卸載集合通信任務至網絡節點,減少數據傳輸壓力。
-
AI開發平臺
- 低代碼/無代碼工具:集成大模型能力,實現智能體自主開發。
- 向量/多模數據庫:優化非結構化數據處理,支撐RAG等場景。
-
安全可信
- 硬件級可信計算(TPM/TCM)、數據全生命周期防護、AI驅動的模型合規檢測。
-
綠色節能
- 解耦液冷技術:降低數據中心能耗;
- 算電協同:動態匹配算力與綠電供給,實現余熱回收。
4. 未來技術展望
- 存算一體:緩解“存儲墻”問題,提升大模型推理效率。
- 量子計算:探索量子神經網絡,賦能材料模擬、組合優化等領域。
- 模型分發網絡(MDN):云邊協同架構,支持低時延、高并發推理服務。
5. 中國移動的倡議與定位
- 定位:作為“供給者、匯聚者、運營者”,推動算網智腦升級。
- 倡議:聯合產學研用各方,共建技術標準、攻關核心難題、創新應用場景、繁榮產業生態。
核心價值
云智算通過技術融合(AI+算力網絡)、架構升級(四層服務)和生態開放,推動AI普惠化,助力千行百業智能化轉型,同時兼顧綠色低碳與安全可信。