引言
為認真落實工信部《工業和信息化部辦公廳關于印發信息通信網絡運行安全管理年實施方案的通知》,2025年5月30日中國信息通信研究院于浙江杭州舉辦了“云服務運行安全高質量發展交流會”,推動正向引導,鞏固云服務安全專項治理成果。會上,阿里云“超大規模云計算網絡一體化運行管理平臺——齊天系統”憑借卓越的技術創新與實踐成果,榮獲“云服務運行安全創新成果獎”,同時,齊天團隊負責人呂彪獲評“全棧型”專家認證。此次雙料榮譽標志著洛神在我國運行安全領域的技術實力與行業貢獻獲得權威認可。
國家“十四五”規劃明確提出了“上云用數賦智”行動,數字經濟的轉型需要加速上云,而云網絡則是支撐普惠上云,實現萬物互聯的關鍵。在過去十年間,云網絡高速增長,企業上云規模的高速增長給云廠商帶來高收益的同時,也對云廠商的技術能力提出了全新的挑戰。阿里云云網絡團隊經過“十年磨一利劍”實現了全面自研的云網絡操作系統-洛神,滿足了“大規模、多租戶、高彈性”的網絡性能需求。
在滿足網絡性能需求的同時,云網絡的運行管理面臨著百萬級設備規模、秒級故障發現以及異構設備應急等現實挑戰。為此,云網絡歷經十年,將數據存儲、分析處理、建模推理三大網絡數據管理技術融合,對設備變更、網絡監控以及故障處置三大運行管理場景進行一體化建設,突破了大規模云網絡運行管理的四大核心技術,研制了超大規模云計算網絡一體化運行管理平臺一齊天。本文將為您揭秘洛神云網絡的核心子系統-齊天,介紹其是如何保障超大規模云網絡的運行安全。
核心挑戰
云網絡作為云上萬物互聯的基礎底座,為了確保云網絡的安全運行,云網絡需要一套大規模運行管理系統。整套系統由三大核心運行管理場景以及一套網絡數據系統組成,其中三大核心運行管理場景包括設備變更、網絡監控以及故障處置,而網絡數據系統為三大場景提供了運行管理決策所需要的數據。
隨著“萬物上云”時代的到來,云網絡的運行管理面臨了以下四個方面的核心挑戰:
1、管理決策對海量數據的要求與成本控制之間的矛盾。
超大規模的云網絡設備產生了海量的運行數據,一方面管理決策需要精細數據支撐,另一方面細粒度的數據帶來的極高的計算、存儲以及查詢成本,如何兼顧決策的訴求以及數據的成本是大規模云網絡運行管理需要克服的第一個挑戰。
2、百萬級的設備規模與有限人力間的矛盾。隨著云網絡規模的發展,
網絡設備從十萬級上升到百萬級,租戶實例從百萬級上升到千萬級,帶來了極大的人力開銷,且在數字化轉型過程中會進一步加劇。
3、高動態的網絡拓撲與高實時監控要求間的矛盾。
云網絡是一張高動態的網絡,租戶通過 OpenAPI 進行每小時近百萬次的網絡修改,現有網絡監控技術的監控策略難以匹配這種超高頻的變化,導致監控結果遲滯。
4、強異構多平面的設備形態與高效率全鏈路的異常檢測及恢復間的矛盾。
云網絡內部由大量形態異構、功能異構的設備組成,運行過程中出現異常嚴重依賴不同設備的專家工程師人工排查及處置,排查效率低故障恢復慢。
關鍵技術
為了解決這些挑戰,齊天采用“數智融合,運維一體”的思路,通過將數據存儲、分析處理、建模推理三大數據管理技術融合;升級維護、網絡監控、故障應急三大運維場景一體建設的方式研制了數智融合的一體化大規模云網絡運維系統,系統整體架構如圖2所示。
系統整體包含數據管理、升級維護、網絡監控以及故障應急四個核心模塊,其中數據管理模塊是運維系統的核心數據底座,支撐上面的不同運維場景;升級維護雖然是網絡運維中的常規動作,受益于洛神云網絡的SDN架構以及租戶對于云網絡功能需求的日益增加,云網絡軟硬件設備經常處于高頻的升級變更過程中,因此齊天研發了無人值守的變更框架來解決云網絡高頻變更過程中的各類挑戰;網絡變更完成后,網絡監控模塊需要對變更后的云網絡進行全面的監控來發現網絡可能的異常狀態;當監控系統發現異常后,為了盡可能降低租戶受到網絡異常的影響,齊天研發了全鏈路網絡自愈技術來進行快速的故障應急。下面將分小節對每個核心技術模塊進行深度介紹。
- 數智融合的高性能網絡運維數據管理技術
針對管理決策對海量數據的要求與成本控制間的矛盾,齊天通過數智融合的高性能網絡運維數據管理技術,將海量多模態的網絡數據統一存儲,基于云原生的無狀態分析引擎進行高性能處理,從時空多維度進行網絡知識建模,實現了 PB 級海量多模態網絡數據的高效率存儲,千萬級虛擬網絡資源的批量建模以及毫秒級高性能網絡數據分析。
基于該技術,齊天針對網絡運維數據的查詢性能提升 50% 以上、單平臺數據存放規模可達 PB 級、無狀態分析引擎每秒實現 300 萬條流式數據處理、網絡對象知識節點數超1000萬個,為各種運行管理決策提供了基礎知識模型。 - 多租戶動態編排的無人值守網絡變更技術
針對百萬級的設備規模與有限的人力間的矛盾,齊天設計并研發多租戶動態編排的無人值守網絡變更技術,通過面向多租戶的超高維度動態任務編排、基于微集群高速緩存的高性能任務下發以及主被協同的多指標結果評估算法來實現百萬級網絡設備的無人化零損變更,極大地提升了管理效率,降低了人力投入。
通過無人值守網絡變更技術,齊天實現了全網千萬級的租戶維度指標預測及擬合建模,變更影響范圍相比之前縮小 90%,變更觸發網絡故障減少 50%,變更異常的影響時長縮短 45%。 - 意圖感知的自適應高精度網絡監控技術
針對高動態的網絡資源與高實時的狀態監控間的矛盾,齊天提出了以基于用戶意圖的虛擬網絡測量技術為基礎,通過機器學習對網絡測量數據進行智能預測,從而實現高敏高精網絡預警的能力,將網絡的監控精度提升到報文級,時間精度提升到毫秒級,流量監控提升到實例級,預警精度提升到用戶級,克服了由于多租戶高動態給監控的精度和準確性帶來的挑戰。
基于高精度網絡監控技術,齊天覆蓋率全網千萬級的訪問路徑,采集精度提升到毫秒級,算法召回率達 93%,大幅提升阿里云網絡預警能力。 - 基于多平面異常檢測的全鏈路自愈技術
針對強異構的網絡設備與高效率的異常檢測及恢復間的矛盾,齊天創新性地提出了基于多平面異常檢測的全鏈路自愈能力,綜合利用形式化驗證以及可視化診斷來實現網絡異常的全鏈路檢測,通過對檢測結果訓練建設網絡異常庫,從而實現異常的快速分類和定位。針對大流量異常,采用可編程網卡輔助的流量反壓實現快速自愈;針對分布式設備異常,采用軟件調控流量調度的方式進行快速逃逸。
全鏈路自愈技術覆蓋了物理層、虛擬層、租戶層三個網絡平面,異常誤報率下降 90%,故障處理時長縮短至分鐘級,大幅提升了網絡異常的決策和處置效果。
總結展望
經過近十年的發展,齊天已經在阿里云大規模商業化應用,管理著千萬級的網絡實例,為阿里云數百萬客戶提供了高質量的網絡服務,護航了二十大會議、建黨100周年活動、巴黎奧運等國內外重大國事。齊天自主研發的數智融合的高性能網絡運維數據管理技術、多租戶動態編排的無人值守網絡變更技術、意圖感知的自適應高精度網絡監控技術、基于多平面異常檢測的全鏈路自愈技術等整套成果獲得授權發明專利40余項,發表國際高水平論文20余篇。經國際權威評測機構Gartner 2021年評測,基于齊天構建的NIS產品是全球唯一獲得網絡性能可視化能力評分的云網絡產品。
面向未來,齊天將持續深化"數智融合、運維一體"戰略布局,以構建新一代智能云網絡為目標,通過AI與網絡運維的深度協同,聚焦自進化網絡架構與意圖網絡引擎等領域,力爭打破傳統被動響應模式,打造具備閉環自治能力的智能網絡體系,實現全網狀態實時感知與動態調優,讓用戶業務需求到網絡策略能夠智能轉化,最終形成從環境感知、故障預判到策略生成、自主執行的完整決策閉環。
齊天矢志成為智能時代的網絡基礎設施革命者,讓每一比特數據流動皆創造價值。我們將持續踐行“讓網絡更簡單”的使命,推動云網絡運維技術的創新發展,追求更高的網絡穩定性、更好的用戶體驗、更低的運維成本。