云服務運行安全創新標桿:阿里云飛天洛神云網絡子系統“齊天”再次斬獲獎項

引言

為認真落實工信部《工業和信息化部辦公廳關于印發信息通信網絡運行安全管理年實施方案的通知》,2025年5月30日中國信息通信研究院于浙江杭州舉辦了“云服務運行安全高質量發展交流會”,推動正向引導,鞏固云服務安全專項治理成果。會上,阿里云“超大規模云計算網絡一體化運行管理平臺——齊天系統”憑借卓越的技術創新與實踐成果,榮獲“云服務運行安全創新成果獎”,同時,齊天團隊負責人呂彪獲評“全棧型”專家認證。此次雙料榮譽標志著洛神在我國運行安全領域的技術實力與行業貢獻獲得權威認可。

在這里插入圖片描述
國家“十四五”規劃明確提出了“上云用數賦智”行動,數字經濟的轉型需要加速上云,而云網絡則是支撐普惠上云,實現萬物互聯的關鍵。在過去十年間,云網絡高速增長,企業上云規模的高速增長給云廠商帶來高收益的同時,也對云廠商的技術能力提出了全新的挑戰。阿里云云網絡團隊經過“十年磨一利劍”實現了全面自研的云網絡操作系統-洛神,滿足了“大規模、多租戶、高彈性”的網絡性能需求。
在滿足網絡性能需求的同時,云網絡的運行管理面臨著百萬級設備規模、秒級故障發現以及異構設備應急等現實挑戰。為此,云網絡歷經十年,將數據存儲、分析處理、建模推理三大網絡數據管理技術融合,對設備變更、網絡監控以及故障處置三大運行管理場景進行一體化建設,突破了大規模云網絡運行管理的四大核心技術,研制了超大規模云計算網絡一體化運行管理平臺一齊天。本文將為您揭秘洛神云網絡的核心子系統-齊天,介紹其是如何保障超大規模云網絡的運行安全。

核心挑戰

云網絡作為云上萬物互聯的基礎底座,為了確保云網絡的安全運行,云網絡需要一套大規模運行管理系統。整套系統由三大核心運行管理場景以及一套網絡數據系統組成,其中三大核心運行管理場景包括設備變更、網絡監控以及故障處置,而網絡數據系統為三大場景提供了運行管理決策所需要的數據。
圖 1 大規模云網絡運維系統面臨的挑戰
隨著“萬物上云”時代的到來,云網絡的運行管理面臨了以下四個方面的核心挑戰:
1、管理決策對海量數據的要求與成本控制之間的矛盾。
超大規模的云網絡設備產生了海量的運行數據,一方面管理決策需要精細數據支撐,另一方面細粒度的數據帶來的極高的計算、存儲以及查詢成本,如何兼顧決策的訴求以及數據的成本是大規模云網絡運行管理需要克服的第一個挑戰。
2、百萬級的設備規模與有限人力間的矛盾。隨著云網絡規模的發展,
網絡設備從十萬級上升到百萬級,租戶實例從百萬級上升到千萬級,帶來了極大的人力開銷,且在數字化轉型過程中會進一步加劇。
3、高動態的網絡拓撲與高實時監控要求間的矛盾。
云網絡是一張高動態的網絡,租戶通過 OpenAPI 進行每小時近百萬次的網絡修改,現有網絡監控技術的監控策略難以匹配這種超高頻的變化,導致監控結果遲滯。
4、強異構多平面的設備形態與高效率全鏈路的異常檢測及恢復間的矛盾。
云網絡內部由大量形態異構、功能異構的設備組成,運行過程中出現異常嚴重依賴不同設備的專家工程師人工排查及處置,排查效率低故障恢復慢。

關鍵技術

為了解決這些挑戰,齊天采用“數智融合,運維一體”的思路,通過將數據存儲、分析處理、建模推理三大數據管理技術融合;升級維護、網絡監控、故障應急三大運維場景一體建設的方式研制了數智融合的一體化大規模云網絡運維系統,系統整體架構如圖2所示。
圖 2 數智融合的一體化大規模云網絡運維系統
系統整體包含數據管理、升級維護、網絡監控以及故障應急四個核心模塊,其中數據管理模塊是運維系統的核心數據底座,支撐上面的不同運維場景;升級維護雖然是網絡運維中的常規動作,受益于洛神云網絡的SDN架構以及租戶對于云網絡功能需求的日益增加,云網絡軟硬件設備經常處于高頻的升級變更過程中,因此齊天研發了無人值守的變更框架來解決云網絡高頻變更過程中的各類挑戰;網絡變更完成后,網絡監控模塊需要對變更后的云網絡進行全面的監控來發現網絡可能的異常狀態;當監控系統發現異常后,為了盡可能降低租戶受到網絡異常的影響,齊天研發了全鏈路網絡自愈技術來進行快速的故障應急。下面將分小節對每個核心技術模塊進行深度介紹。

  1. 數智融合的高性能網絡運維數據管理技術
    針對管理決策對海量數據的要求與成本控制間的矛盾,齊天通過數智融合的高性能網絡運維數據管理技術,將海量多模態的網絡數據統一存儲,基于云原生的無狀態分析引擎進行高性能處理,從時空多維度進行網絡知識建模,實現了 PB 級海量多模態網絡數據的高效率存儲,千萬級虛擬網絡資源的批量建模以及毫秒級高性能網絡數據分析。
    基于該技術,齊天針對網絡運維數據的查詢性能提升 50% 以上、單平臺數據存放規模可達 PB 級、無狀態分析引擎每秒實現 300 萬條流式數據處理、網絡對象知識節點數超1000萬個,為各種運行管理決策提供了基礎知識模型。
  2. 多租戶動態編排的無人值守網絡變更技術
    針對百萬級的設備規模與有限的人力間的矛盾,齊天設計并研發多租戶動態編排的無人值守網絡變更技術,通過面向多租戶的超高維度動態任務編排、基于微集群高速緩存的高性能任務下發以及主被協同的多指標結果評估算法來實現百萬級網絡設備的無人化零損變更,極大地提升了管理效率,降低了人力投入。
    圖 3 CloudPlanner : Minimizing Upgrade Risk of Virtual Network Devices for Large-Scale Cloud Networks(IEEE INFOCOM 2024)
    通過無人值守網絡變更技術,齊天實現了全網千萬級的租戶維度指標預測及擬合建模,變更影響范圍相比之前縮小 90%,變更觸發網絡故障減少 50%,變更異常的影響時長縮短 45%。
  3. 意圖感知的自適應高精度網絡監控技術
    針對高動態的網絡資源與高實時的狀態監控間的矛盾,齊天提出了以基于用戶意圖的虛擬網絡測量技術為基礎,通過機器學習對網絡測量數據進行智能預測,從而實現高敏高精網絡預警的能力,將網絡的監控精度提升到報文級,時間精度提升到毫秒級,流量監控提升到實例級,預警精度提升到用戶級,克服了由于多租戶高動態給監控的精度和準確性帶來的挑戰。
    圖 4 Zoonet: A Proactive Telemetry System for Large-Scale Cloud Networks(ACM CoNEXT 2022)
    基于高精度網絡監控技術,齊天覆蓋率全網千萬級的訪問路徑,采集精度提升到毫秒級,算法召回率達 93%,大幅提升阿里云網絡預警能力。
  4. 基于多平面異常檢測的全鏈路自愈技術
    針對強異構的網絡設備與高效率的異常檢測及恢復間的矛盾,齊天創新性地提出了基于多平面異常檢測的全鏈路自愈能力,綜合利用形式化驗證以及可視化診斷來實現網絡異常的全鏈路檢測,通過對檢測結果訓練建設網絡異常庫,從而實現異常的快速分類和定位。針對大流量異常,采用可編程網卡輔助的流量反壓實現快速自愈;針對分布式設備異常,采用軟件調控流量調度的方式進行快速逃逸。
    圖 5 CloudSentry: Two-Stage Heavy Hitter Detection for Cloud-Scale Gateway Overload Protection(IEEE TPDS 2023)
    全鏈路自愈技術覆蓋了物理層、虛擬層、租戶層三個網絡平面,異常誤報率下降 90%,故障處理時長縮短至分鐘級,大幅提升了網絡異常的決策和處置效果。

總結展望

經過近十年的發展,齊天已經在阿里云大規模商業化應用,管理著千萬級的網絡實例,為阿里云數百萬客戶提供了高質量的網絡服務,護航了二十大會議、建黨100周年活動、巴黎奧運等國內外重大國事。齊天自主研發的數智融合的高性能網絡運維數據管理技術、多租戶動態編排的無人值守網絡變更技術、意圖感知的自適應高精度網絡監控技術、基于多平面異常檢測的全鏈路自愈技術等整套成果獲得授權發明專利40余項,發表國際高水平論文20余篇。經國際權威評測機構Gartner 2021年評測,基于齊天構建的NIS產品是全球唯一獲得網絡性能可視化能力評分的云網絡產品。
面向未來,齊天將持續深化"數智融合、運維一體"戰略布局,以構建新一代智能云網絡為目標,通過AI與網絡運維的深度協同,聚焦自進化網絡架構與意圖網絡引擎等領域,力爭打破傳統被動響應模式,打造具備閉環自治能力的智能網絡體系,實現全網狀態實時感知與動態調優,讓用戶業務需求到網絡策略能夠智能轉化,最終形成從環境感知、故障預判到策略生成、自主執行的完整決策閉環。
齊天矢志成為智能時代的網絡基礎設施革命者,讓每一比特數據流動皆創造價值。我們將持續踐行“讓網絡更簡單”的使命,推動云網絡運維技術的創新發展,追求更高的網絡穩定性、更好的用戶體驗、更低的運維成本。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/909152.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/909152.shtml
英文地址,請注明出處:http://en.pswp.cn/news/909152.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

刀客doc:WPP走下神壇

一、至暗時刻? 6月11日,快消巨頭瑪氏公司宣布其價值17 億美元,在全球70個市場的廣告業務交給陽獅集團,這其中包括M&Ms、士力架、寶路等知名品牌。 此前,瑪氏公司一直是WPP的大客戶。早在今年3月,WPP就…

進行性核上性麻痹飲食攻略:營養安全雙護航

進行性核上性麻痹是一種罕見的神經系統退行性疾病,主要影響患者的運動、平衡和吞咽功能。除了醫學干預,科學的飲食管理也能在一定程度上減輕癥狀,提高生活質量。 由于患者常出現吞咽困難,食物質地的選擇尤為重要。應避免干硬、大塊…

阿里云可觀測 2025 年 5 月產品動態

本月可觀測熱文回顧 文章一覽: StoreView SQL,讓數據分析不受地域限制 不懂 PromQL?AI 智能體幫你玩轉大規模指標數據分析 DeepWiki LoongCollector:AI 重塑開源代碼理解 從 o11y 2.0 說起,大數據 Pipeline 的「…

React 基礎狀態管理方案

1. useState useState 是 React 提供的最基本的 Hook,用于在函數組件中添加狀態管理。它返回一個狀態變量和一個更新狀態的函數。 1.1. 使用場景 適合管理簡單的狀態。 適合管理組件內部的局部狀態。 1.2. 示例代碼 import React, { useState } from react;function Cou…

VScode中如何創建項目分支

在 VS Code 中為前端項目創建自己的分支是一個常見的開發實踐,以下是詳細步驟: 前提條件 已安裝 Git已安裝 VS Code已有前端項目或克隆了遠程倉庫 創建分支步驟 1. 打開項目 在 VS Code 中打開你的前端項目文件夾。 2. 初始化 Git 倉庫&#xff08…

Flutter 導航與路由管理:Navigator 的深入解析與實踐

在移動應用開發中,頁面導航是用戶體驗的核心組成部分。Flutter 提供了強大而靈活的導航系統,主要通過 Navigator 組件來實現。本文將全面介紹 Flutter 中 Navigator 的使用方法,涵蓋基礎導航操作、進階技巧以及最佳實踐。 一、Flutter 導航系…

預測性去匿名化攻擊(PDAA):重塑數據安全攻防邊界

一、數據合規時代的“脫敏”悖論:價值釋放與風險并存 在數據驅動的商業模式與日趨嚴格的個人信息保護法規(如《個人信息保護法》《數據安全法》)雙重推動下,企業普遍將“數據脫敏”作為實現數據合規與價值釋放的核心手段。對手機…

[python] 使用python設計濾波器

使用python設計濾波器 文章目錄 使用python設計濾波器完整濾波器設計代碼(未經完整驗證,博主還在不斷完善中)關鍵原理與代碼對應說明1. 濾波器類型選擇2. 階數估算原理3. 性能分析技術4. 設計參數調整指南 習慣了python后,matlab逐…

mac電腦.sh文件,用來清除git當前分支

#!/bin/bashecho "正在檢查Git倉庫..." if ! git rev-parse --is-inside-work-tree >/dev/null 2>&1; thenecho "錯誤:當前目錄不是Git倉庫!"exit 1 fiecho "警告:這將丟棄所有未提交的更改和本地提交&am…

Bash (Bourne Again SHell)

Unix/Linux 系統中最常用的命令行解釋器之一,它是原始 Bourne shell (sh) 的增強版本。以下是 Bash 的詳細解釋: 1. Bash 基礎 1.1 什么是 Bash 一個命令行解釋器,用于執行用戶輸入的命令支持腳本編程,可以編寫復雜的自動化任務…

uni-app學習筆記三十五--擴展組件的安裝和使用

由于內置組件不能滿足日常開發需要,uniapp官方也提供了眾多的擴展組件供我們使用。由于不是內置組件,需要安裝才能使用。 一、安裝擴展插件 安裝方法: 1.訪問uniapp官方文檔組件部分:組件使用的入門教程 | uni-app官網 點擊左側…

AIStor 的模型上下文協議 (MCP) 服務器: 工作原理

在本系列的前幾篇博文中,我們討論了MinIO AIStor 模型上下文協議 (MCP) 服務器的用戶級和管理員級功能。在第一篇博文中,我們學習了如何查看存儲桶的內容、分析對象并標記它們以便將來處理。在第二篇博文中,我們還學習了如何使用管理員命令以…

Excel 怎么讓透視表以正常Excel表格形式顯示

目錄 1、創建數據透視表 2、設計 》報表布局 》以表格形式顯示 3、設計 》分類匯總 》不顯示分類匯總 1、創建數據透視表 2、設計 》報表布局 》以表格形式顯示 3、設計 》分類匯總 》不顯示分類匯總

匯編語言深度指南:從基礎到字符串操作

基礎知識 CPU簡介 CPU是計算機的核心,負責: 執行機器指令:解碼并執行二進制指令 mov eax, 5 ; 將值5移動到EAX寄存器暫存少量數據:通過內部寄存器快速存取訪問存儲器:讀寫內存數據 mov [0x1000], eax ; 將EAX值…

樹莓派5-ubuntu 24.04 安裝 ros環境

在開始安裝ros環境前,需要確保已經準備好了以下操作 1.樹莓派5開發板,已經燒錄了 ubuntu 24.04,并做好了一些基礎配置,如:遠程訪問配置,語言配置,網絡配置等 2.新手建議在上面安裝一個寶塔面板…

【狂飆AGI】第2課:大模型方向市場分析

目錄 (一)產業規模(二)政策引導(三)人才需求(四)工作年限(五)年薪分析(六)薪資情況分析(七)地域及匹配薪資&am…

word用endnote插入國標參考文獻

1.在endnote中先設置output style為我的GB格式 參考 Endnote使用——參考文獻的插入及引用_endnote怎么引用參考文獻-CSDN博客 已經修改好的GB導出格式:Chinese Std GBT7714 (numeric)-spx.ens Peixuan Shu/Chinese_Std_GBT7714 - 碼云 - 開源中國 把這個style…

Peiiieee的Linux筆記(1)

基本指令 1. ls指令 語法:ls [選項][目錄或文件] 功能:對于目錄,該命令列出該目錄下的所有子目錄與文件。對于文件,將列出文件名以及其它信息。 -a:列出目錄下的所有文件,包括以.開頭的隱含文件。 -l&am…

Docker快速構建并啟動Springboot程序,快速發布和上線/

Docker部署SpringBoot 1.工作木目錄:/mnts/jar_work/vx_kefu/ruoyi_ruoyiwechatinfo 里面的目錄是lib文件夾,logs文件夾,Dockerfile文件,SpringBoot的jar包,start.sh的命令,stop.sh的命令,tpid文件進程。 …

RT-Thread Studio 配置使用詳細教程

文章目錄 一、新建工程1.1 創建基于芯片的工程1.1.1 選擇創建的rtt版本1.1.2 配置工程基本屬性1.1.3 初創工程目錄結構1.1.4 修改時鐘配置1.1.5 配置調試下載器 1.2 創建基于開發板的工程 二、配置內核三、配置組件四、配置軟件包五、適配配置六、其它問題 一、新建工程 1.1 創…