本文根據必示科技算法研究員、產品總監聶曉輝博士在2024 CCF國際AIOps挑戰賽線下宣講會上的演講整理成文。
2024年1月份OpenAIOps社區成立,隨著越來越多的社區成員加入,各項工作在有條不紊的推進中。在線評測基準系統(AIOps Live Benchmark)是今年社區工作中的重點之一。
歷屆AIOps挑戰賽都是一次評測。比如2018年的賽題是指標異常檢測、 2022年的賽題是微服務架構下電商系統的故障識別與分類。大賽組委會根據賽題搭建真實的運維評測系統去產生真實的數據,然后把真實的故障注入到該系統中,最后由參賽選手提供各種思路的解決方案參賽評選。
但是,賽事結束之后評測系統也會隨之關閉,如果選手們后續有了更好的改進方案也無法繼續評測。OpenAIOps社區著手推進在線評測基準工作,目標之一也是希望把每屆挑戰賽的成果都沉淀下來。
在線評測基準簡介
在線評測基準系統包含了幾個重要模塊。首先是運維的IT系統,這部分系統是可以擴展的;還部署了混沌工程相關的工具,模擬出真實的運維場景;同時部署了一些可觀測性的工具來獲取運維數據,像開源的Promethues、Jeager等。數據收集好后通過具體的AIOps應用或者評測方法,提供一個實時在線評審榜單。在線評測基準系統的最終目標是提供真實系統、真實數據、真實評測,讓大家共同探討研究AIOps技術。
在線評測基準系統(AIOps Live Benchmark)建設架構
上圖是在線評測基準系統的整體架構,分為基礎設施、 IT系統、平臺工具和AIOps應用。整個架構相當于一個小型企業的 IT運維平臺,麻雀雖小五臟俱全。圖片中綠色部分是邀請社區專家和企業界的同仁一起已完成系統模塊。目前實現了注入故障模擬、采集各種各樣的運維數據功能,并且部署了業界開源和專業可觀測性工具,最后把數據統一匯總,對上提供服務,也成功部署了像異常檢測、告警分析等應用工具。
1、微服務系統——Online Boutique
Online Boutique是谷歌的一個開源的電商系統,能夠模擬一些常見的IT系統使用環境。它還是微服務的架構,支持多種語言的開發,對于可觀測性工具,包括運維場景,具備一些典型的代表性。
同時系統是開源的,可以根據不同的運維場景對系統進行改造升級,目前實現了支持信創數據庫TiDB、支持OpenTelemetry數據采集、模擬變更場景等功能。歡迎大家把自己的開源服務部署到社區中來,構建典型的運維場景。
2、混沌工程工具
架構中部署了混沌工程的開源工具并做了集成,其中典型的是ChaosMesh。圖片中右邊部分是一個具體的例子,在容器中注入一個CPU使用率負載高的故障,然后觀察在上面部署的這些應用能否檢測到對應異常。
3、可觀測性工具
目前已經部署Jaeger、Promethues等開源的工具。Jeager是開源的分布式跟蹤系統,用于采集電商系統的trace數據;Promethues是開源的監控數據采集和告警工具,用于采集電商系統的指標數據。
同時我們也邀請了云杉網絡、樂維、基調聽云、藍鯨等企業,針對上文提到的微服務系統Online Boutique做了全面的數據采集。
4、開源數據集
完成數據采集后,平臺構建了一個數據的指標體系,按照規則把數據清洗分類,并定時在系統上發布。大家可以在OpenAIOps社區網站(https://www.aiops.cn)上獲取這些數據,希望提供的這些真實數據可以推動AIOps的技術研究和工業落地。
5、AIOps應用
系統上也部署了AIOps的應用,圖片中展示的是必示科技提供的兩款標準化的產品。
(1) 智能業務指標異常檢測。通過具體指標數據,不需要人工設置就能夠識別出閾值,圖中展示的是真實的效果。這款應用好處是無需人工配置閾值,同時自動學習哪些指標能夠做監控,擴大監控范圍,減少人工運維成本。
(2) 智能告警管理,提供基礎的告警管理功能,在告警智能化分析上,主要解決告警風暴檢測和分析問題,當告警量突增,系統自動檢測并生成分析報告,輔助運維人員快速處置異常。
網站正式發布對外開放,歡迎大家學習交流。
網址:https://www.aiops.cn/aiops-live-benchmark/
在線評測基準系統(AIOps Live Benchmark)建設情況
在線評測基準系統(AIOps Live Benchmark)工作自3月份開始推進,我們快速搭建了整套的系統和具體的可觀測性工具。5月份,第一批數據清洗出來并成功發布,同時開始準備指標異常檢測的評測基準工作。
來自社區的專家成員積極參與,貢獻力量。目前基準專家組已經有59個成員,來自高校研究所、科技公司、銀行、證券等各行各業。工程師團隊超過40+,來自中科院、南開大學、必示科技、云杉網絡、樂維、聽云、藍鯨等單位。
未來展望
目前在線評測系統可以提供真實的IT應用場景,可以學習前沿的AIOps技術,發布對應的權威數據集,推動行業發展。
在線評測系統搭建完之后,我們未來重點工作為應用評測,例如業務指標的異常檢測、機器指標的異常檢測、調研鏈的異常檢測和定位等。在做評測應用的同時,進一步的完善系統的可觀測性和混沌工程能力。
關于CCF 國際AIOps挑戰賽
CCF國際AIOps挑戰賽(China Computer Federation International AIOps Challenge)由清華大學聯合中國計算機學會(CCF)自2018年共同發起。旨在借助社區力量,運用人工智能算法解決各類運維難題。迄今為止已經成功舉辦六屆,吸引了大量AIOps從業者和關注者,隨著賽事規模和影響力的不斷擴大,形成了運維行業著名的專業賽事品牌,并逐漸發展為智能運維領域最具影響力的專業賽事。
2024 (第七屆)CCF國際AIOps挑戰賽由中國計算機學會(CCF)主辦,中國計算機學會互聯網專委會、清華大學、中國科學院計算機網絡信息中心承辦,中興通訊、北京智譜華章科技有限公司、中南大學計算機學院、清華大學計算機科學與技術系、北京必示科技有限公司協辦。同時,本屆AIOps挑戰賽也是OpenAIOps社區成立之后第一屆重要年度賽事。
更多賽事相關信息將在社區“智能運維前沿”公眾號發布,同時OpenAIOps社區群將提供賽事通知、技術答疑,有意者可掃碼添加官方微信號(OpenAIOps社區小助手)入群。