支持 AIOps 的理由
人工智能運維(AIOps)是將人工智能(AI)、機器學習(ML)和分析技術應用于提升 IT 運維團隊日常工作的過程。簡單來說,AIOps 是軟件系統通過 AI 和 ML 以及相關分析技術來簡化和協助 IT 運維的能力。AIOps 能力可以應用于各種運維和業務數據的攝取與處理,比如日志、追蹤、指標等。隨著分布式應用的日益復雜以及云原生技術的采用,團隊在所觀測和管理的應用環境中面臨三大變化:數據量、復雜性和變化速度。AIOps 可以發揮關鍵作用,如果正確實施和使用,它能幫助團隊有效應對這些挑戰,使運維團隊能夠專注于更重要的工作。將 AIOps 與 ML 和生成式 AI 集成到你的可觀測性解決方案中,可以優化運維,并讓你對系統有更深入的可見性。
理解用于可觀測性的 AIOps
AIOps 依然是開發人員、站點可靠性工程師(SRE)和 DevOps 專業人員關注的熱門話題。鑒于當今在混合和多云環境中廣泛開展的可觀測性工作,AIOps 的重要性尤為突出。像大多數可觀測性平臺一樣,一切都始于你的遙測數據:指標、日志、追蹤和事件。一旦 IT 運維團隊開始收集并分析這些數據,AIOps 的價值就會迅速顯現。AIOps 的目標是準確并主動識別需要關注的領域,并協助 IT 團隊更快速地解決問題。人腦根本無法吸收和分析 PB 級的原始可觀測性數據 —— 但機器可以。引入 AIOps 通過分析和自動化提供了一層智能,幫助團隊減少負擔。讓我們深入了解這個關鍵主題的一些常見問題吧!
AIOps 如何幫助我?
AIOps 可以大幅減少在發現、理解、調查、確定根本原因以及修復問題和事件方面所需的時間和精力。反過來,在故障排查中節省的時間可以幫助 IT 人員將更多精力投入到更有價值的任務和項目中。
定義難以定義的事物
分析機構和廠商試圖通過定義和解釋來澄清 AIOps 這個常常模糊且令人困惑的領域。盡管它很復雜,但可以明確的是,AIOps 將成為應對當今混合和多云環境的關鍵工具。
為什么你需要將 AIOps 作為可觀測性戰略的一部分?
從數字化轉型到云遷移,再到分布式、混合或云原生應用的部署,不斷發展的技術正徹底改變 IT 運維格局。這些變化具有以下三個特征:
| | |
數據量 | 復雜性 | 變化速度 |
可觀測性的數據量持續呈指數增長。 | 應用、工作負載和部署變得越來越復雜、短暫且分布式。 | 應用和基礎設施的變化速度比以往任何時候都快。 |
這些情況并非相互排斥,在某些方面恰恰相反。例如,高速的變化率和利用自動擴展的復雜部署意味著更大量的數據。數據越多,解析、分析并從中提取價值就越困難。
利用 AI 和 ML 來總結和匯總數據,并智能地分層存儲數據,可以幫助緩解遙測數據量帶來的一些挑戰。通過基礎設施和服務依賴關系圖等方式,清晰地展示應用環境和上下文導航,有助于將故障排查與用戶自然認知的部署方式對齊。此外,自動發現問題、異常和根本原因,將解決其他復雜性挑戰。可觀測性平臺需要跟蹤所有應用和基礎設施的變化,并將這些變化與系統行為和用戶體驗關聯起來,因為這些變化往往是突發異常行為的根本原因。
技術小知識
軟件升級或補丁引入新功能時,可能會產生意想不到的后果。啟用 AIOps 能幫助團隊更靈活、更熟練地應對頻繁變化,從而最終維持服務性能。
AIOps 如何為組織創造業務價值?
鑒于當今云原生和混合應用環境中的數據量、復雜性和變化速度,AIOps 正逐漸從一種可有可無的能力,轉變為 IT 運維團隊的關鍵核心能力。雖然 AIOps 可以大幅減少 IT 運維(ITOps)、SRE 和 DevOps 團隊的重復和繁瑣工作,但它也帶來了顯著的業務收益:
- 減少 MTTD(平均檢測時間)和 MTTR(平均修復時間),意味著服務停機時間更短、SLA 改善以及客戶體驗更好
- 幫助組織智能處理快速增長的數據量,降低總體擁有成本(TCO),緩解規模擴展的挑戰
- 減少信號和告警噪聲,實施更好的自動化,釋放運維團隊去承擔更高價值的項目
- 提升組織應對日益復雜 IT 環境的能力,使其能夠更快更頻繁地創新并推出新功能
現代混合和云原生環境不斷推動運維人員管理企業的極限。成本分析、業務指標跟蹤以及將業務影響與可觀測性數據對齊,僅是運維團隊面臨的一些新挑戰。好消息是,像基線設定、異常檢測和關聯分析等 AIOps 概念和分析能力,既能支持可觀測性,也能有效解決這些新的業務挑戰。AI 和 ML 功能還能更進一步,幫助理解任何新信號和數據,使用戶能夠提取有用且可操作的洞察,從而促進業務成功。
機器學習在 AIOps 中的作用
機器學習(ML)是人工智能(AI)的一個分支,專注于利用數據和算法模仿人類學習的方式,隨著時間推移逐步提高準確性。ML 通過向計算機算法輸入大量數據,使其能夠學習識別數據集中的模式和關系。隨著算法接收新數據,它們不斷優化底層模型并提升性能。ML 重要在于它通過示例(模型訓練)來執行復雜分析,而無需編寫專門算法。相比傳統算法方法,ML 能實現更多自動化、提升客戶體驗,并創造此前無法實現的創新應用。例子包括:
- 預測趨勢以改進業務決策
- 個性化推薦,增加收入和客戶滿意度
- 自動監控復雜應用和 IT 基礎設施
- 識別垃圾郵件和發現安全漏洞
機器學習的優勢是什么?
ML 可以幫助你的團隊在以下幾個方面達到更高的性能水平:
| | |
自動化 | 客戶體驗 | 創新 |
由于重復性或數據量大,人類難以完成的認知任務可以通過機器學習實現自動化。例子包括監控復雜的網絡系統、識別復雜系統中的可疑活動,以及預測設備何時需要維護。 | 機器學習模型提供的智能能夠提升用戶體驗,通過主動異常檢測和告警,更快速地進行問題根因分析,在用戶發現問題之前捕捉并解決問題。 | 機器學習解決了專用算法無法處理的復雜問題,解放了團隊免于繁重的數據分析和手動故障排查,使他們能夠專注于對業務具有戰略意義的創新項目。 |
統一的可觀測性平臺對 AI 和 ML 的重要性
可用于分析的數據越全面、越豐富,通過應用 AI 和 ML 技術能完成的工作就越多。擁有所有運維數據的現代統一可觀測性平臺,將成為未來所有 AIOps 工作的基礎。
AI 和 ML 的高級應用可以推動更多用例,例如提取業務洞察、在多種信號中導出預測或領先指標,或在需要時定義和部署完全定制的 AI 驅動工作流。
可觀測性系統將開始形成更完整的閉環;自動收集、存儲和分析數據,并在越來越少的人為干預下,自動檢測和修復更多事件。
使用機器學習進行異常檢測
在 AIOps 中,機器學習在異常檢測方面最為有用。異常檢測是利用算法識別數據中異常模式或異常值的過程,這些異常可能表明存在問題。異常檢測用于監控 IT 基礎設施、應用和網絡,識別可能影響應用性能或導致網絡中斷的活動。異常檢測還可用于發現安全漏洞和欺詐性銀行交易。
現在了解更多關于 AIOps 和機器學習的信息。
當前 AIOps 面臨的常見可觀測性挑戰及應用場景
| | |
減少噪聲以提升問題檢測能力 | 提供上下文以加快根因分析 | 在整個組織內普及數據和分析 |
減少噪聲以提升問題檢測
可觀測性平臺能夠實時攝取和分析來自多個來源的大量數據,使 SRE 能全面了解系統行為并及時識別潛在問題。AIOps 功能可自動識別多樣數據中的模式,突出基本儀表盤和數據可視化難以察覺的關系和關聯。這對于檢測和解決暫時性、難以預測或隱藏在系統正常運行范圍內的問題特別有用。例如,當應用運行緩慢時,AIOps 可自動識別導致事務延遲或失敗的可能原因。
現代系統產生大量數據,SRE 面臨篩選大量噪聲并確定最重要告警的挑戰。可觀測性平臺可以利用 AIOps 技術和機器學習算法識別不同告警之間的模式和關聯,幫助 SRE 優先處理最緊迫的問題。AIOps 自動化可以減少多種噪聲數據,例如:
-
多組相似或重復信息
-
過多的檢測問題和告警(包括手動和自動),其中一些可能具有相同的根本原因
-
信息性通知事件
這些都會導致可觀測性數據和工作流程中出現不同程度的噪聲。在觀察現代應用部署時,SRE 或 IT 運維團隊更容易出現告警疲勞。AIOps 通過提供帶有正確上下文的重要洞察,幫助減少噪聲,使 IT 運維團隊更高效。AIOps 還能根據業務和用戶影響自動優先處理實體和信息,聚焦最關鍵的內容。AIOps 還可根據數據特征檢測并去重信息,對相似信息進行聚類或分組,一起呈現,進一步減少故障排查時的噪聲。隨著新類型的可觀測信號和數據被攝取,利用無監督機器學習的時間序列基線和異常檢測,大大減少了監控和跟蹤數據所需的人工工作。
提供上下文以加快根因分析
根因分析(Root cause analysis - RCA)是一種經過驗證的故障排查方法,幫助團隊識別并解決問題的根本原因,而不是只處理表面癥狀。根因分析是一個結構化、逐步進行的過程,通過收集和分析相關數據以及測試解決方案來查找主要的根本原因。當問題出現時,AIOps 可以幫助 SRE 和開發人員更快地找到根因。通過分析來自多個來源的數據,AIOps 能識別問題的潛在原因,即使它不立即顯現。這些洞察幫助 SRE 更高效地解決問題,并防止未來再次發生。
自動展示問題相關的上下文信息,通過在工作流程中直接呈現相關信息,加快調查速度。AIOps 可以關聯圍繞問題的多個事件和行為,幫助進行更全面的調查,縮短平均檢測時間(MTTD)和平均修復時間(MTTR)。對于少量特定且清晰的癥狀,AIOps 能實現從癥狀到根因的全自動流程,免去手動反復調查的過程。
在整個組織內普及數據和分析

AIOps 旨在簡化 IT 運維團隊的工作,減少手動操作,特別是針對日常和重復任務,幫助快速找到關鍵問題。這樣運維人員可以專注于更高級的工作,比如平臺架構、平臺工程、自動化、安全等。理想情況下,你的 AIOps 平臺應能讓組織中非數據科學家(如 SRE 團隊和業務用戶)也能使用機器學習和分析。通過為常見用例預配置模型和便捷的自定義工作流,整個組織都能更高效地運營數據驅動的業務。
為可觀測性中的 AIOps 建立信任
IT 人員、SRE 和 DevOps 工程師在成功采用和使用 AIOps 解決可觀測性問題時,面臨一些障礙。用戶會問,除了宣傳之外,AIOps 是否真的能帶來業務價值,是否能比現有的監控或可觀測性工具更好、更高效地發現和解決問題。除了宣傳,用戶也不一定知道 AI 和 ML 是否真正適合他們的具體用例。還有信任問題:
-
用戶難以判斷基于 AIOps 的洞察是否準確。
-
用戶可能不了解分析的全面性、所用信息及算法原理。
-
用戶不確定結論是如何得出的,或這些結論是否與當前調查相關。
結果是:對黑箱式 AIOps 系統普遍缺乏信任。在某些情況下,組織內部因缺乏信任而產生的壓力或政策,也可能成為采用 AIOps 的障礙。
我們的經驗表明,AIOps 發揮價值的最佳方式是通過“循序漸進”的方式逐步采納。首先,選擇一些具體、經過驗證的經典用例,將 AIOps 作為概念驗證(POC)開始嘗試。接著,在應用環境中的小范圍內啟用 AIOps 功能,并在每個階段驗證效果并推廣成果。一旦取得初步成功,再逐步擴大 AIOps 的使用范圍,逐步推進到生產環境。這種有計劃的部署路徑能緩解許多新技術部署中常見的挑戰,避免阻礙 AIOps 的廣泛應用。
在實驗室或非生產環境中測試并驗證技術的有效性,并將結果量化展示給管理層,有助于增強信心并爭取支持,在真正部署到生產環境前打下基礎。
這類測試也可能揭示其他缺口和需求,比如數據缺失或不一致、覆蓋范圍有限,或存儲與計算能力不足等問題。
在將 AIOps 部署到生產環境時,要檢查你的可觀測性解決方案是否能按需擴展功能并支撐企業級工作負載。某些在實驗室或 POC 環境中表現良好的 AIOps 功能,在面對生產環境中更大規模的需求時,可能會面臨性能瓶頸。
生成式 AI 賦能的 AIOps 未來發展
生成式 AI 如何影響今天和未來的可觀測性
如果你使用過 ChatGPT(OpenAI 的自然語言處理工具),那你就已經接觸過生成式 AI 技術和大型語言模型(LLMs)。大型語言模型(如 ChatGPT、Amazon Bedrock 或 Google Bard)是一種特定類型的生成式 AI 模型,它基于多個輸入生成信息:包括其預訓練的數據和用戶提交的查詢。當接收到查詢時,它會在其訓練數據范圍內搜索與查詢匹配的信息,進行整合,并以自然語言的形式回應用戶。換句話說,它用通俗易懂的英文作答。恰好,這些能力非常適合解決當前的一些可觀測性難題。
現狀:使用生成式 AI 和搜索提升可觀測性
你的可觀測性平臺為你提供日志、指標、追蹤、函數、庫及其他系統和數據相關信息的可見性。生成式 AI 可以幫助你通過簡單的查詢更輕松地使用可觀測性平臺,并提供更深入的洞察和指導。以下是一些用例:
| | |
解釋 x | 整合信息 | 提升效率 |
不確定你看到的函數、日志或追蹤是什么?你可以通過查詢生成式 AI 工具,獲取關于該數據的更多信息。 | 生成式 AI 工具甚至可以更進一步,整合你在可觀測性平臺上看到的信息,為你生成一份簡潔的報告或可視化結果。 | 憑借解釋和整合信息的能力,生成式 AI 工具可以提升你團隊的專業水平和效率。例如,如果你的代碼占用了大量 CPU,你可以查詢生成式 AI 工具,利用代碼分析數據識別資源密集型函數進行優化,從而改善資源使用,最終降低成本。 |
作為一種自然語言處理平臺,大型語言模型(LLM)可以輕松實現 Javascript、Python 或 JSON 之間的語言轉換。這也是 LLM 在可觀測性場景中非常有用的原因之一。
關鍵是:一些特定的可觀測性功能,如日志消息和錯誤的解釋、腳本轉換以及報告生成,與生成式 AI 當前的能力相匹配。通過將可觀測性的 “問題” 轉化為搜索問題,你可以利用生成式 AI 的能力為你帶來優勢。
生成式 AI 和大型語言模型(LLM):即將到來的社會變革
ChatGPT 的誕生(2023 年 3 月)標志著一個新時代的開始。對許多人來說,這是首次通過網頁瀏覽器直接與大型語言模型(LLM)交互。但這看似簡單的互動卻引發了人類與 AI 關系的巨大變革。科技愛好者充滿興奮和喜悅,但也有懷疑和恐懼。它會只是曇花一現嗎?LLM 會取代工作崗位嗎?然而,對 LLM 的熱情正在增長。谷歌、Facebook 以及其他科技巨頭都在推出自己的 LLM 和聊天機器人。開源 LLM 也在快速發展,有業內人士認為它們未來可能超越谷歌和 OpenAI。對 LLM 的關注已經引發了各行業的變革。未來幾年,人們與數據互動的方式將以搜索框、聊天機器人和執行工作流的提示為常態。LLM 將以我們難以想象的方式改變我們的生活。
警告:大型語言模型(LLM)的能力取決于訓練數據的重要性
需要注意的是,生成式 AI 的能力取決于 LLM 所訓練的數據。如果模型從未接觸過某些日志或特定的庫,那么它在解釋這些內容時,可能無法提供完整或準確的回答。不過,也有方法可以在不耗費大量時間和資源進行訓練的情況下,利用該工具創造價值。方法如下:
什么是 RAG?
檢索增強生成(Retrieval Augmented Generation,RAG)是一種框架,允許用戶將私有或專有數據“輸入”到大型語言模型(LLM)中,使其擁有最新的信息。這提高了 LLM 的效率和準確性,確保用戶能利用更多數據源,讓 LLM 生成更有用的查詢回復。
RAG 有兩個組成部分:檢索和增強生成。增強生成意味著查詢會被附加額外的數據或信息。你可能把這部分認作提示工程(prompt engineering)。通過增強提示,用戶為 LLM 后端準備了最新的信息檢索,從而能夠最大化利用該工具的價值。
關于隱私問題
如果你將私有數據用于大型語言模型(LLM),存在模型可能會基于這些數據進行自我訓練的風險,從而擔心這些信息會被公開泄露。這對大多數企業來說顯然是不理想的。敏感信息泄露是組織在內部采用 LLM 時猶豫不決的多個原因之一。RAG 可以繞過部分隱私問題,而目前萬無一失的解決方案是投資私有的商業 LLM。
未來:AI 會實現自主嗎?
那么,生成式 AI 在可觀測性領域的未來會怎樣發展?雖然目前還處于猜測階段,但業界似乎已經準備好開發自主代理。不過,在技術能夠提供可靠的自主代理之前,還需要實現幾個關鍵突破:
語言驅動界面
當前任何可觀測性平臺面臨的挑戰之一是如何向用戶呈現信息。現有的模式只有兩種:預設的自定義儀表盤和信號類型儀表盤。預設的自定義儀表盤提供高級別的單一視圖,方便在數據集間建立上下文和關聯,但仍需手動深入調查問題。
信號類型儀表盤則提供細粒度但相互獨立的視圖,比如日志、追蹤、服務依賴圖等。語言驅動界面是彌合整體視野與細粒度視圖差距的下一步 —— 它將實現動態的單一視圖模式,整合相關信號儀表盤,集中展現。語言驅動界面允許用戶與系統對話,調出所需儀表盤或視圖,支持符合可觀測性復雜動態特性的對話式問題解決過程。
以現有技術來看,語言驅動界面并非遙不可及。下一步,生成式 AI 將擔任助理角色。
技術小貼士:可觀測性與安全領域中大型語言模型(LLM)的應用區別
需要注意的是,安全領域已有公開的故障排查框架,而可觀測性領域尚無統一框架。
在可觀測性領域,每個問題都較為獨特,因此生成式 AI 工具需要具備更復雜的規劃和推理能力。
三種類型的 AI 助手
| | |
帶有人工干預的 AI 助手 | 帶有人類監督的 AI 助手 | 自主代理 |
在這種模式下,可觀測性平臺觸發告警,AI 助手識別告警并向人類解釋,然后詢問人類是否希望執行后續任務(例如查看某組日志)。在此模式中,LLM 負責分析和提出建議,并與人類保持持續對話,僅在接收到人類指令時采取行動。 | 這里,LLM 被賦予了更多自主操作的能力。它會自行進行分析,向你提供一份報告,然后詢問你是否授權下一步操作,這一步可能是采取補救措施。 | 人類被移除出流程,機器獲得完全自主權。LLM 根據對問題的分析,獨立完成所有分析、調試或修補工作。它可能會重啟主機、更換主機、修改配置等等。 |
在前兩種助理模式中,當告警觸發時,SRE 會被叫到他們的屏幕前(就像現在一樣),他們可以通過微觀管理任務(in the loop)或簡單管理任務(on the loop)來參與決策,決定接下來的操作。
想象這樣一個未來場景:你的觀測平臺收到告警,助理實時分析告警并提供解讀,還能給出補救建議。要做到這一點,AI 需要對觀測工作流程有扎實的理解,并能根據新信息做出反應。你收到新的情報,就必須根據新情報調整行動方向。觀測的這種特殊性也解釋了為什么真正的自主代理還遙不可及。企業使用自主代理的技術現實還沒有實現:你怎么能信任這項技術做出正確決策?隱私和感覺失控是許多企業關心的問題 —— 而且這些擔憂是合理的。目前這項技術還無法完成復雜的推理和規劃任務,想要實現自主,必須先學會這些技能。
總結
和許多新興技術一樣,AIOps 隨著數據量、復雜度和變化速度的不斷增加而持續發展。在復雜的云原生環境中,僅僅擁有一個 AIOps 系統是不夠的。選擇合適的觀測平臺對于迎接即將到來的以 AIOps 驅動的觀測和補救至關重要。有了合適的平臺,組織可以搶占先機,利用 AIOps 優化運營,獲得寶貴洞察,并做出數據驅動的決策,推動增長與成功。
有沒有一個平臺,能夠幫助你利用 AIOps 和生成式 AI 的力量,徹底改變業務運作方式?現在就有 —— 那就是 Elastic Observability。
Elastic Observability 是一套全面的全棧觀測解決方案,為 AIOps 打下堅實基礎。它能統一采集你的所有數據,包括指標、日志、追蹤,甚至業務數據。
借助 Elastic Observability,你可以大規模消費和處理海量觀測數據,快速定位對業務最相關的信息。Elastic Observability 采用上下文感知的生成式 AI 和先進的機器學習技術,減少大量繁重的故障排查工作,簡化問題分診流程,加速根因分析,讓團隊專注于創新。
這一切,都是基于我們 AI 驅動的技術實現的:
Elastic AI 助理用于觀測: | Elasticsearch 相關性引擎?(ESRE): | Elastic Learned Sparse Encoder(ELSER): |