目錄
全鏈路可觀測工程與大模型結合---提升運維效能
可觀測性(Observability)在IT系統中的應用及其重要性
統一建設可觀測數據
統一建設可觀測數據的策略與流程
全鏈路的構成和監控形態
云上的全鏈路可視方案
?為什么一定是Copilot
大模型的Copilot能幫助什么”特別是在智能運維場景中的應用
全鏈路可觀測和Copilot在日志分析中的應用
主要內容集中在如何使用先進的技術和方法來有效地分析和處理日志數據,以實現全鏈路的可觀測性。
Chat2Data工具
更好獲取可觀測數據
后端輔助智能診斷系統
對運維場景中使用自然語言處理技術改善故障分析和解決過程
全鏈路可觀測工程與大模型結合---提升運維效能
可觀測性(Observability)在IT系統中的應用及其重要性
- 首先,可觀測性被定義為從系統外部輸出的信息中推斷系統內部運行狀態的能力,這一能力對于確保系統穩定運行、及時發現并解決問題至關重要。
- 在IT系統中,可觀測性的實現依賴于四個核心要素:指標(Metrics)、日志(Logs)、調用鏈(Traces)和告警(Alerts)。指標提供了系統性能的量化數據,如CPU使用率、內存占用等,幫助監控系統的整體狀態。日志則記錄了系統的詳細運行信息,為問題排查提供了豐富的線索。調用鏈追蹤了系統調用的鏈路,揭示了請求的處理過程,有助于發現性能瓶頸和潛在問題。告警機制則在系統出現異常時及時通知相關人員,確保問題得到及時處理。
- 圖A為當前IT可觀測數據實踐的現狀,即各類可觀測數據往往單獨建設,缺乏統一的關聯和分析。而圖B為IT可觀測數據關聯的重要性,通過整合各類可觀測數據,加速信息的獲取和問題的定位。這種關聯不僅提高了系統的可觀測性,還使得故障發現和解決過程更加迅速和高效。
- 可觀測性在“五星圖”中的價值,即五種對象(指標、日志、調用鏈、告警和資源)之間的聯動。這種聯動使得系統運行狀態更加透明,有助于從多個角度全面了解系統的健康狀況。同時,從資源和日志的視角出發,需要獲取所有的可觀測數據,并進行掛載治理,以確保數據的完整性和準確性。
如何通過整合多種可觀測數據來提高IT系統的可觀測性,從而加速故障發現和解決的過程。在現代IT系統中,可觀測性已經成為確保系統穩定運行、提升用戶體驗的關鍵能力之一。
統一建設可觀測數據
?一套統一的可觀測數據建設方案,其核心在于制定一套數據定義標準,以確保不同廠商和系統間能夠順暢地交換和共享數據。
- 數據定義標準涵蓋了log、trace、metric、event等多個方面,明確了這些數據的屬性命名規則、數據類型、采集定義規范、序列化方式以及IT資源的標準模型。盡管Opentelemetry已成為業內通用的數據定義標準,但考慮到各廠商因歷史項目建設兼容性的需求,云智慧基于其服務數百個客戶的經驗,提出了兼容OT的可觀測數據標準。
- 數據被細分為多個類別,包括應用系統、服務、服務實例、業務監控數據、交易數據以及基礎設施數據等。每種數據類型都配備了詳細的數據說明和數據來源,確保數據的準確性和可追溯性。
通過這套統一的可觀測數據建設方案,企業能夠實現對IT系統的全面監控和管理,提升系統的可觀測性和運維效率。
統一建設可觀測數據的策略與流程
提出了三個核心步驟:數據采集、數據處理和數據存儲。
- OmniAgent作為數據采集的核心組件,支持從基礎設施到用戶體驗層各類標準IT資源的統一日志、指標和trace數據的采集。這一步驟確保了數據的全面性和一致性,為后續的數據處理和分析奠定了基礎。
- 對于除了OmniAgent標準數據之外的第三方數據,會議強調了在數據處理階段進行治理的重要性。通過數據治理,可以確保第三方數據也能達到標準化采集的要求,從而與標準數據無縫對接,提升整體數據的質量和可用性。
經過治理的標準數據(包括日志、指標和trace)將統一進入可觀測數據庫。為了便于數據的讀取和分析,推薦使用一套統一的語義CQL(查詢語言)進行數據操作。這種統一的數據處理方式不僅提高了數據處理的效率,也降低了數據使用的門檻。還展示了一個數據處理平臺的整體架構,該平臺涵蓋了統一采集、統一處理、統一存儲和數據應用等多個環節。這一架構的提出,為可觀測數據的統一建設和管理提供了清晰的路徑和方案。
通過OmniAgent和數據處理平臺實現可觀測數據的統一建設和管理,為提升數據質量和應用效率提供了有力的支持。
全鏈路的構成和監控形態
會議提供了一個從服務實例出發,橫縱雙向拓展的完整視角。全鏈路概念的核心在于其橫縱向的全面覆蓋。橫向上,它聚焦于服務調用鏈路關系,通過構建橫向拓撲圖,清晰地展示了服務之間的調用關系和業務場景。縱向上,則以IT基礎設施的物理部署關系為基礎,構建了服務的縱向拓撲圖,讓我們能夠深入了解服務在基礎設施層面的依賴和布局。
- 在監控形態方面,流程圖明確標出了健康性、連續性、可用性和穩定性等關鍵指標。其中,健康性得分高達100分,連續性達到了344天,而可用性和穩定性均獲得了滿分。這些指標為我們提供了服務運行狀態的直觀數據,有助于我們及時發現潛在問題并進行優化。
- 流程圖還詳細列出了應用層、服務層、網絡層、主機層和交換機層等多個層面的業務指標和CMDB關系。這些詳細信息不僅有助于我們深入理解服務的運行環境和依賴關系,還能為我們提供豐富的數據支持,以便進行更深入的分析和決策。
會議提供了一個全面、深入的全鏈路視角,有助于更好地理解和監控服務的健康狀況、可用性和穩定性,從而確保整個系統的正常運行。
云上的全鏈路可視方案
- 全鏈路可視方案概述:該方案旨在實現云上系統的全鏈路可視化,即從系統的輸入到輸出,每一個環節都能被監控和可視化展示。這有助于提升系統的可觀測性,使得運維團隊能夠更快速地定位問題、分析性能瓶頸,并優化系統。
- 全鏈路可視能力架構:
- 架構包含多個關鍵模塊:數據采集、數據處理、數據存儲、數據分析、數據可視化。
- 每個模塊都承擔著特定的角色,共同協作以實現全鏈路可視化。
- 數據采集模塊負責從系統中收集各種可觀測數據,如指標、日志、調用鏈等。
- 數據處理模塊對數據進行清洗、轉換和聚合,以便后續分析和存儲。
- 數據存儲模塊負責保存處理后的數據,以便長期分析和歷史回溯。
- 數據分析模塊對數據進行深入挖掘,提取有價值的信息和模式。
- 數據可視化模塊將分析結果以圖形化方式展示,便于用戶理解和決策。
- 流程圖解析:
- 流程圖從數據采集開始,展示了數據在整個架構中的流動路徑。
- 采集到的數據經過處理后,被存儲到適當的數據倉庫中。
- 數據分析模塊對數據進行挖掘和分析,生成有價值的洞察。
- 最后,這些洞察通過數據可視化模塊以圖形化方式呈現給用戶。
- 方案的價值和優勢:通過全鏈路可視化,運維團隊可以更快速地定位和解決系統中的問題。方案提供了豐富的可觀測數據,有助于深入分析系統性能和用戶行為。
- 應用場景和展望:
- 該方案適用于各種規模的云上系統,特別是微服務架構和分布式系統。
- 隨著技術的不斷發展,全鏈路可視化方案將進一步集成更多的智能分析和預測功能。未來,該方案有望成為云上系統運維的標準配置,為企業的數字化轉型提供有力支持。
?為什么一定是Copilot
- 多因素影響:
- 服務A接口E的Latency延遲告警作為一個示例,說明Copilot需要考慮各種具體的監控指標。
- 不同報障人員對異常的理解和解決方案的差異也被指出,反映了Copilot需要處理的主觀性和多樣性。
- 深層解決方案:代碼優化、緩存以及擴容等可能的解決方案,這些都是在更技術或更深入的層面來處理問題的方法。Copilot可能考慮多種技術手段和策略來應對不同的運行狀況。
Copilot作為一個復雜且多維度的概念,涉及多個難以精確定義的因素,并需要考慮多種解決方案和技術手段。Copilot的目標是作為一個普遍的軟件運行狀況指標,幫助用戶更有效地實現其工作目標。
大模型的Copilot能幫助什么”特別是在智能運維場景中的應用
- 數據處理:
- 大模型能夠協助在數據處理階段進行自動化和智能化的操作。
- 它可以幫助收集和整理來自不同源的數據,提高數據處理的效率和準確性。
- 通過大模型的處理,數據可以更容易地被用于后續的分析和決策。
- 知識推理:
- 大模型具備強大的知識推理能力,可以從大量數據中提取出有用的信息和模式。
- 它可以幫助運維團隊發現潛在的問題和趨勢,從而提前采取預防措施。
- 通過知識推理,大模型還可以提供對復雜問題的深入理解和解釋。
- 決策支持:
- 大模型可以為運維團隊提供決策支持,幫助他們做出更明智、更基于數據的決策。
- 它可以提供對不同選項的評估和預測,幫助團隊選擇最佳的行動方案。
- 通過大模型的輔助,決策過程可以更加快速和準確。
- 大模型的優勢:
- 會議強調了大模型在計算能力、處理復雜問題和提供精確結果方面的優勢。
- 這些優勢使得大模型成為智能運維場景中不可或缺的工具。
- 通過利用大模型,運維團隊可以提高工作效率,減少錯誤,并更好地應對各種挑戰。
大模型在智能運維場景中的應用和優勢。通過大模型在數據處理、知識推理和決策支持方面的能力,在提高運維效率、準確性和智能化水平方面都有很重要的作用。
全鏈路可觀測和Copilot在日志分析中的應用
主要內容集中在如何使用先進的技術和方法來有效地分析和處理日志數據,以實現全鏈路的可觀測性。
- 日志聚類與分類:會議提到了日志的聚類和分類。這是一個重要的步驟,因為通過聚類,我們可以將相似的日志分組在一起,從而更容易地識別出異常或問題。分類則進一步幫助我們理解日志的性質和來源。
- 統計類算法與大模型:接著,介紹了使用統計類算法和大模型來識別日志中的異常。統計類算法可以幫助我們發現日志數據中的異常模式,而大模型(如深度學習模型)則可以對日志進行更深入的語義分析,從而提供更準確的問題診斷。
- 事后排查與日志缺失:還提到了事后排查的重要性。在某些情況下,我們可能無法立即找到相關的日志來診斷問題。這時,事后排查就顯得尤為重要,它可以幫助我們回溯并找到問題的根源。同時,會議也指出了日志缺失是一個需要關注的問題,因為這可能會影響到我們的問題診斷能力。
- LMM Based RESTful API請求:最后,介紹了一種名為“LMM Based RESTful API請求”的技術。這項技術是為了提高日志處理能力而開發的。是一種利用大模型(LMM)來處理RESTful API請求的日志數據的方法,從而進一步提高日志分析的效率和準確性。
全鏈路可觀測性和Copilot在日志分析中的應用。介紹了如何使用日志聚類、分類、統計類算法和大模型來有效地識別和解決日志異常,并強調了事后排查和日志缺失問題的重要性。同時,介紹了一種新的技術來提高日志處理能力。
Chat2Data工具
-
工具的優勢與應用:Chat2Data工具提供了一個便捷的方式來獲取和處理數據,特別是對于非技術用戶來說。它可以應用于多種場景,如系統監控、故障排查、數據分析等。
通過大型語言模型的集成,該工具能夠更準確地理解用戶的意圖,并提供相關的數據或執行相應的操作。 - 未來展望與改進:隨著技術的不斷發展,Chat2Data工具可能會集成更多的功能和智能特性。會提供更多的API接口和數據處理選項,以滿足不同用戶的需求。工具的性能和穩定性也可能會得到進一步的優化和提升。
更好獲取可觀測數據
- 數據可視化:
- 收集到的信息被轉化為可視化的數據報告,這有助于更直觀地理解和分析用戶行為。
- 可視化報告可能包括用戶活躍度、問題類型分布、用戶滿意度等關鍵指標,為優化用戶體驗提供有力支持。
- 查詢功能:該系統還提供了查詢功能,用戶可以通過輸入關鍵詞來查找特定的信息或問題。該系統不僅具備數據收集和分析能力,還能為用戶提供便捷的查詢服務,提高用戶滿意度。
一個旨在提高用戶體驗并更好地了解用戶偏好和行為模式的系統。該系統通過分析聊天記錄來收集用戶信息,并將其轉化為可視化的數據報告。
后端輔助智能診斷系統
- 討論了SQL語句在數據處理和查詢中的作用,以及它們如何支持智能診斷功能。
- 技術細節:會議探討了實現該系統所使用的技術棧,包括數據庫選擇、消息隊列技術、日志分析工具等。
- 應用場景:討論該系統在實際運維或開發環境中的應用場景,以及它如何幫助團隊提高效率或解決問題。
- 未來規劃:最后會議討論該系統的未來發展規劃,包括計劃添加的新功能、性能優化、可擴展性等。
主要圍繞“后端輔助智能診斷系統”的介紹、流程步驟解析、技術細節、應用場景和未來規劃展開。通過流程圖,大家可以更清晰地了解該系統的整體架構和工作原理,以及它在實際運維或開發環境中的應用價值。
這樣的系統能夠顯著提高故障排查的效率,減少人工干預,降低運維成本。
通過提高日志異常判定的準確率來幫助解決故障問題,并具有日志管理和故障記錄與分析的功能。預期上,這樣的系統能夠為企業帶來顯著的運維效率提升和成本降低。
對運維場景中使用自然語言處理技術改善故障分析和解決過程
- 運維場景的挑戰:
- 運維團隊在日常工作中經常需要面對復雜的系統故障,這些故障可能涉及多個組件和層面。
- 傳統的故障分析和解決過程可能依賴于人工排查和經驗判斷,效率較低且易出錯。
- LMM系統的功能:LMM系統具有智能識別特定告警的思維鏈的能力,這意味著系統能夠理解告警背后的邏輯和關聯,而不僅僅是表面的癥狀。LMM系統能夠推薦相應的解決方案,幫助運維團隊更快速地定位和解決問題。
未來展望:隨著自然語言處理技術的不斷發展,運維場景中的故障分析和解決過程可能會變得更加智能化和自動化。LLM和其他類似的公司或組織可能會繼續探索和創新,將更多的AI技術應用于運維領域,以提高系統的穩定性和可靠性。