龍蜥社區“走進系列”第 11 期走進中興通訊-智能可觀測運維技術 MeetUp 于成都圓滿結束,由中興通訊聯合龍蜥社區系統運維聯盟(SOMA)(以下簡稱“聯盟”)共同舉辦。本次活動現場匯聚了阿里云、諧云科技、乘云數字、中興通訊、云杉網絡、浪潮信息等企業和社區資深技術專家們,圍繞大模型、可觀測性、智能機器人、SysOM?等熱門話題,和我們分享系統運維硬核技術、優化實踐等干貨,本次活動線上觀看人次 3 萬+。
(圖/活動現場合照)
會議伊始,龍蜥社區系統運維聯盟主席馮富秋介紹了本次 MeetUp 的全程安排。他表示龍蜥社區系統運維聯盟作為運維技術創新的前沿陣地,承載著雙重使命:第一通過強化聯盟與各成員單位間的協同合作,打造出運維能力躍升新引擎;第二,致力于制定并推廣運維產業標準,為用戶提供一盞明燈,讓他們清晰洞悉市場運維水準的現狀與未來趨勢。同時,他也詳細介紹了聯盟當前的工作進展,強調通過聯盟,牽引國內系統運維健康、有序、領先的發展。
(圖/馮富秋)
接著,龍蜥社區系統運維聯盟副主席、中興通訊操作系統產品部副部長蔣學鑫表示,作為本次大會的承辦單位,中興通訊持續為聯盟的運作提供了資金、服務和技術的支持,在操作系統運維領域積極參與共建,為聯盟成員做好服務,助力聯盟健康發展。同時,中興通訊也是龍蜥社區副理事長單位,秉承開發合作,共創共贏的理念積極參與社區建設,力爭打造國內社區生態底座,促進社區繁榮發展。
(圖/蔣學鑫)
致辭結束后,進入技術分享階段,9 位技術大咖分享了大模型、智能機器人、可觀測性等運維領域的前沿技術。
諧云科技技術總監蔣玉芳就諧云科技在容器化架構下,如何利用可觀測技術實現應用性能和資源優化的一些探索進行了分享。她詳細闡述了容器環境下應用性能影響的第一性原理,并分析了 CPU、IO、內存在容器環境中對應用性能的影響。蔣玉芳分享了相關的性能優化具體案例和常用的應用性能優化手段,并提到通過 eBPF 技術實現共享指標采集,為應用性能優化以及資源優化提供基礎支持。資源優化方面,她介紹了諧云在應用混部方面的實踐,講述了如何利用算法構建應用性能畫像,并通過自定義擴展調度、智能 HPA 以及 VPA 等資源優化方案,提升資源利用效率。
(圖/蔣玉芳)
企業面對多樣化的監控需求,往往采用購買不同專業產品的“數碼時代”模式,但這種模式在云原生、微服務、容器化等新技術環境下顯得力不從心。杭州乘云數字技術有限公司運營副總裁張懷鵬會上分享了《如何打造開放領先的可觀測性數據底座》演講。乘云數字提出了構建可觀測性數據底座的理念,以實現數據融合和自由開發應用。通過統一數據模型和統一組織構建的思路進行設計指導,全面擁抱 OpenTelemetry,確保了與業界生態的緊密接軌。通過 OneGate 高度自動化治理引擎實現多源異構的數據治理。基于自主研發的 MoreDB 和 TracingX ,在時序數據和鏈路數據的存儲處理上降本增效。基于這套開放領先的可觀測底座,提升監控數據質量,不斷的開拓應用場景,包括但不限于 NGAIOps、IoT、故障預警、云網空間地圖等等高級分析能力。可觀測底座是打破傳統監控孤島,實現由 IT 進階到 DT 數據驅動場景分析的必備基建。
(圖/張懷鵬)
中興通訊系統工程師黃軍華分享了《組裝式 OS 可靠性增強組件實踐》。他表示,越來越多的場景對可靠性有更高的要求,如基站、衛星、工業網關、智能汽車等,而當前 Linux 聚焦資源管理機制的實現,不重點關注資源使用策略導致的異常,其主要提供了硬件的可靠性處理,整體上沒有體系化的管理手段。同時對于操作系統而言,可組裝的定制功能將能在不同的場景下最大化功能價值。面對可靠性增強的需求和挑戰,中興通訊進行了組裝式 OS 可靠性增強組件實踐,充分覆蓋系統各類亞健康事件,并進行對應策略處理,盡可能保障系統的可靠運行,同時提供必要的維測信息,方便后續故障定位。設計上采用可組裝思路,利用 ftrace、kprobes 及 eBPF 技術進行功能解耦,可以很好地滿足多場景下 OS 可靠性增強需求。
(圖/黃軍華)
用 AI 實現 Ops 解決運維困境,一直是 IT 界的夢想。DeepFlow 解決方案負責人李飛分享了《零侵擾數據能力,構建可觀測性智能體的基石》。他表示,自從以 GPT 為代表的大模型出現之后,用?AI 實現 Ops 解決運維困境的夢想看起來實現近在咫尺,但 AIOps 發展的核心瓶頸是數據。現階段的運維體系存在大量的數據盲區、數據孤島、數據關聯等問題,運維診斷更多的是依靠經驗、猜測、直覺和靈感,而不是依靠數據。數據的問題導致運維診斷工作難以模型化,AIOps 技術發展緩慢。云杉網絡開發的 DeepFlow 可觀測性平臺,聚焦于解決運維數據中的盲區、孤島等核心問題,通過 eBPF 技術帶來的零侵擾、全棧采集能力消除數據盲區,通過 AutoTagging 技術帶來的高性能數據統一標注能力消除數據孤島,以高質量的可觀測性數據體系構建基于數據的運維能力,消滅運維中的猜測、直覺和靈感,打造 AIOps 落地應用的穩定基石。DeepFlow 可觀測性數據結合大模型 AI 能力,在廣泛拓撲分析、海量指標分析、復雜函數性能剖析等運維診斷中已經取得令人驚艷的效果表現。當前,?DeepFlow 可觀測性平臺正在探索全生命周期的 AI 運維技術,探索通過? eBPF 技術將“可觀測性+ AI”延伸到包括智能駕駛、智能工廠等更廣泛的領域。
(圖/李飛)
SysOM 作為社區與阿里云聯合推出的開源運維平臺產品,針對傳統監控場景中用戶的痛點以及運維的“碎片化”帶來的問題,發布系統健康分和 Livetrace 熱點進程分析功能。阿里云產品專家周絮、阿里云高級技術專家毛文安共同分享了《SysOM 健康度和 Livetrace 的評測方法探索》。周絮表示,相比于傳統監控指標,健康分旨在分別通過飽和度、延遲、負載和錯誤形成統一的評分標準來指導用戶分層來展示系統健康程度并定位系統健康問題。Livetrace 作為一種先進的操作系統級性能分析方法,能夠通過不斷地監測操作系統、容器運行環境以及應用程序等多個層次的性能指標,深入揭示整體性能瓶頸。借助 Livetrace,軟件的性能管理更加穩健,性能表現的可預測性得到顯著提升。毛文安介紹了系統運維聯盟的主要工作為建立運維相關的標準以及對業務和運維平臺的評測系統。如系統健康度評分標準、網絡觀測標準、持續剖析 Continues Profiling 標準、北極星指標定界標準;并通過詳細分析健康度涉及的資源、性能、錯誤等聚合指標的四類評測方法。
(圖/從左至右:周絮、毛文安)
浪潮電子信息產業股份有限公司產品架構師張鑫分享了《某國有銀行大規模帶外監控管理技術實踐分享》。張鑫指出,隨著數據中心設備量的不斷增大,傳統基于帶外通道的監控方式面臨諸多挑戰。為此,他介紹了一種創新的系統架構,即多采集器、多分析器及微服務分布式架構。該架構以資源為作業單位,根據不同類型的作業實施差異化的數據采集與監控周期,從而顯著提升了采集效率,降低了系統負載,并有效減少了數據延時。這一創新方案為數據中心的運維管理提供了更加全面、細致的數據支持,充分展現了浪潮電子信息產業股份有限公司在大規模帶外監控技術領域的創新實力與豐富經驗,也為行業提供了新的發展思路和實踐路徑。
(圖/張鑫)
中興通訊系統工程師況明富分享了《調測容器實踐》。在生產環境中的同一節點上,?通常都承載運行著大量的業務容器,但由于業務鏡像大小以及資源限制,業務容器內通常不會預先部署調測工具及環境。這導致一旦容器內部出現問題時,業務容器就缺乏有效的調試工具。另一方面,生產節點的宿主機系統上也往往欠缺必要的調試工具及環境,調試工具的部署和使用受到限制。?為保障問題出現后,快速的部署所需的調試工具及環境,提高調試工具的部署效率,況明富提出了將調測工具打包到一個容器內,以容器的方式完成調試環境的"一鍵式"部署。?調試容器部署后,即可在調測容器內對業務容器或主機系統上的目標的調測,所有的調測活動都可以在此調測容器中進行,使用完后清理此調測容器即可,這樣也可避免對主機環境產生污染。這種基于容器的調試方式和策略不僅提高了問題診斷的速度和效率,同時也減少了對生產環境的影響,體現了中興通訊在容器技術和運維實踐方面的先進理念和技術實力。
(圖/況明富)
阿里云技術專家陳詩雁分享了《基于 LLM Agent 的智能診斷機器人》。智能運維是運維技術發展的必然趨勢,智能運維機器人可以把問題、告警處理流程、知識庫、診斷工具等融合在一起,給運維人員更好的運維體驗,高效協助運維人員診斷和解決問題。陳詩雁介紹了系統運維的現狀和難點、智能對話機器人的發展、大模型在系統運維的應用、基于大模型智能體的診斷機器人設計,并演示了 SysOM 智能診斷機器人。智能機器人和運維平臺是相輔相成的關系,運維平臺的診斷能力成就了智能機器人解決實際問題的能力,智能機器人幫助運維平臺更好地發揮和展示運維能力。
(圖/陳詩雁)
除了硬核技術和實踐案例分享外,現場還準備了精美茶歇和伴手禮:
最后,感謝本次活動各位嘉賓的精彩演講,也感謝中興通訊及龍蜥社區伙伴成員:徐立鋒、楊光、胡捷、李康雅、毛文安、金美琴、蔡佳麗、劉寅、孫林林、林莉、池福睿、陳昊楠、陳曉源、馮艷、劉洪村、李鵬、李興、劉家瑜、宋夢芝、解潞丹、周峻葦、王天助、袁艷桃(以上排名不分先后)等人的組織與配合,也特別感謝?DeepFlow 社區、乘云數字、51CTO、閱碼場等媒體/企業對本次活動直播的支持,有各位的辛苦付出,使得 MeetUp 活動圓滿結束。
課件、視頻獲取:
本次活動技術 PPT 已上傳,關注龍蜥公眾號【OpenAnolis 龍蜥】,回復“龍蜥課件”獲取。視頻回放將會盡快上傳至龍蜥官網(動態-視頻-龍蜥MeetUp)。
—— 完 ——