一切的變化來自于數據中心規模、復雜度、設備多樣性的挑戰,將運維平臺的重要性推向歷史高點。
此外,基于業務連續性方面的考慮,分布式數據中心成為越來越多客戶的選擇。
一、數據中心面臨的挑戰
運維管理分散,缺乏統一的管理
IT 建設“各自為政”,缺乏統一的管理規劃,服務器、存儲、網絡等 IT 資源與虛擬化平臺等信息分散,系統無法集中統一管理,無法實現全棧軟硬件集中管理和自動維護,運維管理成本高。
告警管理效率低
管理對象和監控指標覆蓋不全,告警信息無法統一管理,重要告警易遺漏,告警處理效率低下,系統風險與日俱增。
缺乏全局視圖
各設備管理界面分散,缺乏全景視圖,難以挖掘優化點,無法有效支撐數據中心運營分析。
故障定位困難
隨著數據中心和業務規模擴大,網絡復雜度不斷增加,一旦出現業務故障,端到端拓撲梳理耗時長,故障定位困難,影響業務系統可用性。
二、數據中心全棧運維功能需求
1、全棧監控
數據中心軟硬監控一體化,實現故障快速定界定位。由于不同組織共用底層基礎設施, 支持多租實現資源隔離。
2、日常運維
可視化大屏、報表的訴求,日常運維、上層匯報展示、參觀展示均為主要使用場景。
日常運維 TOP 需求包括:虛擬機間流量監控、報表大屏、流程平臺對接、自動根因分析、故障快速恢復、資源動態調整。
統一監管
數據中心 IT 資源種類繁多,從服務器、集中式存儲、分布式存儲、 IP 交換機、交換機等硬件基礎設施,到虛擬化、容器等資源服務,再到 SDN 等高階特性,數據中心運維平臺需具備軟硬件全棧的統一納管能力,實現全棧資源的統一納管、統一門戶、統一運維、統一運營。
運維可視
數據中心的各種運維數據存儲在不同的 IT 系統中,為滿足日常運維的一屏統攬、客戶或上級的參觀展示以及數據中心的運營分析需求,需要將分散的運維數據集中展示,釋放數據價值。數據中心運維平臺需支持對設備性能指標、告警事件、資產配置等數據的融合關聯,通過大屏或報表進行全方位的展示。大屏及報表需預制多種模板,方便運維人員的一鍵式導出;同時還需支持個性化定制,幫助運維人員隨需掌握數據中心狀態信息。
智能運維
對于日常運維,傳統的運維方式多為被動等待問題出現后定位解決,而結合智能容量預測、智能風險檢測等功能,可以提前發現問題風險并將風險消減于萌芽之中。對于故障定位,傳統的運維方式需要卷入多設備的運維人員,人工梳理排查網絡拓撲,在當下越發龐大和復雜的數據中心中顯得效率尤為低下,通過運維平臺提供的智能關聯分析和智能拓撲梳理,可以快速且自動化地定位到問題關鍵點,故障定位時間縮短到分鐘級。
資源高效發放
數據中心基礎設施的計算、存儲、網絡等資源被不同的部門或用戶使用,面對不同用戶發起的資源申請需求,運維人員需頻繁按照需求為用戶發放資源,此時如若運維平臺的資源發放過程效率低下、依賴于大量手工步驟,那么對于運維人員的日常工作必然造成困擾。以一個典型的 IOE 架構下的虛擬機發放過程為例,虛擬機的發放需要分別接入存儲、網絡、虛擬化平臺的管理界面執行十數個步驟的手工操作,步驟繁雜且容易出錯。
因此,數據中心運維平臺需要支持資源的高效發放,從人工執行轉變為自動化執行,從十數個步驟轉變為一鍵式自動編排,從而滿足日常的業務發放需要。
結合上述關鍵功能需求,面向全場景的數據中心全棧管理平臺需具備融合、智能、開放三大能力:
融合
數據中心全棧軟硬件管理:統一監控管理分支 - 中心多 DC 內的服務器、交換機、存儲設備、虛擬化等資源, IT 人員通過一個“界面”完成日常運維管理工作,統一體驗,提升效率。
統一告警:軟硬件告警統一實時監控與通知,幫助運維人員及時發現問題。
智能
智能風險預警:通過 AI 實現智能風險預測,故障提前預知,問題一鍵閉環。
智能性能關聯分析:對虛擬機、虛擬網卡、虛擬磁盤、數據存儲等的性能問題智能關聯分析,快速定界性能瓶頸。
智能拓撲分析:智能拓撲梳理,圖形化輔助根因分析,問題定界定位小時級縮短到分鐘級。
開放
開放生態:南北向廣泛兼容,北向支持對接三方云管,南向支持多廠商設備管理、異構資源池納管。
自定義報表:掌控全網資產、資源、業務運行狀況,幫助運維決策、定期匯報。
自定義大屏:預置大屏和自定義能力滿足日常參觀、重點業務監控保障等訴求。
LinkSLA智能運維管家--更好的運維幫手
統一的、全棧的、智能的數據中心運維管理體系已成為當今用戶數據中心運維的普遍需求。LinkSLA智能運維管家在全棧統一管理的基礎上,結合業務高效發放以及 AI 技術賦予的智能故障定位、提前風險預知等能力,相信數據中心運維平臺將快速從人工走向自動,最終走向全場景“自治”。