衡量標準是IT服務管理的核心,可提供有關運營的見解,并幫助確定需要持續改進的領域。通常的服務臺指標有助于展示內部運營效率。例如,衡量在規定時間內解決問題的工單數量的 SLA 是展示服務臺效率的關鍵因素。另一方面,故障指標可幫助團隊找出 IT 基礎設施中的薄弱環節,并幫助評估對故障事件的響應。這有助于 IT 團隊最大限度地減少故障可能對關鍵系統造成的連帶影響。
需要跟蹤的關鍵失敗指標是什么?在本文中,我們將看到探討以下三個關鍵績效指標:
1、平均無故障工作時間(MTBF)
當 IT 基礎設施資產(無論是網絡、服務器還是工作站等)頻繁發生故障時,會對 IT 和業務服務的可用性產生連帶影響。這些中斷會導致收入和聲譽的損失。如果某項 IT 資產經常出現故障,通常需要進行維修或更換。在此之前,調查并了解資產經常宕機的原因,以及是在什么情況下宕機,有助于制定資產維護計劃,提高系統可用性。
平均無故障工作時間(MTBF)是幫助確定宕機原因的指標,有助于減少宕機時間或制定快速恢復計劃,提高 IT 系統的可用性。如果某項 IT 資產的 MTBF 很低,就意味著該資產會經常停機,導致 IT 和業務中斷。
MTBF 示例
在一家企業中,每當應用新的 Windows 固件更新時,存儲驅動器的新更新總是失敗。這種情況發生了幾次,平均無故障工作時間變得越來越短。在對問題進行分析后,團隊確定是第三方驅動程序導致執行更新所需的 API 無法實施或存在故障。當計劃進行新的更新時,如果第三方驅動程序沒有實施必要的 API,有兩種可能的解決方案可供探索。比如將 API 與 SATA 和 NVMe 存儲協議的 Windows 替代方案進行交換,或從原始設備制造商處獲取新的、更好支持的驅動程序版本,都有助于實施更新、修復漏洞并堵塞安全漏洞。監控和跟蹤驅動程序升級以及停機時間都有助于提高存儲驅動器的可用性。
如何提高 MTBF
實施觀察資產健康狀況的流程,以跟蹤和監控故障,有助于找出故障原因。
分析問題的根本原因,以提高認識、解決長期原因并提高資產性能。
制定快速反應戰略,有效解決并減少影響運營的停機時間。目標是減少停機次數,延長停機時間。
2、平均失效前時間(MTTF)
資產經常出現故障會中斷企業的 IT 運營,導致 IT 基礎設施性能下降。MTTF 指標有助于確定資產、設備或組件的使用壽命。對于 MTTF 較低的 IT 資產和組件,通常更換 IT 組件比修復組件更省時,并能最大限度地降低運營影響和成本。
這尤其適用于與基礎設施關鍵運行元素(如大型機服務器堆棧或網絡接入點)相關聯的 IT 組件。如果資產的 MTTF 不理想且經常出現故障,則表明 IT 資產不可靠,需要頻繁更換,以免影響 IT 運營。
MTTF 示例
在一家 IT 軟件開發公司,當數據和網絡服務器堆棧中的交換機連接或斷開電纜時,網絡電纜就會松動、斷開或損壞。由于數據傳輸中斷,導致文件損壞。網絡團隊的進一步分析表明,CAT6 RJ45 跳線上的無卡塑料蓋不斷斷裂。這是因為電纜是從使用廉價材料的制造商那里采購的。隨后,IT 團隊用質量更好的電纜替換了舊電纜,以確保今后移動電纜時不會出現數據丟失或損壞等問題。這是一個典型的例子,但定期跟蹤電纜的 MTTF 有助于 IT 團隊了解關鍵資產(如組件)的影響,從而就維修和更換做出明智的決策。
如何提高 MTTF
通過采購高質量的資產和停用低質量、低成本的資產來延長資產的使用壽命。
通過定期檢查與關鍵資產相關的組件,防止大規模中斷業務運營。
實施及時庫存流程,估算資產的運行時間,從而降低資產存儲的間接成本。
3、平均修復時間 (MTTR)
當關鍵 IT 系統發生故障時,IT 團隊必須盡快恢復系統運行。延遲恢復 IT 系統會導致收入損失并影響關鍵業務運營。一個組織良好的恢復和響應系統可以幫助 IT 團隊應對計劃外停機,并有效地恢復運行。MTTR 衡量的是修復資產或排除故障并使其恢復運行能力所需的平均時間。
停機成本隨著 MTTR 的增加而增加。MTTR 高說明恢復和響應操作不夠迅速有效。系統故障是不可避免的,但 MTTR 能讓團隊對資產故障做出及時和戰略性的反應。
MTTR 示例
一家軟件公司正在開發的一款視頻游戲因代碼漏洞而遭到零時差攻擊。這次攻擊破壞了 Wi-Fi 和監控系統等操作。這導致攻擊者訪問了組織的網絡域和機密業務文件。網絡安全團隊告知員工有關零日攻擊的信息,以及他們可以在哪里報告這些攻擊。該組織的所有 IT 資產都配備了下一代殺毒軟件 (NGAV)。這次攻擊導致局域網和員工自助服務門戶癱瘓,使組織的運營陷入癱瘓。在攻擊發生后一小時內,網絡安全團隊得到了 NGAV 的通知和幫助,NGAV 利用威脅分析和用戶行為模式,識別出了可疑活動。網絡安全團隊立即運行補丁管理腳本,修正了代碼中的漏洞,并鎖定了內部網絡,以避免進一步影響運營和數據竊取。
如何降低 MTTR
通過識別瓶頸、指定資產維修或更換,實行高效的資產管理戰略,有助于推動更好的決策,還能夠可以節省資金和存儲空間。
明確技術人員的責任和角色,簡化事故檢測和解決流程。
為技術人員提供詳細的標準操作程序,以減少停機期間的誤傳和混亂。
使用集中管理資產維護和監控信息的企業資產管理解決方案來衡量 MTTR。這還有助于優化資產利用率、收集資產數據和預測可能的停機時間。
結語
這些指標可幫助團隊識別運營中的瓶頸及其對事件的響應能力,它們通過準確定位持續性事件的根本原因,幫助 IT 團隊實現更高的運營效率。IT 團隊可以清楚地了解 IT 運營受到影響的領域,從而改進其事件響應策略。企業可以將這些指標作為關鍵績效指標而不僅僅是績效目標來實施。這些指標指出了流程簡化和運營改進的領域,而不僅僅是要達到的目標。