隨著云原生技術的快速發展,越來越多的業務實現了上云,云原生團隊在工作量增大的同時也隨之變成了所有問題對接的入口,如何承擔這個保姆的角色成為了一道難題,故障的定界和問題證據的交接更是讓人頭疼的問題。在這種情況下需要有工具幫助云原生團隊快速完成故障的定界與故障的根因分析,并進行相關數據證據整理收集,做好接棒和交棒工作,才能擺脫保姆角色,實現加量不加價。
面臨的挑戰?
一方面要支撐新業務的快速上線,另一方面又要保證穩定性。云原生團隊也逐步成為底層基礎設施的供給方,就變成了有了問題先找云原生團隊看看再說,導致公司內云原生團隊在同等團隊資源情況下承擔了越來越多的工作壓力,而且常常忙于疲于應付來自各方的問題。
-
故障的定界與根因定位困難:?隨著業務規模的擴大,系統故障變得更加復雜,團隊需要更快速、更準確地定位故障,并找到問題的根本原因,以便有效解決問題。
-
問題證據的交接不清:多團隊協作中,由于故障處理和交接不夠清晰,導致問題的處理難以延續和交接,增加了團隊間溝通和協作的難度。
-
工作量劇增:團隊需要處理更多的容器部署、監控、維護和故障排查工作,使得團隊工作量急劇增加。
-
資源限制:?雖然工作量增加,但團隊的資源并沒有得到相應的增加,這導致團隊面臨了資源不足的挑戰,如人手不足、時間緊迫等。
AiOps無法解決核心問題
目前也有很多團隊通過引入AIOps相關工具來試圖解決眼下的問題,它的引入也確實幫很多團隊解決了很多自動化、智能化運維的問題。但是由于當前AIOps的概念是過大的,導致沒有清晰的產品邊界和落地的核心能力項,另一方面現有很多產品并不能給出其推理根因的證據鏈數據,使得相關團隊在實際處置中仍需要人工介入。
-
結論的可解釋性:?AIOps給出概率性的故障定位和根因分析,但并不能給出可解釋的結論,同時也不能根據結論立即采取行動,仍需要人工介入梳理。
-
無法進行故障定界與流程閉環:多團隊協同工作中,仍需要相關數據及進行佐證并進行工作的交接,才能形成排障流程的閉環。同時故障處置需要可行動的結論才能夠展開,目前仍都需要人工參與。
-
專家經驗的重要性:在涉及到特定領域的復雜問題時,AIOps 的結論仍需要相關領域的專家進行分析和驗證。
在引入了很多工具后往往沒有從根本上幫助團隊提高能效,反而增加了學習成本和新的維護項。
需要有工具能夠指明方向
?
Kindling-OriginX 通過自動化分析每條 Trace,找出 Trace 中節點 Span 突變的根因,并自動關聯各種數據生成可行動、可解釋的故障根因報告。相關團隊可以由此快速完成故障的定界與數據證據收集,即可迅速展開標準化排障處置與故障問題交接。將云原生團隊從保姆的角色中解放出來,能夠將更多精力放在基礎設施能力建設,為業務方提供更高效穩定的云原生技術底座。
?結語
在云原生團隊承擔更多責任和職能的情況下,如何保證工作效率和質量是一個目前亟待解決的問題。Kindling-OriginX 的思路是通過自動化分析每條 Trace,找出 Trace 中節點 Span 突變的根因,關聯各種數據證明推理的準確性,讓團隊能夠更加清晰地完成故障定界與根因分析,為業務方提供強有力的支撐,幫助團隊實現加量不加價。
相信隨著技術的發展會有更多的工具和方法能夠幫助到云原生團隊來更好地應對各種挑戰,也歡迎大家和我們一起討論自己團隊面臨的挑戰與解法。