? ? 信息系統的生命周期涵蓋:設計、開發、測試、部署上線、運行維護。其中,運行維護階段是信息系統生命周期中的關鍵環節,其執行效果直接影響系統是否能達到預期的運行目標。為了實現這個目標,我們必須建立一個以業務服務為導向的專業化運維服務團隊,為行業提供高效、優質的運維服務,確保系統的穩定運行和用戶體驗的優化,最終為行業的高質量發展提供信息化支持。
一、開發與運維的關系
? ?在一個信息系統中,開發是第一步,運維是第二步。軟件系統在開發過程中存在的穩定性問題,在運維階段可能會被放大。從信息系統整個生命周期管理過程來看,80%的基本工作可能發生在運維階段,運維的任務也相對繁多。運維的價值體現在解決開發過程中忽略的問題,如程序本身的性能不優、內存泄漏、結構耦合、日志不規范等,這些問題都會給系統運維帶來許多困擾,還會降低軟件系統的穩定性。在信息系統運維中,我們可以將其運維價值分為三個層次:第一層,提供低成本、高質量、高效、可擴展的基礎運維服務,保證業務持續穩定運行;第二層,通過運維數據的挖掘和分析,為業務發展方向提供決策支持;第三層,提供基礎的IT計算服務,除了服務企業自身,還可以服務外部客戶,進一步為企業創造價值。
? ?從基層職位看,運維和開發的分工有很大的區別。開發主要負責設計和編碼,主要考慮功能和非功能的實現;運維則負責系統上線后的穩定、高效運行。在所需技術上,開發重點在各種開發語言、開發框架、持續集成環境、軟件工程、算法以及對應的業務等方面,對底層的運行環境關注較少,尤其在上云環境后,更少關心負載均衡、高可用等非功能需求。而運維的重點在于系統運行的各種環境,從機房、網絡、存儲、物理機、虛擬機等基礎架構,到數據庫、中間件平臺、云平臺、大數據平臺、安全管控、運維開發(AIOps負責開發運維工具和平臺),其關注點并不在業務流程的設計和實現,而是對這些平臺的使用、管理和優化。
? ?發團隊以信息系統的建設為目標,通過使用軟件開發技術實現業務流程的信息化,只要系統具有預定的功能,能夠支持業務開展,就可以達到目標。開發工作是短期行為,后期優化以軟件為目標對象。而運維團隊以可量化的服務為目標,確保信息系統包含的所有組件能夠正常運行,進一步支持公司業務的正常開展。運維工作是長期行為,是一個持續不斷對服務行為進行優化的過程,服務的目標對象是人與信息系統的結合。
? ?目前流行的DevOps提出“誰開發誰運維、開發運維一體化”,但具體如何實施并沒有明確的說明。特別是“誰開發誰運維”,這明顯是不符合實際情況的。試想一下,一個開發人員開發的應用服務都由他自己來運維,他能運維幾個應用服務?然后又有多少時間能繼續做開發?到最后豈不是所有開發人員都成了運維人員。DevOps開發運維一體化并不是讓開發去做運維,而是使開發和運維通過一些機制有機結合、高效統一,成為一個整體,從而消除開發團隊和運維團隊之間的隔閡,有效提升應用服務的研發和運維運營效率。開發運維一體化追求的是開發和運維的利益一致,而不是一個人既做開發也做運維。這需要通過一定的機制和借助相應的工具等來保證,使開發和運維之間能夠有活動關節、有潤滑劑。開發運維一體化的重點在于提升運維的效率,包括應用、環境、平臺、工具、基礎設施資源等。
? ?術業有專攻,開發與運維各有所長。開發應更專注于業務流程的便利性與自動化,而運維更專注于系統的安全性、穩定性、隱患的預見性、問題的快速排查處理,保障業務的連續性和用戶操作的體驗性。
二、運維服務專業化的體現
? ?讓專業的人做專業的事,是現代社會給所有行業帶來的最有價值的觀念之一。建立專業的運維團隊能夠降低企業在非主業方面的人力成本、管理成本,把最大的優勢和力量放在對企業核心內容的運營和管理上。專業的運維團隊的價值可以通過以下幾個方面體現:
1.??? 運維服務的高優質性:運維服務的體現是我們向行業各級單位的業務操作人員提供高質量的服務,支撐各信息系統的正常運行。服務的本質是規范,并且文明;能讓用戶真切地感知到運維人員的服務態度和體貼入微的技術支持,幫助用戶快速、優質地解決在業務操作過程中遇到的實際問題。
2.??? 運維服務流程的規范性:IT服務管理體系的建立和有效運行,從服務方層面看,體系的建立提供了更好的控制、更高的效率和更多改進的機會;從客戶層面看,體系的建立確保了服務方所提供的IT服務能真正滿足業務需求并保持一致,提高了IT系統的可靠性和可用性,增強了對最佳實踐、目標利益和服務管理中可能的問題的理解,保障了客戶IT系統的持續穩定運行,從而實現了客戶IT投資價值的最大化。通過體系運行標準要求,可以幫助服務提供者在戰略層面和IT服務過程層面設計量化的IT服務績效目標和IT服務管理過程指標,一方面保證了經營結果能達到戰略目標的要求,提高公司IT服務戰略的執行力和IT服務的可持續發展;另一方面,確保能提供滿足客戶需求、符合服務級別的持續可靠的IT服務,并不斷提升IT服務管理的成熟度。
3.??? 運維團隊的高穩定性:運維團隊中的員工流失將會造成工作的被動,有時可能會降低問題的解決速度甚至會影響到用戶的業務正常操作,新加入的員工由于工作經驗有限,且不能快速上手,工作效率也較低,這勢必會造成企業工作質量的下降,從而影響客戶的滿意度。尤其是大批量的員工離職,勢必會造成公司整體服務質量的下降,導致企業客戶滿意度的急劇下降,企業也面臨著危機。有一個穩定的運維團隊將會為行業帶來更多的體驗與價值。
4.??? 運維服務的高滿意度:運維服務的核心是服務,服務的最高境界是達到人性服務和非人性服務,人性服務就是人對人服務,非人性服務就是服務過程中的輔助平臺和設施給人的感受。建立一個專業化運維服務團隊,首先要提高運維服務的服務素質,達到人性服務要求,其次要建立一個專業化的服務平臺,從呼叫中心建設到問題反饋平臺及服務質量監督渠道等,讓所有提出人員能感受到專業和尊重。行業用戶在與這些專業人員交流時能感受到服務的專業性。最終讓信息系統業主方和使用方均滿意。
5.??? 運維服務質量的監督管理:建立運維服務質量監督管理體系的目的是為確保公司提供的運維服務滿足客戶所需的服務質量,尋找公司服務實施過程中存在的問題和缺陷,為服務改進活動的有效實施提供目標和方向,保證組織的服務質量穩定可控并持續提升。通過內部建立的一套質量監控體系和定期用戶滿意度調查雙管其下的方式確保服務質量能夠滿足服務級別要求,確保運維服務滿意度達成,也可以讓用戶放心交給專業運維團隊為行業提供專業服務。做好運維服務質量管理可以有效提升IT運營價值,全面降低IT運維成本,改善用戶體驗,增強企業的口碑。具體來說,對于IT運維服務的供方,需要通過對服務過程能力和服務質量的量化,檢查自身存在的問題和改善的機會,幫助服務組織以最符合成本的方式提供滿足客戶需求的IT服務產品;對于IT運維服務的需方,需要通過對供方IT服務能力的量化評價選擇符合需要的供應商,同時,也需要通過對服務質量的量化來檢驗供方提供的實際服務是否滿足雙方的服務等級。
6.??? 運維服務人員的業務高熟悉度:運維服務人員對業務的熟悉將有助于與用戶進行溝通,熟練掌握業務操作方法將能從業務操作人員的角度去考慮問題,去幫助用戶解決系統可能發生的異常現象,最終能快速應對和解決用戶提出的問題。
7.??? 運維服務人員的高專業性:運維服務人員不僅要具備業務操作能力、問題解決能力、良好的服務態度,更要具備較高的專業性,在操作系統掌握的基礎上,還需掌握計算、網絡、存儲、數據庫、中間件及業務架構方面的知識。運維人員的專業性體現在以下三個核心競爭力上:
- 操作系統原理的掌握:現在很多應用和服務還是運行在Linux或者unix 操作系統上,所以對應出現問題應該怎么去排查,性能怎么去優化,監控怎么去做,而這些都是需要對操作系統原理和架構清楚的,所以操作系統是運維的核心對象,也是最基礎的。
- 業務和架構的深入掌握:運維會負責不同產品,它們之間的區別到底是什么,運維人員需對所負責的業務和架構的深入理解。比如某人是做存儲的,對整個存儲的架構,整個鏈路,底層的理解,以及關聯的存儲網絡、存儲硬件的了解和掌握,是非專業人員不可替代的部分。
- 運維方法論的深入掌握:運維人員要具有一套利用什么知識、用什么樣的方式、方法來解決用戶提出或系統發生的問題。如熟練掌握shell語言,能夠具備腳本編寫能力,提高自動化運維水平;熟練掌握數據庫運行機制,優化參數提高數據庫運行效率;熟練掌握云平臺運行和維護原理,提升云平臺運維水平。
? ? 這些專業技能和核心競爭力的提升能夠快速應對用戶發現的問題和解決系統可能出現的隱患,提升運維服務水平。
8.??? 運維服務的安全性:信息系統的安全性包括硬件基礎設施、軟件漏洞、系統產生的文件或數據、數據通信及接觸系統的人。從各方面都需要有一個專業運維團隊來保障信息系統的安全性。
- 一個專業的運維團隊經過內訓、規章制度和公司文化等方面的培養,對一個公司來說安全是其生存的生命線,將會直接促使員工真正認識到安全的重要性,并能按照安全的要求和管理方式去做任何事,融入到每個員工的內心中。
- 一個專業的運維團隊根據系統的運行特點會提前做好安全保障措施,所有運維人員能按照安全保障措施開展所有運維工作,真正實現安全的落實。
9.??? 高可用的應急預案制定:系統或整個支撐平臺一旦出現了異常,將可能影響某個企業或整個行業的生產計劃執行,對于運維人員來說此時最急于快速給出解決方案恢復系統的運行,如有應急預案將使運維人員能夠輕松應對且能快速給予處理,快速恢復系統可用性,使用戶感知的服務體驗更好。
10.?? 具有系統隱患及業務需求匹配度的高預判性:企業的業務隨著經營變化對信息系統的配置要求也可能發生變化,為了精準的預測到業務變化,需要有一個專業團隊對系統進行監測和分析,并根據業務趨勢去提前進行優化,確保在業務高峰期信息系統能夠順利支撐。系統在開發建設時可能存在一些隱患,在建設時并未意識到可能存在的風險,特別是一個行業性的信息系統,存在的隱患可能影響范圍比較廣,如不能及時發現和改進將會影響整個行業的業務進行。如有一個專業的運維團隊通過運維人員的測試和研究,可以提前發現系統的隱患并給予解決。
三、統一建設系統運維面臨的問題
1.??? 如何處理不同場景下的運維問題:行業針對不同業務建立不同的業務系統,各個業務系統之間有互聯和數據交互,有時可能需要兩個系統去共同去解決才可以解決用戶的問題。如有一個專業運維團隊,他的信念是為行業提供優質的運維服務,他會去協調不同的運維服務商去聯合解決問題。行業系統業務操作水平參差不齊,提出的問題各式各樣,有一個專業運維團隊,統一入口定期會整理行業遇到的共性問題向行業發布;專業運維團隊將會進一步考慮服務的本質,不管是操作水平低的還是高的服務水平要保持一致,不會因人而異。
2.??? 如何保障用戶的服務質量:服務質量的有效保障,對一個信息系統的運維的目的和意義來說是不言而喻的。有一支專業運維團隊按照ISO20000和ISO9001體系去運行和管理是可以保障業主方的服務質量。
3.??? 如何保障行業信息數據安全:非專業運維團隊由于人員流動、安全意識宣貫、安全監督體系缺失,如給行業提供運維服務將可能面臨核心系統數據泄露安全風險。行業自有專業運維團隊將會大大降低信息安全風險。
4.??? 如何選擇運維模式:行業現在有多種運維模式存在,如:行業統一管理、管家式運維、行業各企業自行管理、統一和分散相結合的管理,自主運營、混合運營、全外包服務或半外包服務的方式、行業內自建公司運營等。行業統建系統如何選擇運維模式,更好的為行業提供高效、優質的運維服務,是我們值得思考和亟需解決的問題。
四、總結
? ? 以行業用戶業務為中心,不斷提升服務質量,提升行業最終用戶體驗,不斷提升運維效率,提高系統管理的效能為目標,建立一支為行業服務的專業運維服務團隊將能真正實現IT系統的價值運維、效率運維、可度量運維和安全運維。
? ? 價值運維:通過端到端的維護過程,關注終端用戶的體驗,優化對核心業務的質量保證,體現運維的價值。
? ? 效率運維:對系統管理的效率,如故障處理,日常巡檢等技術類效率,對運維人員,運維流程等的管理效率,從而實現對系統運維效率的控制。
? ?安全運維:實現系統運維的安全,運維人員的安全,信息和數據的安全。
? ?以上的論述清晰地描繪了建設專業化運維服務團隊的必要性,它不僅能夠提高信息系統的穩定性和用戶體驗,還能夠為行業的高質量發展提供信息化支持。這就是我們需要建立專業化運維服務團隊的原因。