第3章 信息系統設施運維
信息系統設施是支撐信息系統業務活動的信息系統軟硬件資產及環境。
第1節 信息系統設施運維的管理體系
信息系統設施運維的范圍包含信息系統涉及的所有設備及環境,主要包括基礎環境、硬件設備、網絡設備、基礎軟件等。
信息系統設施運維的對象: 基礎環境、硬件、網絡、基礎軟件等。
基礎環境:主要包括信息系統運行環境中的空調系統、供配電系統、通信應急設備系統、防護設備系統等,能維持系統安全正常運轉,確保機房環境滿足信息系統運行要求的各類基礎設施。
網絡:主要包括通信線路、通信服務、網絡設備及網絡軟件。
硬件:主要包括服務器、安全設備、存儲備份設備、音視頻設備、終端設備及其他相關設備等。
基礎軟件:主要包括操作系統、數據庫系統、中間件及其他支撐系統。
信息系統設施運維的內容: 主要包括信息系統設施的例行操作運維、響應支持運維、優化改善運維和咨詢評估運維等內容。
信息系統設施運維的制度:
按照運維對象主要有機房管理制度、網絡基礎設置管理制度、子網管理制度、數據存儲設施管理制度、基礎軟件管理制度等;
按照運維過程管理主要有設施運維人員和崗位職責管理制度、外來維護人員管理制度、運維記錄管理制度、設備巡檢、維護作業計劃管理制度等。
信息系統設施運維的人員: 包括管理人員、技術支持人員和具體操作人員。
第2節 信息系統設施運維的環境管理
1.計算機機房設計
計算機機房的選址要求:
地理位置一般應選擇水源充足,電力比較穩定可靠,交通通信方便、自然環境清潔;遠離粉塵、油煙、有害氣體以及生產或貯存具有腐蝕性、易燃、易爆物品的工廠、倉庫、堆場等;遠離強振源和強噪聲源;避開強電磁場干擾,遠離強電強磁設施,如無法避開,應采取有效的電磁屏蔽措施。
機房應選擇堅固、寬敞、潔凈、通風、有防雷擊設施等條件較好的房間。應經可能選用除頂層和底層以外的房間。面積最少不低于60平方米。
計算機機房的布局要求:
一般應該由主機房、基本工作間、第一類輔助房間、第二類輔助房間、第三類服務房間等組成。
系統的各種設備宜采用分區布置,一般可分為主機區、存儲器區、數據輸入區、數據輸出區、通信區和監控調度區等。
主機房內通道與設備間的距離應符合下列規定:兩相對機柜正面之間的距離不應小于1.5米;機柜側面或不用面距墻不應小于0.5米,當需要維修測試時,則距墻不應小于1.2米;走到凈寬不應小于1.2米。
計算機機房的建筑要求:
電子計算機機房的建筑平面和空間布局應具有適當的靈活性,主機房的主體結構宜采用大開間大跨度的柱網,內隔墻宜具有一定的可變性。機房各門的尺寸均應保證設備運輸方便。
電子計算機機房宜設單獨出入口,通道凈寬不應小于1.5米。
電子計算機機房的耐火等級應符合現行國家標準的規定。
計算機機房的室內裝飾要求:
主機房室內裝飾應選用氣密性好、不起塵、易清潔,并在溫、濕度變化作用下變形小的材料,并應符合下列要求:墻壁和頂棚表面應平整,減少積灰面,并應避免眩光;應鋪設活動地板,活動地板應符合現行國家標準;活動地板下的地面和四壁裝飾,可采用水泥砂漿抹灰;吊頂宜選用不起塵的吸聲材料。
機房應遠離噪聲源,當不能避免時,應采取消聲和隔聲措施。
2.計算機機房的環境條件
溫度、濕度、照明、防塵、防靜電、防磁、防雷、防強光、防有害氣體、防水、防鼠。
3.電氣系統
電氣系統基本要求: 保證計算機系統運行的可靠性、保證計算機系統的設計壽命、保證信息安全的要求、保證計算機操作人員的工作環境。
供配電系統:
計算機機房設計時計算機電源應該使用專用的線路,不要與其他大功率電器一起使用。供配電系統應考慮系統擴展、升級的可能,并應預留備用容量。
供配電系統設計應該注意以下事項:機房容量較大時,應設置專用電力變壓器,容量較小時,可采用專用低壓饋電線路供電;電子計算機電源設備應靠近主機房設置;機房內其他電器的電力負荷不得由計算機主機電源和UPS供電,主機房內為計算機設備宜設置專用動力配電箱,與其他負荷應分別供電;單相負荷應均勻地分配在三相上,三相負荷不平衡度應小于20%;計算機電源系統應限制接入非線性負荷,以保持電源的正弦性。
設備選型:
計算機設備的供配電特性,應注意以下幾點:專用配電箱內保護和控制電器的選型應滿足規范和設備的要求;專用配電箱應有充足的備用回路,用以計算機系統的擴容;專用配電箱進線斷路器應設置分離脫扣器,以保證緊急情況下,切斷所有用電設備電源;專用配電箱設置電流、電壓表以監測三相不平衡度;專用配電箱設置足夠的中線和接地端子。
綜合布線:
綜合布線時應該注意以下幾點:電子計算機機房的電源進線應按照規范采取過點壓保護措施;主機房活動地板下部的低壓配電線路宜采用銅芯屏蔽導線或銅芯屏蔽電纜;主機房活動地板下部的電源線應盡可能地遠離計算機信號線,避免并排敷設,應采取相應的屏蔽措施;照明配線宜穿鍍鋅薄壁銅管保護。
接地系統:
電子計算機機房接地方式概括來講,可以分為兩類,一類是系統接地,一類是屏蔽接地。
接地方法主要有兩種:一是接地棒法;二是埋設銅板。
4.空調系統
主機房必須維持一定的正壓。主機房與其他房間、走廊間的壓差不應小于4.9Pa,與室外靜壓差不應小于9.8pa。
空調系統的新風量應取下列3項中的最大值:室內總送風量的5%;按工作人員每人400/h;維持室內正壓所需風量。
空調設備的選擇應該符合運行可靠、經濟和節能的原則。
5.消防與安全系統
計算機機房設計時可以根據消防防火級別來確定機房的設計方案,建筑物內首先應具備常規的消防栓、消防通道等,按機房面積和設備分布裝設煙霧、溫度檢測裝置、自動報警警鈴和指示燈、自動/手動滅火設備和器材。
6.系統支撐環境的參照標準
在進行信息系統支撐環境的構建過程中,可以部分參考下列標準進行:國家標準、建筑部分參照標準、電力保障部分參照標準、綜合布線部分參照標準。
第3節 信息系統設施運維的內容
信息系統設施運維的內容可分為例行操作運維、響應支持運維、優化改善運維和咨詢評估運維。
1.例行操作運維
例行操作運維是指設施運維人員通過預定的例行服務、以及時獲取運維對象狀態、發現并處理潛在的故障隱患、保證信息系統設施的穩定運行。
例行操作作業包括: 設施監控、預防性檢查和常規操作三種類型。
設施監控: 設施監控是指通過各類工具和技術,對設備的運行狀態進行記錄和分析,從而及時發現故障,以便于進行故障的診斷與恢復。設施監控包括:基礎設施的監控、網絡設施的監控、硬件設施的監控、基礎軟件的監控。
預防性檢查:預防性檢查是在信息系統設施監控的基礎上,為保證信息系統設施的持續正常運行,運維部門根據設備的監控記錄、運行條件和運行狀況進行檢查及趨勢分析,以便及時發現問題并消除和改進。主要包括性能檢查和脆弱性檢查。
常規操作:常規操作運維是對信息系統設施進行日常維護、例行操作,主要包括定期保養、配置備份等,以保證設備的穩定運行。
2.響應支持運維
響應支撐運維是運維人員針對服務請求或故障申報而進行的響應性支持服務,包括變更管理、故障管理等。
響應支持作業包括: 事件驅動響應、服務請求響應和應急響應。
事件驅動響應:是指由于不可預測原因導致服務對象整體或部分功能喪失、性能下降,觸發將服務對象恢復到正常狀態的服務活動。
服務請求響應:是指由于各類服務請求引發的針對服務對象、服務等級做出調整或修改的響應型服務。
應急響應:是指組織為預防、監控、處置和管理運維服務應急事件所采取的措施和行為。應急響應過程包括應急準備、監測與預警、應急處置和總結改進四個主要環節。
3.優化改善運維
優化改善運維是指運維人員通過提供調優改進,達到提高設備性能或管理能力的目的。
優化改善運維包括: 適應性改進、糾正性改進、改善型改進和預防性改進。
適應性改進:是指在已變化或正在變化的環境中可持續運行而事實的改造。
糾正性運維:調整服務器及存儲設備不合理的初始容量配置、參數配置等。
改善型運維:是指根據信息系統或相關設備的運行需求或設計缺陷,采取相應改進措施,以增強安全性、可用性和可靠性。
預防性運維:是指監測和糾正系統運行過程中潛在的問題或缺陷,以降低系統風險,滿足未來可靠運行的需求。
4.咨詢評估運維
咨詢評估運維是指運維人員根據系統運行的需求,提供服務器及存儲設備的咨詢評估服務,并提出存在或潛在的問題和改進建議。
咨詢評估作業包括: 被動性咨詢服務、主動性咨詢服務。
被動性咨詢服務:是根據需求,對服務對象進行現狀調研和系統評估,識別出服務對象的運行健康狀況和弱點,并提出改進建議。
主動性咨詢服務:是根據應用系統的特點和運行需求,對服務對象的運行狀況、運行環境進行分析和系統評估,提出改進或處理的建議和方案。
第4節 信息系統設施的故障診斷與修復
1.主要故障原因與現象
故障類型:網絡鏈路、配置文件和選項、網絡協議、服務故障。
2.故障排除步驟
識別故障現象、對故障現象進行詳細描述、列舉可能導致錯誤的原因、縮小搜索范圍、定位錯誤、故障分析。
3.故障診斷方法
排除法:主要是根據所觀察到的故障現象,盡可能全面地列舉出所有可能導致故障發生的原因,然后逐一分析、診斷和排除。
對比法:就是對比故障設備和非故障設備之間的“軟”、“硬”差異,從而找出可能導致故障的原因。
替換法:是使用已知正常的設備或設備部件進行替換,并找出故障的部件進行排障。主要用于設備硬件故障的診斷,是平時維修計算機的一種方法。
4.故障診斷與修復原則
先易后難、先軟后硬、先邊緣后核心、先鏈路后設備。
5.故障診斷與恢復注意事項
應故障診斷與修復工作應注意以下兩個方面:應保證所有修復操作可恢復;重視記錄。
第5節 信息系統設施運維系統與專用工具
1.信息系統設施運維管理系統功能
設施運維管理系統的功能主要包括資源管理、監控管理、故障預警管理功能。
資源管理: 設施快照、設施視圖、設備活動及安裝軟件信息、網絡設備端口分布、交換機端口分布。
監控管理: 基礎環境監控、網絡設備監控、硬件設備監控、基礎軟件監控。
故障預警管理: 資源預警、網絡性能預警、基礎軟件性能預警。
2.典型信息系統設施運維典型專用工具
信息系統設施運維的專用工具主要包括在準備階段的運維部署工具、過程中的運維配置工具和運維監控工具,優化改善過程中的日志分析工具及其他輔助專用工具等。
階段 | 準備階段 | 過程階段 | 過程階段 | 優化改善 |
---|---|---|---|---|
類型 | 部署工具 | 配置工具 | 監控工具 | 日志分析工具 |
工具 | Kickstart Cobbler OpenQRM SpaceWalk | Puppet Func Chef Cfengine Capistrano ControlTiger | Nagios Zabbix Cacti Gandia Hyperic OpenNMS | Splunk Loggly Airbrake Graylog |
第6節 云環境下的信息系統設施運維
1.云環境下信息系統設施運維的優勢
設施運維工作更加專業、敏捷;設施運維單機故障影響更小;設施運維成本更低。
2.云環境下信息系統設施運維的挑戰及要求
面臨的挑戰:設施架構復雜度更高;設施故障可能造成更大范圍的損失;運維故障處理難度更大。
運維的要求:從體系層面,云環境下的運維應做到自動化、規模化、智能化、數字化。
整體性要求;自動化、規模化要求;數字化要求;智能優化要求。