這是一份非常詳細和實用的“運維日常工作100條”清單。它涵蓋了從日常巡檢、變更管理、故障處理到安全、優化和文檔等運維工作的方方面面,可以作為運維工程師的日常工作指南和檢查清單。
運維日常工作100條
一、日常巡檢與監控 (20條)
- 檢查核心監控大盤:查看整體業務健康狀態,包括流量、錯誤率、響應時間等。
- 檢查服務器資源水位:CPU使用率、內存使用率、磁盤使用率、磁盤Inode使用率。
- 檢查網絡流量:入向/出向帶寬是否異常,連接數是否過高。
- 檢查應用/服務狀態:確認所有關鍵服務的進程是否存活,端口是否監聽。
- 檢查日志監控:查看Error、Exception、Warning等關鍵錯誤日志是否有突增。
- 檢查數據庫狀態:主從復制是否正常,慢查詢數量,連接池使用情況。
- 檢查中間件狀態:消息隊列堆積情況,緩存命中率,緩存服務連接數。
- 檢查證書狀態:確保即將到期(如60天內)的SSL證書被及時識別。
- 檢查備份狀態:確認每日備份任務是否成功完成,備份文件大小是否正常。
- 檢查安全告警:查看SIEM、WAF、HIDS等安全設備的告警信息。
- 檢查域名解析:對核心域名進行dig/nslookup,確認解析正常。
- 檢查CDN狀態:查看CDN帶寬、緩存命中率、回源狀態是否正常。
- 檢查負載均衡器:后端服務器健康檢查狀態,會話保持等配置。
- 檢查云服務配額:云賬號的ECS、EIP、磁盤等配額是否充足。
- 檢查費用消耗:查看云資源每日費用消耗是否有異常激增。
- 檢查定時任務(Cron):查看歷史執行記錄,確認無失敗或長時間運行。
- 檢查核心業務鏈路:通過自動化腳本或撥測,模擬用戶關鍵操作(如登錄、下單)。
- 檢查依賴的第三方服務狀態:關注其官方狀態頁(Status Page)。
- 整理巡檢報告:將巡檢結果記