金山云于12月26日對建行共計【30】個KDE集群,合計【198】臺服務器進行了巡檢服務。共發現系統風險【135】條,服務風險【1912】條,服務配置風險【368】條。
一、系統風險
1、風險分析(圖片+描述)
(1)磁盤使用率高
- 問題描述
- 多個集群的多臺服務器磁盤使用率較高,遠超過80%使用率的閾值
- 排查思路
- 登錄服務器通過du -h -d 1 針對磁盤使用率較高的磁盤逐層分析排查具體哪些目錄磁盤使用較高
- 根因分析(抽樣篩查)
例如:
- /mnt 目錄掛載在了sda磁盤,并且存儲了ES的日志和數據
- hadoop、hbase、hive、jounrnal的日志存在了 /var/log 目錄下
- /usr/hdp 制品目錄較大、/usr/lib 系統包目錄較大
- /data1/hadoop/hdfs 數據目錄較大
- 解決方案
例如:
- kde相關組件日志建議配置在數據盤下,避免/目錄寫滿
- 制品,客戶端等目錄建議存放在數據盤下
- 適當清理hdfs數據或水平擴容hdfs