告警解釋
當出現如下情況時,產生該告警:
- 數據實例數據目錄被刪除。
- 數據實例Redo目錄(pg_xlog)被刪除。
告警屬性
告警ID | 告警級別 | 可自動清除 |
---|---|---|
37000 | 嚴重 | 是 |
告警參數
參數名稱 | 參數含義 |
---|---|
ServiceName | 產生告警的服務名稱 |
RoleName | 產生告警的角色名稱 |
HostName | 產生告警的主機名 |
Instance | 產生告警的實例 |
對系統的影響
產生此告警后,因數據實例無法啟動,狀態為異常。
可能原因
該Coordinator節點或Datanode節點的數據目錄或者Redo目錄被刪除。
處理步驟
- 檢查告警上報實例的數據目錄或者Redo目錄(pg_xlog)是否被刪除。
可以通過gs_om -t status --detail命令獲取到集群中每一個CN或者DN實例對應的數據目錄,Redo目錄就是數據目錄下的pg_xlog目錄。
- 使用omm用戶登錄告警上報的節點。
- 初始化環境變量。
source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile
- 執行gs_om -t status --detail系統反饋類似如下信息。
- 修復損壞的數據實例(CN、DN)。具體方法請參考“實例故障處理”章節。
- 選中產生異常的節點,單擊“更多操作 > 重啟實例”。重啟節點后等待5分鐘,查看告警是否仍然存在。
- 是,執行4。
- 否,處理完畢。
收集故障信息。