我們使用以下6個分類標準對本文的研究選題進行分析:
1. 硬件故障類型
- DRAM: 此類別涉及研究如何處理內存相關的錯誤。這包括單比特錯誤,使用傳統 ECC 進行校正,以及需要冗余、修復技術或隔離故障內存區域的更廣泛的故障。
- 磁盤: 此處研究將解決存儲故障,尤其是 SSD 中的故障。這涉及磨損均衡、壞塊管理、預測 SSD 壽命以及開發數據恢復或在磁盤故障時進行優雅降級的策略。
- 網絡: 此類別涉及確保網絡可靠性。研究可以分析網絡故障模式、開發容錯路由或專注于從鏈路或網絡接口故障中快速恢復。
- CPU: 關注處理器故障,可能處理部分內核故障、緩存錯誤或 CPU 內部的電源管理問題。保存應用程序狀態的檢查點等技術也可能屬于此類別。
- 電源: 考慮電源故障、電壓波動或服務器電源單元內部降級的影響。研究可能探索備用電源、在功率約束下的能源感知調度或在節點內優雅處理功率損失的技術。
2. 緩解范圍
- 組件級別: 此處研究針對服務器硬件內的孤立故障。這包括檢測和校正錯誤、重新映射故障內存或磁盤區域,甚至禁用有缺陷的 CPU 核心,同時對系統的其余部分影響最小。
- 節點級別: 解決整個服務器故障。策略涉及將工作負載從故障節點遷移、負載平衡以及潛在預測節點級別故障以預先移動工作負載。
- 數據中心級別: 關注影響多個機架或數據中心很大一部分的大規模故障。研究可能開發資源分配和工作負載轉移策略,以在重大停機期間維持服務可用性。
3. 故障處理方法
- 被動: