任務概述:
原計劃在2小時內完成的任務,由于遇到一系列挑戰,最終耗時1.5天。任務目標是在無外網環境的服務器上建立測試環境,涉及將SSD硬盤數據遷移至服務器、SSH連接、運行測試程序并監控服務器功耗。
高效實施策略:
1.在有外網的環境下預先準備:
- 安裝與目標服務器相同的操作系統。
- 提前下載并準備所需的安裝包,包括ssh、docker、vim、dkms、tmux、ipmitool等。
2.數據遷移準備:
將SSD硬盤通過USB3.0轉接盒進行連接,確保數據遷移的可行性。
3.目標服務器安裝與配置:
- 安裝操作系統,部署離線安裝包。
- 配置網絡,掛載存儲,確保數據遷移的順利進行。
- 導入Docker鏡像,安裝必要驅動。
- 使用ipmitool進行功耗監控。
- 創建一鍵測試腳本,自動化測試流程。
- 拷貝并分析日志文件,輸出統計數據。
遭遇的挑戰與改進建議:
1.離線包缺失與GLIBC版本沖突:
- 問題:在嘗試安裝tmux時,發現離線包中缺少該工具。后從另一臺機器下載,導致GLIBC版本不匹配,SSH服務無法啟動。
- 改進:預先在有外網環境下完整測試所有離線包的兼容性,確保所有工具均可正常運行。
2.SSD硬盤掛載失敗:
- 問題:直接將SSD硬盤插入服務器時,掛載操作失敗。誤以為是硬盤損壞,導致不必要的時間浪費。
- 改進:首先,使用轉接盒確保硬盤能被正確識別。其次,在更換硬件或嘗試修復前,應先進行詳細的故障排查。
3.系統備份與恢復問題:
- 問題:在重新安裝系統前,雖然備份了/etc/fstab文件,但忽略了系統盤UUID的變化,導致根文件系統變為只讀,Docker服務啟動失敗。
- 改進:在重新安裝系統后,確保重新配置fstab文件,并驗證所有服務的依賴項和配置文件的正確性。