目錄
1. 檢查 NVIDIA 驅動狀態
2. 驗證 CUDA 安裝情況
3. 檢查相關服務運行狀態(多 GPU 場景關鍵)
4. 用簡單 CUDA 程序驗證基礎功能
5. 重啟系統
6. 排查硬件相關問題
7.實際生產解決步驟
報錯日志:
# Collective test starting: all_reduce_perf
# nThread 1 nGpus 8 minBytes 8 maxBytes 536870912 step: 2(factor) warmup iters: 5 iters: 20 agg iters: 1 validation: 1 graph: 0
#
# Using devices
b1-g38: Test CUDA failure common.cu:1035 'system not yet initialized'.. b1-g38 pid 9266: Test failure common.cu:941
當測試 CUDA 時出現 “common.cu:1035'system not yet initialized'” 錯誤,通常意味著 CUDA 運行時環境未正確初始化,這往往與驅動程序或系統配置問題相關。以下是具體的排查步驟:
1. 檢查 NVIDIA 驅動狀態
首先確認 NVIDIA 驅動是否已加載并正常工作:
bash