一、nvidia-smi
查看 GPU 的利用率與顯存。若 GPU 利用率低或波動,說明 CPU 處理數據的速度跟不上 GPU 計算的速度,需要檢查數據傳輸并調整 num_workers;若 GPU 顯存充足,可以逐步增加 batch_size_per_card 直至顯存占滿(如 90%),避免浪費。
二、檢查日志
avg_reader_cost: 7.05323 s, avg_batch_cost: 7.72311 s, avg_samples: 32.0, ips: 4.14341 samples/s, eta: 18:09:25, max_mem_reserved: 22226 MB, max_mem_allocated: 21161 MB
三、發現問題
L20-24Q 服務器的 avg_reader_cost 明顯過長,檢查后發現該服務器的磁盤虛擬化策略是 HDD,需要調整