對于GPU相關參數介紹
- 使用命令周期性查看GPU運行情況
- 最常用的參數是 -n, 后面指定是每多少秒來執行一次命令。監視顯存:設置為每 1s 顯示一次顯存的情況:
- 使用命令ctrl+z退出
watch -n 1 nvidia-smi

參數介紹
- Fan:顯示風扇轉速,數值在0到100%之間,是計算機的期望轉速,如果計算機不是通過風扇冷卻或者風扇壞了,顯示出來就是N/A;實際情況下如果風扇堵轉,可能打不到顯示的轉速。有的設備不會返回轉速,因為它不依賴風扇冷卻而是通過其他外設保持低溫(比如將服務器放在空調房間里)。
- Temp:顯卡內部的溫度,單位是攝氏度;
- Perf:表征性能狀態,從P0到P12,P0表示最大性能,P12表示狀態最小性能;
- Persistence-M:是持續模式的狀態,持續模式雖然耗能大,但是在新的GPU應用啟動時,花費的時間更少,這里顯示的是off的狀態。
- Pwr:能耗表示;
- Bus-Id:涉及GPU總線的相關信息;
- Disp.A:是Display Active的意思,表示GPU的顯示是否初始化;
- Memory Usage:顯存的使用率;
- Volatile GPU-Util:浮動的GPU利用率;
- Compute M:計算模式;
- 參考鏈接
Intel
安裝intel-gpu-tools工具
yum install intel-gpu-tools
//安裝完畢后, 系統中會多種三個gpu工具: intel_gpu_abrt intel_gpu_time intel_gpu_top,其中,常用的是intel_gpu_top和intel_gpu_time。
指定GPU、CPU運行
- 在多GPU系統里使用單一GPU。為了獲取?operations 和 Tensor 被指派到哪個設備上運行, 用?
log_device_placement
?新建一個?session
, 并設置為?True
- tensorflow
# 新建一個 graph.
with tf.device('/gpu:0'):a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')c = tf.matmul(a, b)
# 新建 session with log_device_placement 并設置為 True.
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
# 運行這個 op.
print sess.run(c)
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0' if on_server is False else '0,1'