顯卡異常: 顯卡nvidia-smi后 提示Faild 解決過程,卸載重裝nvidia驅動步驟
文章目錄
- 顯卡異常: 顯卡nvidia-smi后 提示Faild 解決過程,卸載重裝nvidia驅動步驟
- @[toc]
- 1 緣由
- 2 解決過程
- 3 過程所需命令
- 4 解決
- 4.1 把該顯卡重新拔插一下
- 卸載NVIDIA驅動的方法(卸載完重啟機器再安裝)
- 4.2 換一張顯卡試試
- 4.3 把該顯卡放到同型號的其它機器試驗性能
- 5 結論
文章目錄
- 顯卡異常: 顯卡nvidia-smi后 提示Faild 解決過程,卸載重裝nvidia驅動步驟
- @[toc]
- 1 緣由
- 2 解決過程
- 3 過程所需命令
- 4 解決
- 4.1 把該顯卡重新拔插一下
- 卸載NVIDIA驅動的方法(卸載完重啟機器再安裝)
- 4.2 換一張顯卡試試
- 4.3 把該顯卡放到同型號的其它機器試驗性能
- 5 結論
1 緣由
起初程序運行好好的,突然就沒有檢測輸出了,嘗試下面命令:
nvidia-smi
報錯如下,記為【Error1】
Unable to determine the device handle for GPU 8000:01:00.0: Unknown Error
reboot機器后,又輸出如下,記為【Error2】
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
2 解決過程
(1)首先第一反應是驅動連不上了,于是重新裝了驅動,然后就確確實實是又可以正常輸出顯卡信息及使用情況了。
(2)但是沒過多久程序又出錯了,然后輸入nvidia-smi又報了上述【Error1】的問題。重啟機器后,還是【Error2】的輸出。懷疑是顯卡物理脫離服務器了,可能引腳松動了。于是做了如下試驗:
(2.1)拿一臺沒有毛病的服務器,輸入nvidia-smi,顯卡正常輸出,關機。
(2.2)將該服務器顯卡拔下來,開機后輸入nvidia-smi,顯卡輸入前述【Error2】,關機。
(2.3)將該服務器顯卡再插上,開機后,輸入nvidia-smi,顯卡正常輸出。這里,我們開機后,甚至都沒有重新安裝顯卡驅動。值得注意的是,我一直以為顯卡拔下來再重新插回去需要重新安裝顯卡驅動。這里重新插上顯卡之后,竟然不用重新裝驅動,也是震驚了我。
3 過程所需命令
(1)如下命令輸出(rev ff),則可能顯卡物理松了
lspci| grep -i nvidia
正常輸出示例如下:
02:00.0 VGA compatible controller: NVIDIA Corporation Device 2684 (rev a1)
02:00.1 Audio device: NVIDIA Corporation Device 22ba (rev a1)
(2)查看物理有沒有顯卡的命令,如下
sudo lshw -C display
=====>打印沒有任何輸出, 正常會輸出物理設施信息,正常輸出示例如下:
*-displaydescription: VGA compatible controllerproduct: NVIDIA Corporationvendor: NVIDIA Corporationphysical id: 0bus info: pci@0000:02:00.0version: a1width: 64 bitsclock: 33MHzcapabilities: pm msi pciexpress vga_controller bus_master cap_list romconfiguration: driver=nvidia latency=0resources: irq:137 memory:a2000000-a2ffffff memory:90000000-9fffffff memory:a0000000-a1ffffff ioport:4000(size=128) memory:c0000-dffff
(3)顯示操作系統發行版本號
uname -r
(4)顯示系統名、節點名稱、操作系統的發行版號、內核版本等
uname -a
(5)
lspci
正常輸出包含NVIDIA信息,異常輸出則沒有這條。
4 解決
最終,我們覺得肯定是物理上顯卡,或者卡槽存在問題。
4.1 把該顯卡重新拔插一下
卸載NVIDIA驅動的方法(卸載完重啟機器再安裝)
方法一
sudo bash NVIDIA-Linux-x86_64-510.47.03.run -uninstall
方法二
sudo apt-get --purge remove nvidia*
sudo apt autoremove
卸載完成之后,記得重啟機器再安裝,然后再如下命令安裝
sudo ./NVIDIA-Linux-x86_64-510.47.03.run -no-x-check
重裝驅動后,輸入nvidia-smi后正確輸出。
4.2 換一張顯卡試試
因為4.1解決了所以就沒試
4.3 把該顯卡放到同型號的其它機器試驗性能
因為4.1解決了所以就沒試
5 結論
? 硬件的問題,我們裝在室外的設備,現在還是夏天,把設備拆開后,發現顯卡電源適配線和風扇太近了,影響風扇轉動,同時風扇的轉動也會造成電源適配線的接觸不良。這些原因①溫度太高硬件短期故障造成驅動異常;②風扇導致電源適配線接觸不良造成顯卡掉電。