顯卡nvidia-smi后 提示Faild 解決過程,包含卸載重裝NVIDIA驅動步驟

顯卡異常: 顯卡nvidia-smi后 提示Faild 解決過程,卸載重裝nvidia驅動步驟

文章目錄

      • 顯卡異常: 顯卡nvidia-smi后 提示Faild 解決過程,卸載重裝nvidia驅動步驟
    • @[toc]
        • 1 緣由
        • 2 解決過程
        • 3 過程所需命令
        • 4 解決
          • 4.1 把該顯卡重新拔插一下
            • 卸載NVIDIA驅動的方法(卸載完重啟機器再安裝)
          • 4.2 換一張顯卡試試
          • 4.3 把該顯卡放到同型號的其它機器試驗性能
        • 5 結論

1 緣由

起初程序運行好好的,突然就沒有檢測輸出了,嘗試下面命令:

nvidia-smi

報錯如下,記為【Error1】

Unable to determine the device handle for GPU 8000:01:00.0: Unknown Error

reboot機器后,又輸出如下,記為【Error2】

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

2 解決過程

(1)首先第一反應是驅動連不上了,于是重新裝了驅動,然后就確確實實是又可以正常輸出顯卡信息及使用情況了。

(2)但是沒過多久程序又出錯了,然后輸入nvidia-smi又報了上述【Error1】的問題。重啟機器后,還是【Error2】的輸出。懷疑是顯卡物理脫離服務器了,可能引腳松動了。于是做了如下試驗:

(2.1)拿一臺沒有毛病的服務器,輸入nvidia-smi,顯卡正常輸出,關機。

(2.2)將該服務器顯卡拔下來,開機后輸入nvidia-smi,顯卡輸入前述【Error2】,關機。

(2.3)將該服務器顯卡再插上,開機后,輸入nvidia-smi,顯卡正常輸出。這里,我們開機后,甚至都沒有重新安裝顯卡驅動。值得注意的是,我一直以為顯卡拔下來再重新插回去需要重新安裝顯卡驅動。這里重新插上顯卡之后,竟然不用重新裝驅動,也是震驚了我。

3 過程所需命令

(1)如下命令輸出(rev ff),則可能顯卡物理松了

lspci| grep -i nvidia

正常輸出示例如下:

02:00.0 VGA compatible controller: NVIDIA Corporation Device 2684 (rev a1)
02:00.1 Audio device: NVIDIA Corporation Device 22ba (rev a1)

(2)查看物理有沒有顯卡的命令,如下

sudo lshw -C display 

=====>打印沒有任何輸出, 正常會輸出物理設施信息,正常輸出示例如下:

  *-displaydescription: VGA compatible controllerproduct: NVIDIA Corporationvendor: NVIDIA Corporationphysical id: 0bus info: pci@0000:02:00.0version: a1width: 64 bitsclock: 33MHzcapabilities: pm msi pciexpress vga_controller bus_master cap_list romconfiguration: driver=nvidia latency=0resources: irq:137 memory:a2000000-a2ffffff memory:90000000-9fffffff memory:a0000000-a1ffffff ioport:4000(size=128) memory:c0000-dffff

(3)顯示操作系統發行版本號

uname -r 

(4)顯示系統名、節點名稱、操作系統的發行版號、內核版本等

uname -a

(5)

lspci

正常輸出包含NVIDIA信息,異常輸出則沒有這條。

在這里插入圖片描述

4 解決

最終,我們覺得肯定是物理上顯卡,或者卡槽存在問題。

4.1 把該顯卡重新拔插一下
卸載NVIDIA驅動的方法(卸載完重啟機器再安裝)
方法一
sudo bash NVIDIA-Linux-x86_64-510.47.03.run -uninstall
方法二
sudo apt-get --purge remove nvidia*
sudo apt autoremove
卸載完成之后,記得重啟機器再安裝,然后再如下命令安裝
sudo ./NVIDIA-Linux-x86_64-510.47.03.run -no-x-check

重裝驅動后,輸入nvidia-smi后正確輸出。

4.2 換一張顯卡試試

因為4.1解決了所以就沒試

4.3 把該顯卡放到同型號的其它機器試驗性能

因為4.1解決了所以就沒試

5 結論

? 硬件的問題,我們裝在室外的設備,現在還是夏天,把設備拆開后,發現顯卡電源適配線和風扇太近了,影響風扇轉動,同時風扇的轉動也會造成電源適配線的接觸不良。這些原因①溫度太高硬件短期故障造成驅動異常;②風扇導致電源適配線接觸不良造成顯卡掉電。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/38491.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/38491.shtml
英文地址,請注明出處:http://en.pswp.cn/news/38491.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

單元測試優化:為什么要對程序進行測試?測試有什么好處?

單元測試(Unit Testing)又稱為模塊測試, 是針對程序模塊(軟件設計的最小單位)來進行正確性檢驗的測試工作。 程序單元是應用的最小可測試部件。簡單來說,就是測試數據的穩定性是否達到程序的預期。 我們日常開發時可能…

19、SQL注入之SQLMAP繞過WAF

目錄 邏輯層1、邏輯問題2、性能問題 白名單方式一:IP白名單方式二:靜態資源方式三:url白名單方式四: 爬蟲白名單 sqlmap在測試漏洞的時候,選擇了no,它就不會去測試其它的了,我們一般選擇yes,為了…

Deep Learning With Pytorch - 最基本的感知機、貫序模型/分類、擬合

文章目錄 如何利用pytorch創建一個簡單的網絡模型?Step1. 感知機,多層感知機(MLP)的基本結構Step2. 超平面 ω T ? x b 0 \omega^{T}xb0 ωT?xb0 or ω T ? x b \omega^{T}xb ωT?xb感知機函數 Step3. 利用感知機進行決策…

SpringBoot整合Minio

SpringBoot整合Minio 在企業開發中&#xff0c;我們經常會使用到文件存儲的業務&#xff0c;Minio就是一個不錯的文件存儲工具&#xff0c;下面我們來看看如何在SpringBoot中整合Minio POM pom文件指定SpringBoot項目所依賴的軟件工具包 <?xml version"1.0" …

Ubuntu上安裝RabbitMQ

在Ubuntu上安裝RabbitMQ并設置管理員用戶為"admin"&#xff0c;密碼為"123456"&#xff0c;并開啟開機自啟 更新系統軟件包列表。在終端中執行以下命令&#xff1a; sudo apt update安裝RabbitMQ服務器軟件包。運行以下命令&#xff1a; sudo apt insta…

DaVinci Resolve Studio 18 for Mac 達芬奇調色

DaVinci Resolve Studio 18是一款專業的視頻編輯和調色軟件&#xff0c;適用于電影、電視節目、廣告等各種視覺媒體的制作。它具有完整的后期制作功能&#xff0c;包括剪輯、調色、特效、音頻處理等。 以下是DaVinci Resolve Studio 18的主要特點&#xff1a; - 提供了全面的視…

Linux 設置 ssh 內網穿透

背景&#xff1a;有三臺機器A、B、C&#xff0c;機器 A 位于某局域網內&#xff0c;能夠連接到互聯網。機器 B 有公網 IP&#xff0c;能被 A 訪問到。機器 C 位于另外一個局域網內&#xff0c;能夠連接到互聯網&#xff0c;能夠訪問 B。 目標&#xff1a;以 B 為中介&#xff…

Jmeter-壓測時接口按照順序執行-臨界部分控制器

文章目錄 臨界部分控制器存在問題 臨界部分控制器 在進行壓力測試時&#xff0c;需要按照順序進行壓測&#xff0c;比如按照接口1、接口2、接口3、接口4 進行執行 查詢結果是很混亂的&#xff0c;如果請求次數少&#xff0c;可能會按照順序執行&#xff0c;但是隨著次數增加&a…

Python-OpenCV中的圖像處理-模板匹配

Python-OpenCV中的圖像處理-模板匹配 模板匹配單對象的模板匹配多對象的模板匹配 模板匹配 使用模板匹配可以在一幅圖像中查找目標函數&#xff1a; cv2.matchTemplate()&#xff0c; cv2.minMaxLoc()模板匹配是用來在一副大圖中搜尋查找模版圖像位置的方法。 OpenCV 為我們提…

無線充電底座

<項目>無線充電器 前言 個人DIY的無線充電底座&#xff08;帶磁吸&#xff09;&#xff0c;基于IP6829方案。 Drawn By:67373 硬件部分 3D模型 資料開源鏈接 https://github.com/linggan17/WirelessCharge

面試熱題(每日溫度)

請根據每日 氣溫 列表 temperatures &#xff0c;重新生成一個列表&#xff0c;要求其對應位置的輸出為&#xff1a;要想觀測到更高的氣溫&#xff0c;至少需要等待的天數。如果氣溫在這之后都不會升高&#xff0c;請在該位置用 0 來代替。 輸入: temperatures [73,74,75,71,69…

SpringBoot + Mybatis多數據源

一、配置文件 spring: # datasource: # username: root # password: 123456 # url: jdbc:mysql://127.0.0.1:3306/jun01?characterEncodingutf-8&serverTimezoneUTC # driver-class-name: com.mysql.cj.jdbc.Driverdatasource:# 數據源1onedata:jdbc-url: j…

SCF金融公鏈新加坡啟動會 鏈結創新驅動未來

新加坡迎來一場引人矚目的金融科技盛會&#xff0c;SCF金融公鏈啟動會于2023年8月13日盛大舉行。這一受矚目的活動將為金融科技領域注入新的活力&#xff0c;并為廣大投資者、合作伙伴以及關注區塊鏈發展的人士提供一個難得的交流平臺。 在SCF金融公鏈啟動會上&#xff0c; Wil…

CentOS7的journalctl日志查看方法

多臺服務器間免密登錄|免密拷貝 Cenos7 搭建Minio集群部署服務器(一) Cenos7 搭建Minio集群Nginx統一訪問入口|反向動態代理(二) Spring Boot 與Minio整合實現文件上傳與下載(三) CentOS7的journalctl日志查看方法 MySQL8.xx一主兩從復制安裝與配置 1、概述 日志管理工…

【ElasticSearch入門】

目錄 1.ElasticSearch的簡介 2.用數據庫實現搜素的功能 3.ES的核心概念 3.1 NRT(Near Realtime)近實時 3.2 cluster集群&#xff0c;ES是一個分布式的系統 3.3 Node節點&#xff0c;就是集群中的一臺服務器 3.4 index 索引&#xff08;索引庫&#xff09; 3.5 type類型 3.6 doc…

【佳佳怪文獻分享】MVFusion: 利用語義對齊的多視角 3D 物體檢測雷達和相機融合

標題&#xff1a;MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion 作者&#xff1a;Zizhang Wu , Guilian Chen , Yuanzhu Gan , Lei Wang , Jian Pu 來源&#xff1a;2023 IEEE International Conference on Robotics and Automat…

kubernetes企業級高可用部署

目錄 1、Kubernetes高可用項目介紹 2、項目架構設計 2.1、項目主機信息 2.2、項目架構圖 1、Kubernetes高可用項目介紹 2、項目架構設計 2.1、項目主機信息 2.2、項目架構圖 2.3、項目實施思路 3、項目實施過程 3.1、系統初始化 3.2、配置部署keepalived服務 3.3、…

強制Edge或Chrome使用獨立顯卡【WIN10】

現代瀏覽器通常將圖形密集型任務卸載到 GPU&#xff0c;以改善你的網頁瀏覽體驗&#xff0c;從而釋放 CPU 資源用于其他任務。 如果你的系統有多個 GPU&#xff0c;Windows 10 可以自動決定最適合 Microsoft Edge 自動使用的 GPU&#xff0c;但這并不一定意味著最強大的 GPU。 …

Linux/centos上如何配置管理NFS服務器?

Linux/centos上如何配置管理NFS服務器&#xff1f; 1 NFS基礎了解1.1 NFS概述1.2 NFS工作流程 2 安裝和啟動NFS服務2.1 安裝NFS服務器2.2 啟動NFS服務 3 配置NFS服務器和客戶端3.1 配置NFS服務器3.2 配置NFS客戶端 4 實際示例4.1 基本要求4.2 案例實現 1 NFS基礎了解 NFS&…

LAXCUS如何通過技術創新管理數千臺服務器

隨著互聯網技術的不斷發展&#xff0c;服務器已經成為企業和個人獲取信息、進行計算和存儲的重要工具。然而&#xff0c;隨著服務器數量的不斷增加&#xff0c;傳統的服務器管理和運維方式已經無法滿足現代企業的需求。LAXCUS做為專注服務器集群的【數存算管】一體化平臺&#…