Dell R730 2U服務器實踐3:安裝英偉達上代專業AI訓練Nvidia P4計算卡

Dell R730是一款非常流行的服務器,2U的機箱可以放入兩張顯卡,這次先用一張英偉達上代專業級AI訓練卡:P4卡做實驗,本文記錄安裝過程。


簡潔步驟:

  1. 打開機箱
  2. 將P4顯卡插在4號槽位
  3. 關閉機箱
  4. 安裝驅動

詳細步驟:

對于新手來說,步步為坑,有很多小細節需要注意。

了解硬件情況

首先了解到,R730號稱可以裝兩塊顯卡
打開機箱,發現pci擴展槽上有4567四個插槽。
其中4號槽位是PCI-E3×16 ,其它三個槽位是PCI-E3×8 ,因此決定將P4插在4號槽。 另外要注意的是4號槽對應CPU2 ,因此單CPU是不能用這個插槽的。

我的這臺機器4號槽位還有個插槽保護部件插在上面,怎么拿下來也是嘗試了一小會兒。

第一次裝顯卡,插卡的免螺絲固定部分,有個塑料件,安裝前需要先用手扳上來,實在難住了我,多次嘗試才找到發力點,話說Dell的免螺絲設計還是挺不錯的。插好P4后,再把那個塑料固定件按下去固定顯卡。

裝好之后,在ESXi下,找PCI設備,將P4卡設置為直通。

這樣p4卡的硬件部分就安裝完成了!

安裝系統ESXi+Ubuntu22.0

原系統是raid0,改成了raid1。

重新安裝ESXi,然后再創建Ubuntu虛擬機,裝Ubuntu22.0版本,確認將P4卡在ESXi里設為設為直通。

注意,設為直通后,就要設置“保留內存”選項,也就是設置了多少內存就要保留多少內存,否則虛擬機報錯無法啟動。參見:Dell R730 2U服務器實踐2:VMWare ESXi安裝-CSDN博客

P4驅動安裝

安裝驅動比較順手了,先

從官網下載驅動再手動安裝。

用nvidia-smi驗證驅動是否安裝好了,碰到了問題:

報錯:couldn't communicate with the NVIDIA

使用從官網下驅動,手動安裝的方式,結果安裝后運行nvidia-smi報錯:不能與nvidia驅動通信。

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

換一種方法,

使用 ubuntu-drivers 安裝驅動

執行:

sudo ubuntu-drivers devices # 查看可以裝的驅動

sudo ubuntu-drivers autoinstall? # 安裝驅動

結果還是顯示無法與nvidia驅動通信....

使用dkms安裝驅動

網上建議用dkms安裝驅動,執行:

sudo apt install dkms

sudo dkms install -m nvidia -v 525.147.05

這樣由dkms安裝驅動,非常簡單方便。我記得這里的驅動需要從前面sudo ubuntu-drivers devices顯示的驅動里面選。

安裝驅動的時候提示重啟之后需要密碼驗證。(我沒看見驗證啊)

問題沒有解決。

apt install安裝驅動

先看有哪些驅動

sudo nvidia-drivers device

vendor ? : NVIDIA Corporation
model ? ?: GP104GL [Tesla P4]
driver ? : nvidia-driver-390 - distro non-free
driver ? : nvidia-driver-450-server - distro non-free
driver ? : nvidia-driver-470 - distro non-free recommended
driver ? : nvidia-driver-470-server - distro non-free
driver ? : nvidia-driver-418-server - distro non-free
driver ? : xserver-xorg-video-nouveau - distro free builtin

然后使用apt安裝:sudo apt install?nvidia-driver-470-server

apt 安裝也還是不行。

skywalk@ub22:~$ sudo modprobe nvidia
modprobe: ERROR: could not insert 'nvidia': Operation not permitted

ubuntu 已經說了推薦nvidia-driver-470,再來一次:

sudo apt install?nvidia-driver-470

照舊。

其實上面四種安裝驅動的方法都是可行的,但是為什么會報錯呢? 原來是因為有個地方沒有設置對!

設置?關閉 UEFI 安全引導

看到這篇文章里ESXI8.0下直通NVIDIA Tesla P4顯卡給Ubuntu22.04系統中Docker容器里的Jellyfin使用 - 嗶哩嗶哩 (bilibili.com)講到“是否為此虛擬機啟用 UEFI 安全引導” 這里要關掉。

關掉試試,再執行nvidia-smi,哇,成功拉!

安裝pytorch和飛槳paddlepaddle

到各自的官網,通過官網指引進行pip或conda安裝,AI訓練環境搞定!

總結

使用ESXi虛擬機在Ubuntu安裝P4計算卡有幾個注意的細節:

1 ESXi里虛擬機ubuntu的內存設置里需要勾選“保留內存”

2 在ESXi里設置P4計算卡為“直通”

3 ESXi里虛擬機ubuntu的啟動設置里關閉“是否為此虛擬機啟用 UEFI 安全引導”

其它地方就跟我們平時使用一樣了。

前一篇:Dell R730 2U服務器實踐2:VMWare ESXi安裝-CSDN博客

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/714006.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/714006.shtml
英文地址,請注明出處:http://en.pswp.cn/news/714006.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

2024目前三種有效加速國內Github

大家好我是咕嚕美樂蒂,很高興又和大家見面了!截至2024年,國內訪問 GitHub 的速度受到多種因素的影響,包括網絡封鎖、地理距離、網絡帶寬等。為了提高國內用戶訪問 GitHub 的速度,以下是目前較為有效的三種加速方式&…

網絡工程師學習筆記——VRP配置命令大全

VRP是Versatile Routing Platform的簡稱,它是華為公司數據通信產品的通用網絡操作系統。它以IP業務為核心,采用組件化的體系結構,在實現豐富功能特性的同時,還提供了基于應用的可裁剪和可擴展的功能,使得路由器和交換機…

計算機網絡物理層知識點總結

本篇博客是基于謝希仁編寫的《計算機網絡》和王道考研視頻總結出來的知識點,本篇總結的主要知識點是第二章的物理層。上一章的傳送門:計算機網絡體系結構-CSDN博客 通信基礎 物理層概念 物理層解決如何在連接各種計算機的傳輸媒體上傳輸數據比特流&am…

【Kubernetes】k8s中容器之間、pod之間如何進行網絡通信?

目錄 PodKubernetes 網絡模型同一Pod上的容器之間進行通信同一Node上的不同Pod之間進行通信不同Node上的Pod之間進行通信Service參考 Pod 首先來回顧一下Pod: Pod 是用于構建應用程序的最小可部署對象。單個 Pod 代表集群中正在運行的工作負載,并封裝一…

C++初階篇----類與對象上卷

目錄 引言1.面向過程和面向對象初步認識2.類的引入3.類的定義3.1聲明與定義全部放在類體中3.2聲明與定義分離 4.類的訪問限定符及封裝4.1訪問限定符4.2封裝 5.類的作用域6.類的實例化類是對對象進行描述一個類(一個類型變量)可以實例化出多個對象 7.類對…

Day12-【Java SE進階】JDK8新特性:Lambda表達式、方法引用、常見算法、正則表達式、異常

一、JDK8新特性 1.Lambda表達式 Lambda表達式是JDK 8開始新增的一種語法形式;作用:用于簡化名內部類的代碼寫法。 注意:Lambda表達式并不是說能簡化全部匿名內部類的寫法,只能簡化函數式接口的匿名內部類。 有且僅有一個抽象方法的接口。注意:將來我們見到的大部…

分布式事務簡介

分布式事務簡介,通過組內分享學習到的知識,并進行討論。 主要內容 分布式事務簡介 分布式事務是指跨越多個數據庫或服務的一系列操作,這些數據庫或服務可能分布在網絡的不同節點上,它們共同組成一個完整的邏輯工作單元&#xf…

GEE必須會教程—蒸散發數據時間序列分析與下載

今天帶來的有關蒸散發數據的下載代碼,蒸散發數據在氣象氣候,農業干旱監測等領域應用廣泛,那么在GEE上如何方便快捷獲取蒸散發數據呢?今天跟著小編分享代碼,快來學習吧!! A.定義研究區域 //定義…

JSON-RPC 快速開始

文章目錄 JSON-RPC什么是JSON-RPCJSON-RPC java開源實現JSON-PRC go開源實現JSON-RPC 和 Restful 都屬于什么?RPC、JSON-RPC和HTTP區別 以太坊使用json-rpc?JSON-RPC和gRPCWEB開發中,使用JSON-RPC好,還是RESTful API好&#xff1f…

【前端素材】推薦優質數據統計后臺管理系統網頁Cleopatra.平臺模板(附源碼)

一、需求分析 在線后臺管理系統是指供管理員或運營人員使用的Web應用程序,用于管理和監控網站、應用程序或系統的運行和數據。它通常包括一系列工具和功能,用于管理用戶、內容、權限、數據等。下面是關于在線后臺管理系統的詳細分析: 1、功…

ssh簡介以及 windows 安裝ssh教程

SSH(Secure Shell)是一種網絡協議,用于計算機之間的加密登錄和其他安全網絡服務。通過 SSH,用戶可以安全地訪問遠程計算機,執行命令、傳輸文件等操作。SSH 使用公鑰加密技術,確保數據傳輸的安全性。本文將從…

TypeScript 哲學 - 2、Narrowing

四種類型守衛 1、truthiness narrowing 2、 3、 4、 control flow analysis

C語言:結構體(自定義類型)知識點(包括結構體內存對齊的熱門知識點)

和黛玉學編程呀,大家一起努力呀............. 結構體類型的聲明 回顧一下 struct tag { member-list; }variable-list; 創建和初始化 我們知道,在C語言中,對于一些數據是必須初始化的,但是結構體怎么創建并且初始化呢&#xff1…

【計算機網絡】TCP 如何實現可靠傳輸

TCP通過三次握手建立連接,四次揮手釋放連接,確保連接建立和連接釋放的可靠。 序列號、檢驗和、確認應答信號、重發機制、連接管理、窗口控制、流量控制、擁塞控制 標準回答 可靠傳輸就是通過TCP連接傳送的數據是沒有差錯、不會丟失、不重復并且按序到達的…

springboot+vue+mysql項目使用的常用注解

實體類常用注解 Data Data 是一個 Lombok 提供的注解&#xff0c;使用 Data 注解可以簡化代碼&#xff0c;使代碼更加簡潔易讀。 作用&#xff1a;自動為類生成常用的方法&#xff0c;包括 getter、setter、equals、hashCode 和 toString 等需要加Lombok的依賴 <depende…

rk3568-一種基于wifi的網絡環境搭建方案

前言&#xff1a; PC--Ubuntu--開發板 三者之間的網絡互相ping通很重要&#xff0c;尤其是ubuntu和開發板互ping成功最關鍵&#xff0c;關系到nfs&#xff0c;tftp等常用的開發手段。現在大多數開發板都帶有wifi芯片&#xff0c;現在提供一種方案可以三個設備無線地搭建網絡環境…

Open3D0.14.1編譯、安裝、demo使用教程

寫在前面 本文內容 Open3D在0.15版之前&#xff0c;沒有提供編譯好的包&#xff0c;要使用C版本必須自己編譯&#xff0c;本文是Open3D0.14.1在Windows下和Linux(Ubuntu1804)下的編譯、使用教程&#xff1b; Open3D其他版本的編譯和使用相關教程見 各個版本的Open3D、PCL的編譯…

STL常見容器(map/multimap容器)---C++

STL常見容器目錄&#xff1a; 8.map/ multimap容器8.1 map基本概念8.2 map構造和賦值8.3 map大小和交換8.4 map插入和刪除8.5 map查找和統計8.6 map容器排序8.6.1 內置類型排序8.6.2 自定義類型排序8.6.3 自定義和內置類型混合排序 8.map/ multimap容器 兩者基本一致&#xff…

用node寫后端環境運行時報錯Port 3000 is already in use

解決方法:關閉之前運行的3000端口,操作如下 1.WindowR輸入cmd確定,打開命令面板 2.查看本機端口詳情 netstat -ano|findstr "3000" 3.清除3000端口 taskkill -pid 41640 -f 最后再重新npm start即可,這里要看你自己項目中package.joson的啟動命令是什…

Flink:動態表 / 時態表 / 版本表 / 普通表 概念區別澄清

博主歷時三年精心創作的《大數據平臺架構與原型實現&#xff1a;數據中臺建設實戰》一書現已由知名IT圖書品牌電子工業出版社博文視點出版發行&#xff0c;點擊《重磅推薦&#xff1a;建大數據平臺太難了&#xff01;給我發個工程原型吧&#xff01;》了解圖書詳情&#xff0c;…