Dell R730是一款非常流行的服務器,2U的機箱可以放入兩張顯卡,這次先用一張英偉達上代專業級AI訓練卡:P4卡做實驗,本文記錄安裝過程。
簡潔步驟:
- 打開機箱
- 將P4顯卡插在4號槽位
- 關閉機箱
- 安裝驅動
詳細步驟:
對于新手來說,步步為坑,有很多小細節需要注意。
了解硬件情況
首先了解到,R730號稱可以裝兩塊顯卡
打開機箱,發現pci擴展槽上有4567四個插槽。
其中4號槽位是PCI-E3×16 ,其它三個槽位是PCI-E3×8 ,因此決定將P4插在4號槽。 另外要注意的是4號槽對應CPU2 ,因此單CPU是不能用這個插槽的。
我的這臺機器4號槽位還有個插槽保護部件插在上面,怎么拿下來也是嘗試了一小會兒。
第一次裝顯卡,插卡的免螺絲固定部分,有個塑料件,安裝前需要先用手扳上來,實在難住了我,多次嘗試才找到發力點,話說Dell的免螺絲設計還是挺不錯的。插好P4后,再把那個塑料固定件按下去固定顯卡。
裝好之后,在ESXi下,找PCI設備,將P4卡設置為直通。
這樣p4卡的硬件部分就安裝完成了!
安裝系統ESXi+Ubuntu22.0
原系統是raid0,改成了raid1。
重新安裝ESXi,然后再創建Ubuntu虛擬機,裝Ubuntu22.0版本,確認將P4卡在ESXi里設為設為直通。
注意,設為直通后,就要設置“保留內存”選項,也就是設置了多少內存就要保留多少內存,否則虛擬機報錯無法啟動。參見:Dell R730 2U服務器實踐2:VMWare ESXi安裝-CSDN博客
P4驅動安裝
安裝驅動比較順手了,先
從官網下載驅動再手動安裝。
用nvidia-smi驗證驅動是否安裝好了,碰到了問題:
報錯:couldn't communicate with the NVIDIA
使用從官網下驅動,手動安裝的方式,結果安裝后運行nvidia-smi報錯:不能與nvidia驅動通信。
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
換一種方法,
使用 ubuntu-drivers 安裝驅動
執行:
sudo ubuntu-drivers devices # 查看可以裝的驅動
sudo ubuntu-drivers autoinstall? # 安裝驅動
結果還是顯示無法與nvidia驅動通信....
使用dkms安裝驅動
網上建議用dkms安裝驅動,執行:
sudo apt install dkms
sudo dkms install -m nvidia -v 525.147.05
這樣由dkms安裝驅動,非常簡單方便。我記得這里的驅動需要從前面sudo ubuntu-drivers devices顯示的驅動里面選。
安裝驅動的時候提示重啟之后需要密碼驗證。(我沒看見驗證啊)
問題沒有解決。
apt install安裝驅動
先看有哪些驅動
sudo nvidia-drivers device
vendor ? : NVIDIA Corporation
model ? ?: GP104GL [Tesla P4]
driver ? : nvidia-driver-390 - distro non-free
driver ? : nvidia-driver-450-server - distro non-free
driver ? : nvidia-driver-470 - distro non-free recommended
driver ? : nvidia-driver-470-server - distro non-free
driver ? : nvidia-driver-418-server - distro non-free
driver ? : xserver-xorg-video-nouveau - distro free builtin
然后使用apt安裝:sudo apt install?nvidia-driver-470-server
apt 安裝也還是不行。
skywalk@ub22:~$ sudo modprobe nvidia
modprobe: ERROR: could not insert 'nvidia': Operation not permitted
ubuntu 已經說了推薦nvidia-driver-470,再來一次:
sudo apt install?nvidia-driver-470
照舊。
其實上面四種安裝驅動的方法都是可行的,但是為什么會報錯呢? 原來是因為有個地方沒有設置對!
設置?關閉 UEFI 安全引導
看到這篇文章里ESXI8.0下直通NVIDIA Tesla P4顯卡給Ubuntu22.04系統中Docker容器里的Jellyfin使用 - 嗶哩嗶哩 (bilibili.com)講到“是否為此虛擬機啟用 UEFI 安全引導” 這里要關掉。
關掉試試,再執行nvidia-smi,哇,成功拉!
安裝pytorch和飛槳paddlepaddle
到各自的官網,通過官網指引進行pip或conda安裝,AI訓練環境搞定!
總結
使用ESXi虛擬機在Ubuntu安裝P4計算卡有幾個注意的細節:
1 ESXi里虛擬機ubuntu的內存設置里需要勾選“保留內存”
2 在ESXi里設置P4計算卡為“直通”
3 ESXi里虛擬機ubuntu的啟動設置里關閉“是否為此虛擬機啟用 UEFI 安全引導”
其它地方就跟我們平時使用一樣了。
前一篇:Dell R730 2U服務器實踐2:VMWare ESXi安裝-CSDN博客