裝備工作
我的系統版本
cat /etc/centos-release
CentOS Linux release 7.9.2009 (Core)
內核版本
rpm -q kernel
或者
rpm -qa|grep kernel
kernel-3.10.0-1160.el7.x86_64
注意以上輸出內核版本,按照我下面的操作步驟,不會出問題。否則重裝系統都有可能。
linux官方還在維護的最低版本是5.4.292linux內核
我先前升級內核,由于誤操作已經重裝了系統。所以我就不折騰了。
安裝基礎依賴
yum install gcc
yum install gcc-c++
安裝內核文件
一定要安裝當版本的文件,uname -r至關重要,否則系統重啟后,會有多個引導文件
yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
禁用默認驅動
執行以下命令,查看是否有輸出
lsmod | grep nouveau
如果沒有輸出,則禁用成功。不成功執行下面方法:
vim /lib/modprobe.d/dist-blacklist.conf
#blacklist nvidiafb
blacklist nouveau
options nouveau modeset=0
重啟內核
dracut -force
再次執行lsmod | grep nouveau查看是否有輸出
上傳驅動
查看顯卡型號
lspci | grep -i vga
輸出
03:00.0 VGA compatible controller: Matrox Electronics Systems Ltd. Integrated Matrox G200eW3 Graphics Controller (rev 04)
31:00.0 VGA compatible controller: NVIDIA Corporation Device 24b0 (rev a1)
集成顯卡(Integrated)為G200eW3
獨立顯卡為24b0,安裝獨立顯卡的驅動
廠商提供的型號
下載RTXA4000的驅動
nvidia網站下載地址
根據自己電腦系統選擇相應版本
查看電腦CPU架構
uname -m
輸出
x86_64
下載64位版本
選擇版本
因為centos7的內核太老了,最新版本是不支持的。升級內核肯定會有兼容性問題,最新版本建議用Centos Stream 9
我下載的是550.163.01版本
上傳驅動到服務器,并賦予權限
chmod a+x NVIDIA-Linux-x86_64-550.163.01.run
安裝驅動
雙顯卡混合環境,只安裝驅動,不安裝OpenGL,避免與集成顯卡沖突
./NVIDIA-Linux-x86_64-550.163.01.run --no-opengl-files
鼠標左右移動選擇NVIDIA Proprietary
選擇No
選擇Rebuild inittramfs
選怎Yes
安裝完成后查看是否成功
nvidia-smi
如果想重新裝其他版本,需要先執行卸載命令
./NVIDIA-Linux-x86_64-550.1 --uninstall
重啟系統
reboot
安裝CUDA
下載地址:cuda-toolkit-archive
選擇CUDA對應版本下載,版本號nvidia-smi命令已顯示,上圖顯示CUDA Version:12.4
下面下載的版本,不能超過此版本號
wget https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda_12.4.1_550.54.15_linux.run
安裝
chmod a+x cuda_12.4.1_550.54.15_linux.run
sh cuda_12.4.1_550.54.15_linux.run
會等待很長時間,然后輸入accept即可
因為已經安裝過驅動了,按Enter健取消Driver前的X,然后移動到Install處安裝即可
等待一段時間輸出如下,即為成功
Driver: Not Selected
Toolkit: Installed in /usr/local/cuda-12.4/
Please make sure that
- PATH includes /usr/local/cuda-12.4/bin
- LD_LIBRARY_PATH includes /usr/local/cuda-12.4/lib64, or, add /usr/local/cuda-12.4/lib64 to /etc/ld.so.conf
and run ldconfig as rootTo uninstall the CUDA Toolkit, run cuda-uninstaller in
/usr/local/cuda-12.4/bin
***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 550.00 is required for
CUDA 12.4 functionality to work. To install the driver using this
installer, run the following command, replacing with
the name of this run file:
sudo .run --silent --driverLogfile is /var/log/cuda-installer.log
配置CUDA環境變量
vim ~/.bashrc
export PATH=/usr/local/cuda-12.4/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH
export CUDA_HOME=/usr/local/cuda
使配置生效
source ~/.bashrc
查看cuda信息
nvcc -V
nvcc: NVIDIA ? Cuda compiler driver
Copyright ? 2005-2024 NVIDIA Corporation
Built on Thu_Mar_28_02:18:24_PDT_2024
Cuda compilation tools, release 12.4, V12.4.131
Build cuda_12.4.r12.4/compiler.34097967_0
驗證
/usr/local/cuda/extras/demo_suite/deviceQuery
最后兩行輸出
deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 12.4, CUDA Runtime Version = 12.4, NumDevs = 1, Device0 = NVIDIA RTX A4000
Result = PASS
安裝CUDNN
下載地址cudnn-archive
選擇CUDA對應版本號,需要注冊登錄
安裝
tar -xvf cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz
cd cudnn-linux-x86_64-8.9.7.29_cuda12-archive/
cp include/cudnn*.h /usr/local/cuda/include
cp -P lib/libcudnn* /usr/local/cuda/lib64
chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
驗證
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
參照
https://www.cnblogs.com/sheepships/p/18072617
https://blog.csdn.net/Mr_kka/article/details/143911821