前期準備:
升級gcc編譯環境:
查看gcc版本:
gcc -v? ? ? ? (centos默認好像是4.8.5版本)
升級gcc:
yum install centos-release-scl
yum install devtoolset-9-gcc*
備份舊鏈接創建新鏈接:
mv /usr/bin/gcc /usr/bin/gcc-4.8.5
mv /usr/bin/g++ /usr/bin/g++-4.8.5
ln -s /opt/rh/devtoolset-9/root/usr/bin/gcc /usr/bin/gcc
ln -s /opt/rh/devtoolset-9/root/usr/bin/g++ /usr/bin/g++
mv /usr/bin/cc /usr/bin/cc-4.8.5
mv /usr/bin/c++ /usr/bin/c++-4.8.5
ln -s /usr/bin/gcc /usr/bin/cc
ln -s /usr/bin/g++ /usr/bin/c++
安裝完再看一下版本,打印:
安裝與內核版本一致的kernel-devel:
查看內核版本:
uname -a
yum list | grep kernel-
如果不一致,則安裝與內核版本一致的kernel-devel:
yum install "kernel-devel-uname-r == $(uname -r)"
安裝完可以看到
(通常會安裝在/usr/src/kernels里,里面可能有多個,后面安裝顯卡驅動的時候如果找不到可以指定)
重啟系統:reboot
屏蔽系統自帶的nouveau:
查看是否屏蔽:
lsmod | grep nouveau
如果沒有輸出則說明已經屏蔽,否則需要手動屏蔽;
編輯dist-blacklist.conf文件:
vi /lib/modprobe.d/dist-blacklist.conf
用#注釋掉nvidiafb:#blacklist nvidiafb
添加兩條:
blacklist nouveau
options nouveau modeset=0
(如果沒有該文件可以直接新建一個/etc/modprobe.d/blacklist-nouveau.conf,添加這兩條)
重建initramfs image:
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r)
重啟系統 reboot
如果使用的界面centos,安裝驅動時要切到使用文本模式:
查看使用模式:
systemctl get-default
關閉GUI,使用文本模式:
systemctl set-default multi-user.target
(等安裝完驅動可以systemctl set-default graphical.target切回GUI)
重啟系統?reboot
安裝NVIDIA顯卡驅動:
查看系統顯卡:
lspci | grep -E "NVIDIA|VGA"
lshw -numeric -C display
查看是否安裝驅動:nvidia-smi
去官網下載驅動:官方驅動 | NVIDIA
選擇自己的顯卡驅動:
可以查看是否支持自己的顯卡,然后下載:
為驅動添加執行權限:chmod a+x NVIDIA-Linux-x86_64-550.54.15.run
安裝驅動:
./NVIDIA-Linux-x86_64-550.54.15.run -no-x-check -no-nouveau-check -no-opengl-files
(不添加執行權限也可以sh NVIDIA-Linux-x86_64-550.54.15.run -no-x-check -no-nouveau-check -no-opengl-files)
如果找不到之前安裝的內核可以使用參數指定:--kernel-source-path
我的/usr/src/kernels下有兩個
指定參數:./NVIDIA-Linux-x86_64-550.54.15.run -no-x-check -no-nouveau-check -no-opengl-files --kernel-source-path=/usr/src/kernels/3.10.0-1160.118.1.el7.x86_64
(提示安裝32位的可以自己選擇安不安裝)
安裝完查看結果:nvidia-smi
(卸載驅動使用:./NVIDIA-Linux-x86_64-550.54.15.run --uninstall)
安裝合適版本的cuda:
驅動版本和cuda版本對應關系:CUDA 12.5 Release Notes (nvidia.com)
下載對應版本的cuda:CUDA Toolkit Archive | NVIDIA Developer
選擇自己的系統版本,可以下載rpm或者runfile的,看自己喜好選一個安裝方法,選完系統下面自動有安裝方法,照著執行就可:
還是run簡單些,下載好run文件安裝:
./cuda_12.4.1_550.54.15_linux.run
需要等待一會,然后顯示,輸入accept,然后選擇install,安裝;
等待安裝結果,輸出像下面這樣:
===========
= Summary =
===========Driver: Installed
Toolkit: Installed in /usr/local/cuda-12.4/Please make sure that- PATH includes /usr/local/cuda-12.4/bin- LD_LIBRARY_PATH includes /usr/local/cuda-12.4/lib64, or, add /usr/local/cuda-12.4/lib64 to /etc/ld.so.conf and run ldconfig as rootTo uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-12.4/bin
To uninstall the NVIDIA Driver, run nvidia-uninstall
Logfile is /var/log/cuda-installer.log
通常是安裝在/usr/local/cuda-12.4下,記下安裝目錄配置環境變量:
編輯環境變量:vi /etc/profile
添加四行:
PATH=$PATH:/usr/local/cuda-12.4/bin/
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.4/lib64
export PATH
export LD_LIBRARY_PATH
使配置生效:source /etc/profile
查看cuda信息:
nvcc --version
(卸載cuda,run安裝的在/usr/local/cuda/bin目錄下有個uninstall自帶卸載程序)
安裝cuDNN加速:
官網選擇合適版本下載:cuDNN Archive | NVIDIA Developer
(需要申請個NVIDIA的賬號下載)
下載好后,解壓:tar -Jxvf cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz
將解壓后的include文件夾里全部文件復制到cuda目錄的include里,將lib文件夾里全部文件復制到cuda的lib64里:
cp cudnn目錄/include/* /usr/local/cuda-版本號/include
cp cudnn目錄/lib/* /usr/local/cuda-版本號/lib64