目錄
1.系統版本信息
2.安裝nvidia驅動
3.CUDA安裝
4.docker離線安裝
1.系統版本信息
查看一下系統版本,命令為:
cat /etc/kylin-release
2.安裝nvidia驅動
編輯/usr/lib/modprobe.d/dist-blacklist.conf文件
blacklist nvidiafb加#號注釋掉
添加如下內容
blacklist nouveau
options nouveau modest=0
卸載nvidia驅動開源驅動模塊,卸載后直接重啟
#nouveau 是 NVIDIA 顯卡的開源驅動模塊;在安裝 NVIDIA 官方驅動前執行此命令的主要目的是避免開源驅動與官方驅動沖突
rmmod nouveau
安裝驅動所需依賴,命令如下:
dnf install gcc kernel-devel-$(uname -r) kernel-headers-$(uname -r) make elfutils-libelf-devel tar bzip2 dkms acpid wget -y
官網下載驅動文件然后上傳到服務器,下載地址為:
NVIDIA GeForce 驅動程序 - N 卡驅動 | NVIDIAhttps://www.nvidia.cn/geforce/drivers/根據顯卡型號以及系統版本下載驅動,麒麟系統也是選擇Linux 64-bit,點擊開始搜索
搜索到驅動,根據自己需要的版本點擊獲取下載即可開始下載,我這里直接下載最新的575;下載好了之后通過sftp傳到服務器上
給驅動安裝腳本權限,然后運行安裝
#*代表驅動版本,根據自己下載的版本進行修改
chmod +x NVIDIA-Linux-x86_64-*.run
./NVIDIA-Linux-x86_64-*.run
安裝過程會讓你做各種選擇,看不懂直接復制到翻譯軟件,然后根據需求進行選擇即可
安裝好之后,用nvidia-smi查看顯卡是否能被識別了
3.CUDA安裝
進入官網下載安裝cuda,下載地址為:
developer.nvidia.com/cuda-downloadshttps://developer.nvidia.com/cuda-downloads根據自己的系統版本以及安裝方式進行選擇,我們這里選擇KylinOS 10即可;安裝方式還是rpm本地
選好之后,會告訴你要運行什么命令進行安裝,按照執行即可
安裝后之后設置一下環境變量
vi ~/.bashrc
添加如下內容
export PATH=$PATH:/usr/local/cuda/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
export LIBRARY_PATH=$LIBRARY_PATH:/usr/local/cuda/lib64
使用命令重新加載環境變量
#重新加載當前用戶的 Bash 配置文件
source ~/.bashrc
通過nvcc -V查看CUDA的版本,有輸出代表安裝好了
4.docker離線安裝
到阿里云鏡像站下載docker的離線安裝包,下載地址為:
docker-ce-linux-static-stable-x86_64安裝包下載_開源鏡像站-阿里云docker-ce-linux-static-stable-x86_64安裝包是阿里云官方提供的開源鏡像免費下載服務,每天下載量過億,阿里巴巴開源鏡像站為包含docker-ce-linux-static-stable-x86_64安裝包的幾百個操作系統鏡像和依賴包鏡像進行免費CDN加速,更新頻率高、穩定安全。https://mirrors.aliyun.com/docker-ce/linux/static/stable/x86_64選擇要安裝的版本,我這里選擇最新的28.3.2
將下載的壓縮包通過SFTP上傳到服務器,并用tar命令進行解壓,詳細命令為:
#*為docker版本
tar -zxvf docker-*.tgz
把解壓的文件復制到/usr/bin/目錄,命令為
#注意我這里docker壓縮包是放在/root目錄下的,本條命令執行也是在/root目錄下,如果目錄不同請記得修改路徑
cp docker/* /usr/bin
這時候我們使用docker -v可以看到docker的版本了
還需要把docker注冊成服務,需要編輯文件/etc/systemd/system/docker.service
#編輯/etc/systemd/system/docker.service文件
vi /etc/systemd/system/docker.service
添加如下內容:
[Unit]
Description=Docker Application Container Engine
Documentation=https://docs.docker.com
After=network-online.target firewalld.service
Wants=network-online.target[Service]
Type=notify
# the default is not to use systemd for cgroups because the delegate issues still
# exists and systemd currently does not support the cgroup feature set required
# for containers run by docker
ExecStart=/usr/bin/dockerd
ExecReload=/bin/kill -s HUP $MAINPID
# Having non-zero Limit*s causes performance problems due to accounting overhead
# in the kernel. We recommend using cgroups to do container-local accounting.
LimitNOFILE=infinity
LimitNPROC=infinity
LimitCORE=infinity
# Uncomment TasksMax if your systemd version supports it.
# Only systemd 226 and above support this version.
#TasksMax=infinity
TimeoutStartSec=0
# set delegate yes so that systemd does not reset the cgroups of docker containers
Delegate=yes
# kill only the docker process, not all processes in the cgroup
KillMode=process
# restart the docker process if it exits prematurely
Restart=on-failure
StartLimitBurst=3
StartLimitInterval=60s[Install]
WantedBy=multi-user.target
配置完服務,我們開啟一下docker服務以及設置服務開機自啟動
#開啟docker服務
systemctl start docker
#設置docker服務開機自啟動
systemctl enable docker
輸入docker ps等命令可以正常使用,服務正常
總結下來就一句話,麒麟v10打英偉達驅動以及安裝CUDA的步驟和rhel9(rockylinux9 almalinux9)是一模一樣的。。。。。。