每日禪語
自省,就是自我反省、自我檢查,自知己短,從而彌補短處、糾正過失。佛陀強調自覺覺他,強調以達到覺行圓滿為修行的最高境界。要改正錯誤,除了虛心接受他人意見之外,還要不忘時時觀照己身。自省自悟之道,可以使人在不斷的自我反省中達到水一樣的境界,在至柔之中發揮至剛至凈的威力,具有廣闊的胸襟和氣度。“知人者智,自知者明。?”觀水自照,可知自身得失。人生在世,若能時刻自省,還有什么痛苦、煩惱是不能排遣、擺脫的呢?佛說:?“大海不容死尸。?”水性是至潔的,表面藏垢納污,實質水凈沙明,至凈至剛,不為外物所染。
1.Nvidia gpu驅動安裝
1.1確認當前英偉達顯卡的型號
1.2獲取對應的gpu型號
打開網站查詢:https://admin.pci-ids.ucw.cz/read/PC/10de 拖到底部的查詢框輸出2216,點擊查詢即可,輸出顯示類似的如下信息即可得知gpu型號
1.3下載nvidia驅動
1.4nvidia gpu驅動安裝
#將下載的gpu驅動文件上傳到服務器安裝即可
yum install gcc make -y
#直接安裝即可,視情況加參數
chmod a+x NVIDIA-Linux-x86_64-550.90.07.run
./NVIDIA-Linux-x86_64-550.90.07.run
2.安裝NVIDIA Container Toolkit
目的:配置 NVIDIA Container Toolkit 倉庫并安裝相關包的操作是為了在 CentOS 系統上設置 NVIDIA Container Toolkit。這些步驟允許 Docker 容器訪問 GPU 資源。
2.1步驟一:配置生產倉庫
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \?sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
操作內容解析
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo
:使用curl
下載 NVIDIA Container Toolkit 的 yum repository 配置文件。sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
:將下載的倉庫配置文件寫入/etc/yum.repos.d/nvidia-container-toolkit.repo
,使系統可以從該倉庫安裝相關軟件包。
?2.2安裝 NVIDIA Container Toolkit
sudo yum install -y nvidia-container-toolkit
操作內容解析
sudo yum install -y nvidia-container-toolkit
:使用yum
命令安裝nvidia-container-toolkit
軟件包。安裝之后,系統會獲得一組工具,這些工具允許 Docker 容器能夠訪問 GPU。
2.3配置 containerd(適用于 Kubernetes)
sudo nvidia-ctk runtime configure --runtime=containerd --config=/etc/containerd/config.toml
sudo systemctl restart containerd
3.k8s安裝nvidia-device-plugin插件
#查看節點資源情況
#這說明k8s節點沒有識別到gpu資源,即使當前節點有gpu資源
kubectl describe nodes gpu
Capacity:cpu: 40ephemeral-storage: 51175Mihugepages-1Gi: 0hugepages-2Mi: 0memory: 16417696Kipods: 110#k8s中要識別gpu資源,需要安裝nvidia-device-plugin插件,注冊分配gpu主要由device-plugin插件完成
#官網:https://github.com/NVIDIA/k8s-device-plugin
wget https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.1/nvidia-device-plugin.yml
#vim nvidia-device-plugin.yml #該文件存在hostpath的卷,確認kubelet的安裝路徑正確
kubectl apply -f nvidia-device-plugin.yml
kubectl get pod -n kube-system | grep nvidia-device-plugin
#再次查看k8s的gpu節點資源情況就可以顯示gpu資源了
kubectl describe nodes gpu
...........
Capacity:cpu: 40ephemeral-storage: 51175Mihugepages-1Gi: 0hugepages-2Mi: 0memory: 16417696Kinvidia.com/gpu: 2 #2個gpu顯卡pods: 110