1.Ubuntu24.04在手動分區時,沒有efi選項,需要點擊分區界面左下角,選擇efi的位置,然后會自動創建/boot/efi分區,改到2GB大小即可。
2.更新Nvidia驅動后,重啟電腦wifi消失,參考二選一:
ubuntu安裝英偉達顯卡驅動后wifi消失解決方法
Ubuntu 22.04 “軟件與更新”裝了NVIDIA驅動,WiFi等設備不見了
3.各個位置分配大小,硬盤為1T
分區 | 大小MB |
---|---|
efi | 2048 |
swap | 32768 |
/ | 102400 |
var | 51200 |
usr | 102400 |
boot | 2048 |
home | left |
4.關于CUDA版本,從官網看ubuntu24.04只能裝≥12.5.0的版本,但是要求nvidia-driver大于等于555.42,所以CUDA官網給出的都不能裝,最后通過命令行sudo apt-get install nvidia-cuda-toolkit
安裝。發現他給我裝的是12.0。
那么問題又來了,pytorch官網沒有CUDA12.0的版本,然后我又卸載了。根據我的nvidia-driver的推薦,我準備安裝12.4.1版本。雖然官網給的版本沒有24.04,但是我按照22.04的教程也裝成功了。關于版本對應,可以參考CUDA和Nvidia Driver對照表
5.裝CUDA12.4的時候遇到的報錯:nsight-systems-2023.4.4 : Depends: libtinfo5 but it is not installable。解決:
sudo apt update
wget http://security.ubuntu.com/ubuntu/pool/universe/n/ncurses/libtinfo5_6.3-2ubuntu0.1_amd64.deb
sudo apt install ./libtinfo5_6.3-2ubuntu0.1_amd64.deb
終于裝好CUDA12.4,需要提醒的是,使用runfile進行安裝就會報錯。
裝好后nvcc沒有東西,需要設置環境變量:
export PATH="/usr/local/cuda/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda/lib64:$LD_LIBRARY_PATH"
source 一下再nvcc -V 就能看到輸出了
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2024 NVIDIA Corporation
Built on Thu_Mar_28_02:18:24_PDT_2024
Cuda compilation tools, release 12.4, V12.4.131
Build cuda_12.4.r12.4/compiler.34097967_0
參考Ubuntu24.04配置cuda、cudnn
很奇怪,安裝CuDNN對應的版本是CUDA24.04跳轉
好像CUDNN裝22.04 和 24.04的都可以,我裝的是24.04。
6.偷來的檢測是否安裝成功驗證成功代碼
import torch
print(torch.__version__)
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print("CUDA 可用:", torch.cuda.is_available())
print("cuDNN 已啟用:", torch.backends.cudnn.enabled)
print(torch.__version__)
x = torch.rand(5, 3)
y = torch.rand(5, 3)
z = x + y
print(z)
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)
print("CUDA available:", torch.cuda.is_available())
print("cuDNN enabled:", torch.backends.cudnn.enabled)
print(torch.version.cuda)
print(torch.backends.cudnn.version())
7.由于torch版本較新2.5.0,對應的python版本也要使用最新版,參考對照表,我的python=3.11
8.torch無法調用CUDA
>>> torch.cuda.is_available()
/home/hhh/.conda/envs/yolo11/lib/python3.11/site-packages/torch/cuda/__init__.py:129: UserWarning: CUDA initialization: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting the available devices to be zero. (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:108.)return torch._C._cuda_getDeviceCount() > 0
False
解決:
sudo apt-get install nvidia-modprobe
9.ROS2 jazzy 安裝和測試參考官方文檔
ros2 run demo_nodes_cpp talker
ros2 run demo_nodes_py listener
10.測試TensorRT10.7是否安裝成功
https://github.com/NVIDIA/TensorRT/tree/main/samples/sampleOnnxMNIST