誤區注意
- 查看當前系統可支持的最高版本cuda:
nvidia-smi
- 說明:
- 此處顯示的
12.7
只是驅動對應的最高版本,不一定是 / 也不一定需要是 當前Python使用的版本。 - 但我們所安裝的CUDA版本需要 小于等于它(即≤12.7)
- 因此即使我此處顯示的是12.7,我依然可以使用12.5的cuda,并不需要卸載再重新安裝。
- 此處顯示的
- 說明:
- 可以在CUDA文件夾下查看,電腦是否安裝了多個版本CUDA(多版本CUDA,可能是 “ pytorch找不到匹配,從而發生錯誤 ” 的原因之一)
- 可以通過找
NVIDIA GPU Computing Toolkit
文件夾,找到CUDA安裝路徑,從而查看電腦里安裝了幾個CUDA(再次注意,上面的12.7并不屬于其中一個。安裝了幾個版本CUDA只看這個文件夾里有幾個即可) - 比如我的電腦只有一個12.5版本的CUDA
- 可以通過找
安裝CUDA Toolkit(即CUDA)
- 之前從沒安裝過CUDA的,可以參考如下過程。
- 該部分內容是整合如下兩篇博文的,因為我之前已經安裝了,但沒有一步步記錄。
- 本來是想直接附這倆博文鏈接,但單看它倆是有缺漏的,所以我把它們結合整理一下,看著比較方便。
- 1、先根據這篇文章完成基礎的CUDA安裝,但要注意如下提示。
- 參考博文1:基礎CUDA安裝(缺少安裝后的一些工作)
- 提示①:3.2中的安裝路徑可以不默認C盤,以免占據太大空間(但你要記住安裝路徑,后續添加系統環境變量時要用)
- 提示②:3.5中取消勾選Visual Studio是由于若系統未安裝VS,勾選后會出錯。但如果已安裝VS,則可以勾選。
- 提示③:在4中,若命令窗口輸入
nvcc -V
沒有顯示不必擔心,可能是因為該博文缺少了添加環境變量的步驟,此時點開下面第二個博文鏈接。
- 2、接著跟著博文2的步驟2~5完成cuDNN和pytorch-gpu的安裝(其中涉及CUDA Toolkit的安裝在博文1中已安裝,可跳過)
- 參考博文2:安裝后續講得比較清楚完整
- 提示①:在3中的虛擬環境Python可安裝3.8版,不是一定3.11
- 提示②:雖然我安裝的是CUDA12.5,沒有直接匹配的pytorch12.5,但可以安裝pytorch12.4
- 提示③:pytorch-gpu若文件太大(一般都幾個G),可以直接在官網或者網絡的其他渠道下載到whl文件后 → 進入虛擬環境 → 直接
pip install (whl文件名)
,能比較快一點。比如:- 我安裝時嫌2G多太慢,就直接點開*.whl鏈接,用另一個有線網電腦幾分鐘下載后(或者也可以找其他渠道下載到同名文件),總之把whl文件放在本地
- (記得切換到虛擬環境下后),再直接pip安裝即可。
- 如上安裝了torch后,還要安裝倆小的,直接再輸入命令即可:
- 我安裝時嫌2G多太慢,就直接點開*.whl鏈接,用另一個有線網電腦幾分鐘下載后(或者也可以找其他渠道下載到同名文件),總之把whl文件放在本地
使用加速
- 根據博文2的步驟5中torch.cuda.is_available()結果顯示True后,即可開始訓練了。
- 開另個窗口輸入
nvidia-smi
后:- CUDA 版本(驅動支持): 12.7(但我的 PyTorch 是 cu124 版本,CUDA可向下兼容)
- 可以查看當前的內存使用:
1970MiB / 6144MiB
→ 表示當前 Python 程序大約使用了 2GB 顯存
- 也可顯示正在使用GPU的進程,與其指向的虛擬環境