配置有nvlink的H20A800使用pytorch報錯

背景

裝有nvlink的h20機器上配置好驅動和cuda之后使用pytorch報錯
A800機器同樣

(pytorch2.4) root@xx-dev-H20:~# python
Python 3.12.0 | packaged by Anaconda, Inc. | (main, Oct 2 2023, 17:29:18) [GCC 11.2.0] on linux
Type “help”, “copyright”, “credits” or “license” for more information.
>>> import torch
torch.>>> torch.cuda.is_available()
/root/anaconda3/envs/pytorch2.4/lib/python3.12/site-packages/torch/cuda/init.py:128: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized (Triggered internally at /opt/conda/conda-bld/pytorch_1724789220573/work/c10/cuda/CUDAFunctions.cpp:108.)
return torch._C._cuda_getDeviceCount() > 0
False

解決

在nvidia fabricmanager官網找到和H20機器上的驅動版本相對應的fabricmanager版本安裝,啟動即可

(pytorch2.4) root@xx-dev-H20:/opt/fabricmanager-linux-x86_64-550.163.01-archive# python
Python 3.12.0 | packaged by Anaconda, Inc. | (main, Oct  2 2023, 17:29:18) [GCC 11.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> 
>>> 
>>> 
>>> import torch
>>> torch.
KeyboardInterrupt
>>> torch.cuda.is_available()
True

查看nvlink吞吐量
nvidia-smi nvlink --getthroughput d
watch -n 1 ‘nvidia-smi nvlink -gt d’

reference

fabricmanager下載地址
https://developer.download.nvidia.cn/compute/nvidia-driver/redist/fabricmanager/linux-x86_64/
nccl使用nvlink通信
https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/env.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/88952.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/88952.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/88952.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

sql的語句執行過程

第一步:客戶端把語句發給服務器端執行 當我們在客戶端執行SQL語句時,客戶端會把這條SQL語句發送給服務器端,讓服務器端的進程來處理這語句。也就是說,Oracle 客戶端是不會做任何的操作,他的主要任務就是把客戶端產生的…

深度學習-分類

深度學習-分類方式 (重點)一、按數據類型與處理邏輯分類1. 序列數據(時序/順序相關)2. 網格狀數據(空間相關)3. 圖結構數據(非歐幾里得結構)4. 其他特殊類型數據 (重點&a…

C語言---常見的字符函數和字符串函數介紹

目錄 前言 1 字符分類函數 2 字符轉換函數 3 strlen的使用和模擬實現 3.1 strlen的模擬實現 4 strcpy的使用和模擬實現 4.1 strcpy的模擬實現 5 strcat的使用和模擬實現 5.1 strcat的模擬實現 6 strcmp的使用和模擬實現 6.1 strcmp的模擬實現 7 strncpy函數的使用…

Minio入門+適配器模式(實戰教程)

一、安裝Minio 1.1 拉取鏡像 docker pull minio/minio docker images 1.2創建掛載目錄 1.2.1 創建數據目錄 mkdir -p /docker-minio/data 1.2.2 創建配置文件目錄 mkdir -p /docker-minio/config 1.2.3 設置權限 chmod -R 777 /docker-minio/data /docker-minio/config …

LLaMA-Factory 對 omnisql 進行 ppo dpo grpo nl2sql任務 實現難度 時間 全面對比

在LLaMA-Factory框架下,針對omnisql任務(自然語言到SQL生成)應用PPO、DPO、GRPO三種算法的實現難度、時間及全面對比如下: 一、實現難度對比 1. PPO(近端策略優化) 難度:★★☆☆☆&#xff…

Kingbase 數據庫中的 sys_guid() 函數報錯

解決 Kingbase 數據庫中的 sys_guid() 函數報錯問題 問題背景 Kingbase 數據庫在遷移或使用過程中,可能會遇到 select sys_guid() 函數報錯 , 提示函數不存在的情況,這通常是由于以下幾種原因造成的: 函數未正確安裝或未啟用函數參數不符合…

零基礎RT-thread第五節:電容按鍵(2)

上一章的電容按鍵完全使用的HAL庫的代碼,并沒有使用線程。這里嘗試使用線程來控制電容按鍵。 依舊是 F767 本來以為會很容易實現,沒想到嘗試了很久,電容按鍵一直沒有反應。 static rt_uint32_t measure_charge_time(void) {// 步驟1: 放電 …

華為云Flexus+DeepSeek征文|單機部署 與 CCE 高可用部署下 Dify 性能實測

引言 在當今的 AI 應用開發領域,選擇合適的部署方式對于應用的性能表現、資源利用和成本控制至關重要。華為云為開發者提供了多樣化的部署選擇,其中基于單機 Flexus 實例的基礎版部署和基于 CCE 容器的高可用版部署是兩種常見的方式。本文將深入對比這兩…

釘釘小程序框架:Pinia 狀態管理與持久化存儲封裝

上一篇文章完成了 Pinia 在釘釘小程序中的引入與基礎配置 文章地址:釘釘小程序框架引入 Pinia 狀態管理-CSDN博客 本文將深入探討如何通過Pinia 結合持久化存儲 實現用戶狀態 在上一章節中,我們已經完成了 Pinia 在釘釘小程序中的引入與基礎配置。本章將…

云計算產業鏈

一、云計算定義與分類體系 本質特征 按需服務模式:以網絡化方式提供可配置的計算資源共享池(網絡/服務器/存儲/應用)。核心能力:快速彈性擴容、資源池化共享、按使用量付費、低管理開銷。技術原理:通過分布式計算將大型…

git使用詳解和示例

什么是 Git? Git 是一個 分布式版本控制系統(DVCS),用于跟蹤文件的變化,協調多人協作開發。由 Linus Torvalds 開發,用于管理 Linux 內核代碼。 Git 的核心概念 名稱說明工作區 (Working Directory)你看到…

深度學習的引出

雖然我們的神經?絡給出了令?印象深刻的表現,但這樣的表現帶有?分神秘 ?絡中的權重和偏置是被?動發現的。這意味著我們不能?即解釋?絡怎么做的、做了什么。我們能否找 到?些?法來理解我們的?絡通過什么原理分類?寫數字?并且,在知道…

GEO(生成式引擎優化)—— 內容創作者與企業的生死新戰場

在搜索引擎優化(SEO)定義了互聯網信息獲取規則數十年后,一場由生成式人工智能(AIGC)驅動的風暴正悄然重塑整個格局。當ChatGPT、Claude、Gemini等AI助手能夠直接生成整合后的答案,而非僅僅提供鏈接列表時&a…

混合密度模型GMM的似然函數(二)

設 Θ { π k , θ k } k 1 K \varTheta \{ \pi_k, \boldsymbol {\theta}_k \}_{k1}^{K} Θ{πk?,θk?}k1K?為參數向量, X { x 1 , ? , x n } \mathcal {X} \{ {\bm x}_1, \cdots, {\bm x}_n \} X{x1?,?,xn?}為觀測數據,給定數據點的獨立性&a…

selenium元素定位

當我們可以打開瀏覽器后我們如果想要進行web測試我們自然要對網頁的一些功能進行單獨拿出來進行測試,但是我們要怎么才能拿到我們想要的元素,并且對其進行操作呢。 我們就以百度主頁的輸入框為例,如果我們想要王輸入框中輸入一些內容我們就需…

2025第十五屆上海生物發酵展:江蘇健達干燥盛裝赴會

2025 年 8 月 7 - 9 日,上海新國際博覽中心將迎來一場生物發酵行業的盛會 —— 第 15 屆上海國際生物發酵產品與技術裝備展覽會(BIOCHINA 2025)。作為國內干燥設備領域的領軍企業,江蘇健達干燥工程有限公司受邀盛裝參展&#xff0…

【效率工具】單機游戲修改方案:輕量管理器+全能平臺組合

大家好!今天我要給大家介紹兩款超級實用的軟件,專門為喜歡玩單機游戲的小伙伴們準備。 一、風靈月影管理器 不想滿網翻修改器?這個 27M 的小工具直接幫你一鍵搞定,這款軟件是由B站UP鴉無量 開發。 收錄上千款游戲補丁,…

七天學會SpringCloud分布式微服務——01——基礎概念

重點是復習體系,從今天6.24開始,確保轉化為自己的東西心平氣和,腳踏實地學習的是尚硅谷微服務 1、從單體架構到集群架構再到分布式架構 單體架構 就是 所有的功能(服務)模塊 都部署在同一臺服務器(一臺服…

三分鐘學會利用deepseek將復雜信息轉換成可視化圖表

數據可視化是傳達復雜信息的重要手段。通過將數據轉化為直觀的圖表、圖形和交互式界面,我們可以更高效地理解信息、發現趨勢并做出決策。對于普通人來說,要將數據可視化可謂千難萬難。但在AI工具飛速發展的今天,這個過程將會變得非常簡單。今天分享的內容就是如何使用生成式…

PDF處理控件Spire.PDF系列教程:Python中快速提取PDF文本、表格、圖像及文檔信息

在 Python 中讀取 PDF 文檔是實現文檔自動化、內容分析和數據提取的基礎操作之一。無論你處理的是合同、報告、發票,還是科研論文,能夠通過代碼訪問 PDF 內容,不僅能節省時間,還能帶來更高效的處理流程。 要在 Python 中準確提取…