模型測試報錯:有2張顯卡但cuda.device_count()顯示GPU卡數量只有一張

此貼僅為記錄debug過程,為防后續再次遇見


問題

問題情境
復現文章模型,使用GPU跑代碼,有兩張GPU,設置在 cuda: 1 上跑

問題描述
在模型測試加載最優模型時報錯:torch.cuda.device_count()顯示GPU卡數量只有一張,無法加載使用卡1
在這里插入圖片描述

報錯信息
運行超時

RuntimeError: Attempting to deserialize object on CUDA device 1 but torch.cuda.device_count() is 1. Please use torch.load with map_location to map your storages to an existing device.

解決

發現是以下代碼問題

os.environ['CUDA_VISIBLE_DEVICES'] = args.gpu

該語句限制了 PyTorch 進程可以看到的 GPU。例如,如果 x=“0”,則你的代碼只能看到一張 GPU(設備 0),即使你機器有多張卡,之后你調用 torch.cuda.device_count() 就只會返回 1

將該行代碼注釋后可以成功使用GPU 1 運行測試
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/79337.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/79337.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/79337.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【計網】認識跨域,及其在go中通過注冊CORS中間件解決跨域方案,go-zero、gin

一、跨域(CORS)是什么? 跨域,指的是瀏覽器出于安全限制,前端頁面在訪問不同源(協議、域名、端口任一不同)的后端接口時,會被瀏覽器攔截。 比如: 前端地址后端接口地址是…

內存性能測試方法

寫于 2022 年 6 月 24 日 內存性能測試方法 - Wesley’s Blog dd方法測試 cat proc/meminfo console:/ # cat proc/meminfo MemTotal: 3858576 kB MemFree: 675328 kB MemAvailable: 1142452 kB Buffers: 65280 kB Cached: 992252 …

AVFormatContext 再分析二

說明 :將 avfromatContext 的變量依次打印分析,根據ffmpeg 給的說明,猜測,結合網上的文章字節寫測試代碼分析二。 37 AVInputFormat *iformat; /** * The input container format. * * Demuxing only, set by avfo…

深入了解Linux系統—— 進程優先級

前言 我們現在了解了進程是什么,進程狀態表示什么 ,我們現在繼續來了解進程的屬性 —— 進程優先級 進程執行者 在了解進程優先級之前,先來思考一個問題:在我們進行文件訪問操作時,操作系統是如何直到我們是誰&#x…

Expected SARSA算法詳解:python 從零實現

🧠 向所有學習者致敬! “學習不是裝滿一桶水,而是點燃一把火。” —— 葉芝 我的博客主頁: https://lizheng.blog.csdn.net 🌐 歡迎點擊加入AI人工智能社區! 🚀 讓我們一起努力,共創…

1penl配置

好的,根據您提供的 1pctl 命令輸出信息,我們來重新依次回答您的所有問題: 第一:1Panel 怎么設置 IP 地址? 根據您提供的 user-info 輸出: 面板地址: http://$LOCAL_IP:34523/93d8d2d705 這里的 $LOCAL_I…

鏈表的回文結構題解

首先閱讀題目: 1.要保證是回文結構 2.他的時間復雜度為O(n)、空間復雜度為O(1) 給出思路: 1.首先利用一個函數找到中間節點 2.利用一個函數逆置中間節點往后的所有節點 3.現在有兩個鏈表,第一個鏈表取頭節點一直到中間節點、第二個鏈表取頭結點到尾…

【LLaMA-Factory實戰】1.3命令行深度操作:YAML配置與多GPU訓練全解析

一、引言 在大模型微調場景中,命令行操作是實現自動化、規模化訓練的核心手段。LLaMA-Factory通過YAML配置文件和多GPU分布式訓練技術,支持開發者高效管理復雜訓練參數,突破單機算力限制。本文將結合結構圖、實戰代碼和生產級部署經驗&#…

C++負載均衡遠程調用學習之 Dns-Route關系構建

目錄 1.LARS-DNS-MYSQL環境搭建 2.LARSDNS-系統整體模塊的簡單說明 3.Lars-Dns-功能說明 4.Lars-Dns-數據表的創建 5.Lars-Dns-整體功能說明 6.Lars-DnsV0.1-Route類的單例實現 7.Lars-DnsV0.1-Route類的鏈接數據庫方法實現 8.Lars-DnsV0.1-定義存放RouteData關系的map數…

fastapi+vue中的用戶權限管理設計

數據庫設計:RBAC數據模型 這是一個典型的基于SQLAlchemy的RBAC權限系統數據模型實現,各模型分工明確,共同構成完整的權限管理系統。 圖解說明: 實體關系: 用戶(USER)和角色(ROLE)通過 USER_ROLE 中間表實現多對多關系…

【Python實戰】飛機大戰

開發一個飛機大戰游戲是Python學習的經典實戰項目,尤其適合結合面向對象編程和游戲框架(如Pygame)進行實踐。以下是游戲設計的核心考慮因素和模塊劃分建議: 一、游戲設計核心考慮因素 性能優化 Python游戲需注意幀率控制&#xff…

Flowable7.x學習筆記(十八)拾取我的待辦

前言 本文從解讀源碼到實現功能,完整的學習Flowable的【TaskService】-【claim】方法實現的任務拾取功能。 一、概述 當調用 TaskService.claim(taskId, userId) 時,Flowable 會先加載并校驗任務實體,再判斷該任務是否已被認領;若…

SQL經典實例

第1章 檢索記錄 1.1 檢索所有行和列 知識點:使用SELECT *快速檢索表中所有列;顯式列出列名(如SELECT col1, col2)提高可讀性和可控性,尤其在編程場景中更清晰。 1.2 篩選行 知識點:通過WHERE子句過濾符合條…

HTTPcookie與session實現

1.HTTP Cookie 定義 HTTP Cookie (也稱為 Web Cookie 、瀏覽器 Cookie 或簡稱 Cookie )是服務器發送到 用戶瀏覽器并保存在瀏覽器上的一小塊數據,它會在瀏覽器之后向同一服務器再次發 起請求時被攜帶并發送到服務器上。通常&#xff0…

【算法基礎】冒泡排序算法 - JAVA

一、算法基礎 1.1 什么是冒泡排序 冒泡排序是一種簡單直觀的比較排序算法。它重復地走訪待排序的數列,依次比較相鄰兩個元素,如果順序錯誤就交換它們,直到沒有元素需要交換為止。 1.2 基本思想 比較相鄰元素:從頭開始&#xf…

0902Redux_狀態管理-react-仿低代碼平臺項目

文章目錄 1 Redux 概述1.1 核心概念1.2 基本組成1.3 工作流程1.4 中間件(Middleware)1.5 適用場景1.6 優缺點1.7 Redux Toolkit(現代推薦)1.8 與其他工具的對比1.9 總結 2 todoList 待辦事項案例3 Redux開發者工具3.1 核心功能3.2…

《ATPL地面培訓教材13:飛行原理》——第6章:阻力

翻譯:Leweslyh;工具:Cursor & Claude 3.7;過程稿 第6章:阻力 目錄 引言寄生阻力誘導阻力減少誘導阻力的方法升力對寄生阻力的影響飛機總阻力飛機總重量對總阻力的影響高度對總阻力的影響構型對總阻力的影響速度穩…

C++總結01-類型相關

一、數據存儲 1.程序數據段 ? 靜態(全局)數據區:全局變量、靜態變量 ? 堆內存:程序員手動分配、手動釋放 ? 棧內存:編譯器自動分配、自動釋放 ? 常量區:編譯時大小、值確定不可修改 2.程序代碼段 ?…

【Hot 100】94. 二叉樹的中序遍歷

目錄 引言二叉樹的中序遍歷我的解題代碼優化更清晰的表述建議: 🙋?♂? 作者:海碼007📜 專欄:算法專欄💥 標題:【Hot 100】94. 二叉樹的中序遍歷?? 寄語:書到用時方恨少&#xff…

大語言模型(LLMs)微調技術總結

文章目錄 全面總結當前大語言模型(LLM)微調技術1. 引言2. 為什么需要微調?3. 微調技術分類概覽4. 各種微調技術詳細介紹4.1 基礎微調方法4.1.1 有監督微調(Supervised Fine-Tuning, SFT)4.1.2 全參數微調(F…