文章目錄
- 一. 檢查資源使用情況,避免沖突
- 1. 檢查在線用戶
- 2. 檢查 CPU 使用情況
- 3. 檢查 GPU 使用情況
- 4. 協作建議
- 二. 備份重要文件和數據
- 三. 定期清理硬盤空間
- 四. 退出 ThinLinc 時注銷,釋放內存
- 五. 校外使用時配置 VPN
- 注意事項
- 總結
實驗室的電腦配備了 CPU 和 GPU 資源,供多個子用戶共享使用。為了避免資源沖突、提高效率并保護數據安全,大家需要規范使用工作站。以下是詳細指導,幫助大家高效、協作地使用資源。
一. 檢查資源使用情況,避免沖突
在運行代碼前,務必檢查 CPU 和 GPU 的使用情況,確保不與他人任務沖突。一起運行代碼會降低性能,甚至導致程序崩潰。建議協商排隊使用。
1. 檢查在線用戶
- 命令:
who
- 作用:查看當前登錄工作站的用戶。
- 操作:在終端輸入以下命令:
who
- 輸出示例:
user1 pts/0 2025-06-03 14:30 (192.168.1.10) user2 pts/1 2025-06-03 14:32 (10.0.0.5)
- 說明:顯示在線用戶、登錄時間和來源 IP。聯系在線用戶,確認他們的任務狀態。
2. 檢查 CPU 使用情況
- 命令:
htop
- 作用:實時查看 CPU 和內存使用情況,識別占用資源的進程。
- 操作:
- 在終端輸入:
htop
- 查看“CPU”欄,檢查使用率(例如 50% 表示一半負載)。
- 按
F5
查看進程樹,找到占用 CPU 的用戶和程序(PID、用戶、命令等)。
- 在終端輸入:
- 建議:如果 CPU 占用高(如 >80%),聯系相關用戶,協商錯開運行時間。
3. 檢查 GPU 使用情況
- 命令:
nvidia-smi
- 作用:查看 GPU 內存、利用率和運行進程。
- 操作:
- 在終端輸入:
nvidia-smi
- 檢查“GPU-Util”列(GPU 利用率)和“Processes”部分(顯示 PID、用戶、程序名)。
- 在終端輸入:
- 輸出示例:
+---------------------------------------------------------------------------------+ | NVIDIA-SMI 550.54.14 Driver Version: 550.54.14 CUDA Version: 12.4 | |-------------------------------+----------------------+-------------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+=========================| | 0 NVIDIA GeForce RTX 4090 Off | 00000000:01:00.0 Off | Off | | 30% 38C P2 55W / 450W | 14704MiB / 24564MiB | 0% Default | +-------------------------------+----------------------+-------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory Usage | |===============================+======================+=========================| | 0 N/A N/A 12345 C python 14700MiB | +-------------------------------+----------------------+-------------------------+
- 建議:若 GPU 內存或利用率高,聯系占用者(通過 PID 對應用戶),商量排隊使用。
4. 協作建議
- 溝通:運行大任務前,與在線用戶
溝通
,確認資源可用性。 - 排隊:協商使用時間,避免同時運行多個重負載任務。
二. 備份重要文件和數據
- 重要性:工作站數據可能因硬件故障、誤操作或系統問題丟失。
- 建議:
- 定期備份重要代碼、數據和配置文件。
- 存儲位置:
- 個人電腦硬盤
- U 盤或移動硬盤
- 云存儲(如百度網盤)
- 使用
SCP 命令
或FileZilla 軟件
(如下截圖所示)可以快捷與個人主機文件傳輸
- 注意:不要完全依賴工作站存儲,意外情況隨時可能發生!并且注意傳入工作站的文件是否安全,切勿將疑似
帶有病毒
的文件包傳入!
三. 定期清理硬盤空間
- 背景:工作站硬盤是公用的,空間有限,需共同維護。
- 操作:
- 檢查磁盤使用情況:
df -h
- 查看掛載點(如
/home
)的剩余空間。
- 查看掛載點(如
- 查找大文件或無用數據:
du -sh /home/* | sort -hr
- 列出目錄和文件大小,找出占用空間大的內容。
- 清理垃圾文件:
- 刪除臨時文件、日志、舊數據包等。
- 示例:刪除
*.tmp
文件:rm -rf /home/your_username/*.tmp
- 檢查磁盤使用情況:
- 建議:
- 將不必要的文件轉移到個人電腦或網盤。
- 能不留的垃圾文件和數據包都刪除,保持硬盤整潔。
- 定期(例如每周)檢查和清理。
四. 退出 ThinLinc 時注銷,釋放內存
-
背景:ThinLinc 是實驗室常用的遠程桌面工具,退出時若不注銷,會話可能繼續占用內存,導致工作站性能下降或死機。
-
操作:
- 確認無程序需要后臺運行。
- 點擊桌面右上角的“注銷”按鈕(通常在系統菜單中)。
- 選擇“注銷”或“Log Out”,結束會話。
-
好處:
- 釋放主機內存,減少資源占用。
- 降低工作站死機風險,提高穩定性。
-
注意:
- 但是若有長期任務(如訓練模型),要確保任務在后臺運行
- 若再次登陸時,發現無法通過 ThinLinc 建立連接的問題,如下圖所示把
End existing session
勾選上再次嘗試
五. 校外使用時配置 VPN
- 需求:在校外訪問實驗室工作站需通過學校網絡。
- 操作:
- 訪問學校官網,找到 IT 或網絡服務頁面。
- 下載 VPN 連接軟件:EasyConnect。
- 安裝并配置:
- 輸入學校提供的 VPN 服務器地址。
- 使用您的學號/工號和密碼登錄。
- 連接成功后,通過 ThinLinc 或 SSH 訪問工作站。
- 建議:
- 確保 EasyConnect 版本與學校要求一致。
- 校外使用時,保持 VPN 連接穩定,避免中斷。
注意事項
- 謹慎操作:管理員修改系統設置或刪除文件前,確認權限和影響。
- 備份:所有建議中,備份和溝通始終是關鍵,保護代碼和數據。
- 尊重他人:資源共享,優先溝通,協商使用。
總結
規范使用實驗室電腦資源是大家的責任!運行代碼前檢查 CPU(htop
)和 GPU(nvidia-smi
),用 who
確認在線用戶,協商排隊;備份重要數據,定期清理硬盤;退出 ThinLinc 時注銷釋放內存;校外使用時配置 EasyConnect VPN。讓我們共同維護工作站的高效和穩定!
如有疑問,聯系實驗室管理員或群內討論。謝謝配合!