Server - WandB 統計運行 Epoch 以及 手動上傳日志

歡迎關注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/132227253

WandB

WandB (Weights & Biases) 是在線的模型訓練可視化工具,可以幫助跟蹤機器學習項目,記錄運行中的超參數和輸出指標,可視化結果并共享結果,支持多種深度學習框架,如 PyTorch、TensorFlow、Keras 等,也可以與 AWS、GCP、Kubernetes、Azure等云平臺配合使用。

WandB:https://wandb.ai/,注冊即可使用。

統計已運行 epoch 數量,預估訓練時間,查看 WandB,支持選擇 epoch 或 step 或 trainer/global_step 等維度進行查看。

Img

1. 時間計算

例如,運行時間 26h:

kubectl get podstrain-20230808-worker-0   1/1     Running   0          26h
train-20230808-worker-1   1/1     Running   0          26h

單步 step 運行時間,10 個 step,耗時1 min 20 s80s / 10 = 8s,即 8 s/step 計算:

[1,1]<stderr>:2023-08-10 03:30:58,157 INFO 40 [train_openfold.py:206] step=11450
[1,0]<stderr>:2023-08-10 03:30:58,191 INFO 40 [train_openfold.py:206] step=11450
[1,0]<stderr>:2023-08-10 03:32:18,548 INFO 40 [train_openfold.py:206] step=11460
[1,1]<stderr>:2023-08-10 03:32:18,708 INFO 40 [train_openfold.py:206] step=11460

每個 epoch 需要訓練 train_epoch_len=5000 個 step,2 個并行,即每個 epoch 耗時:

(5000 / 2) * 8 = 20000s
20000s / 3600s = 5.5h

那么累計運行,約 26h / 5.5h = 4.7 epoch,約 4~5 個 epoch 點,符合預期,即:

epoch

2. 步數計算

累計運行 step 是 11460 步,2卡并行合計,即:

11460 * 2 = 22920

每 5000 步是 1個 epoch,則繪制的點數是 4 個點,即:

22920 / 5000 = 4.5

3. WandB 配置

在日志中,查看 WandB 配置:

cat train_20230808.log | grep wandb

配置 WandB 在線,命令如下:

wandb online
# key 來自于官網注冊
wandb login --relogin --cloud [your key]

信息中包括 2 個日志,同時進行緩存,1個是機器信息,1個是訓練信息,即:

[1,0]<stderr>:wandb: Tracking run with wandb version 0.12.21
[1,0]<stderr>:wandb: Run data is saved locally in wandb/run-20230809_012556-2007pb1b
[1,0]<stderr>:wandb: Run `wandb offline` to turn off syncing.
[1,0]<stderr>:wandb: Syncing run dandy-pine-11
[1,0]<stderr>:wandb: ?? View project at https://wandb.ai/[project]
[1,0]<stderr>:wandb: 🚀 View run at https://wandb.ai/[project]/runs/2007pb1b

4. 手動上傳日志

遇到網絡異常,即顯示:

[1,0]<stderr>:wandb: Network error (ConnectTimeout), entering retry loop.
[1,1]<stderr>:wandb: Network error (ReadTimeout), entering retry loop.

則需要手動上傳日志,找到日志中的 saved 地址,使用 sync 命令,同步日志,即:

[1,0]<stderr>:wandb: Run data is saved locally in wandb/run-20230809_012556-2007pb1bwandb sync wandb/run-20230809_012556-2007pb1b

日志訪問路徑,即:

[1,0]<stderr>:wandb: 🚀 View run at https://wandb.ai/[project]/runs/2007pb1b

再刷新網頁,即可顯示。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/36153.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/36153.shtml
英文地址,請注明出處:http://en.pswp.cn/news/36153.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

linux shell快速入門

linux shell快速入門 0 、前置1、簡單使用 0 、前置 一安裝linux的虛擬環境 1、簡單使用 1、新建/usr/shell目錄 2、新建hello.sh 文件 3、編寫腳本文件# !/bin/bashecho "hello world"查看是否具備執行權限 新增執行權限 chomd x hello.sh執行hello.sh文件 /b…

限制編輯下的PDF可以轉換其他格式嗎?這2個方法可行

我們知道&#xff0c;PDF可以通過設置“限制編輯”來保護文件不被隨意更改&#xff0c;那PDF設置了“限制編輯”還可以轉換其他格式嗎&#xff1f; 如果PDF設置的是禁止任何更改的“限制編輯”&#xff0c;那PDF菜單【轉換】界面下的格式選項就會呈現灰色狀態&#xff0c;無法…

vscode的配置和使用

1.側邊欄調整大小 放大&#xff1a;View -> Appearance -> Zoom in&#xff08;快捷鍵Ctrl &#xff09; 縮小&#xff1a;View -> Appearance -> Zoom out&#xff08;快捷鍵Ctrl -&#xff09; 側邊欄字體調整到合適大小后&#xff0c;可以按下一步調整代碼區…

【java】Java與SQLite3數據庫類型之間對應關系

引 在開發應用程序時&#xff0c;經常需要將數據存儲到數據庫中。SQLite3 是一種輕量級的嵌入式數據庫&#xff0c;廣泛應用于移動設備和嵌入式系統。在使用 SQLite3 數據庫時&#xff0c;了解 Java 數據類型與 SQLite3 數據庫類型之間的對應關系非常重要&#xff0c;以便正確…

一盞茶的時間,帶你輕松上手Pinia

&#x1f3ac; 岸邊的風&#xff1a;個人主頁 &#x1f525; 個人專欄 :《 VUE 》 《 javaScript 》 ?? 生活的理想&#xff0c;就是為了理想的生活 ! 目錄 &#x1f4da; 前言 &#x1f4d8; 創建 Pinia &#x1f4d8; Option Store &#x1f4d8; Pinia 提供多種選項配…

k8s pod啟動報錯: no route to host

k8s pod kuboard啟動報錯 查看pod命令 kubectl get pods -A kubectl get pods --all-namespaces查看報錯pod日志 命令&#xff1a; kubectl logs -f -n namespace nametime"2023-08-09T13:40:3608:00" levelerror msg"不能獲取 AgentEndpointsGet \"http:/…

在 Linux 中使用 systemd 注冊服務

Systemd 是一種現代的 Linux 系統初始化系統和服務管理器。它旨在管理系統服務的初始化、配置和控制。Systemd 的一個關鍵特性是它可以管理服務&#xff0c;這些服務是為系統提供特定功能的后臺進程。在本指南中&#xff0c;我們將探討如何使用 systemd 在 Linux 中注冊服務。 …

【算法基礎20-單調棧】

算法原理: 用單調遞增棧&#xff0c;當該元素可以入棧的時候&#xff0c;棧頂元素就是它左側第一個比它小的元素。 以&#xff1a;3 4 2 7 5 為例&#xff0c;過程如下&#xff1a; 動態模擬過程 題目&#xff1a; 給定一個長度為 N 的整數數列&#xff0c;輸出每個數左邊第一…

Linux 基礎(九)軟件包管理

軟件包管理 概念軟件包管理工具Red Hat 系RPMrpm安裝rpm卸載 YUM&#xff08;推薦&#xff09;源倉庫管理常見國內 yum 源更換源&#xff08;非必須&#xff0c;除非下載速度確實過慢&#xff09; YUM管理軟件 Debian 系源倉庫管理常見國內 apt 源更換源&#xff08;非必須&…

postman入門基礎 —— 接口測試流程

一、編寫接口測試計劃 接口測試計劃和功能測試計劃目標一致&#xff0c;都是為了確認需求、確定測試環境、確定測試方法&#xff0c;為設計測試用例做準備&#xff0c;初步制定接口測試進度方案。一般來說&#xff0c;接口測試計劃包括概述、測試資源、測試功能、測試重點、測試…

Flutter 報錯 Could not create task ‘xxx‘.this and base files have different roots

遇到此問題也是先去百度了&#xff0c;有的說改了Gradle版本、gradle-wrapper.properties版本和ext.kotlin_version版本之后解決的&#xff0c;我沒嘗試&#xff0c;我用蹩腳的英語大致讀了一下就不是這樣說的&#xff0c;況且我用有道翻譯了也不是這個意思啊&#xff0c;我不知…

抖音小程序實現less語言編譯樣式

1.在抖音開發工具中搜索擴展less 2. 然后點擊小齒輪選擇擴展設置 3. 然后在擴展設置中選擇在settings.json中編輯# 4. 在settings.json中加入以下這段代碼即可 // Easy LESS配置"less.compile": {"compress": false,//是否壓縮"sourceMap": fal…

前端性能優化:緩存

在快節奏的互聯網時代&#xff0c;網站的加載速度直接影響用戶體驗和業務成功。而緩存作為性能優化的重要手段&#xff0c;可以大幅提升網頁加載速度&#xff0c;減少服務器負擔。本文將為你詳解緩存的使用&#xff0c;幫助你優化前端性能&#xff0c;為用戶呈現更快速、流暢的…

EndNote 21 for Mac(文獻管理軟件) v21.0.1中文版

EndNoter mac是一款參考文獻管理軟件&#xff0c;旨在幫助學術研究者、學生和專業人士有效地管理和引用參考文獻。該軟件提供了許多功能&#xff0c;使用戶可以輕松地組織、搜索和引用各種類型的文獻。 EndNoter mac軟件特點和功能 1. 參考文獻管理&#xff1a;EndNoter允許用…

提高 After Effects 效率的 40 個最佳快捷鍵

After Effects 是運動圖形和視覺效果的強大工具&#xff0c;但它也可能讓人不知所措。擁有如此多的特性和功能&#xff0c;很容易讓人迷失在軟件中。但是&#xff0c;有一種方法可以簡化您的工作流程并提高工作效率 - 使用鍵盤快捷鍵。 After Effects素材文件巨大、占用電腦內…

探索自動化網頁交互的魔力:學習 Selenium 之旅【超詳細】

"在當今數字化的世界中&#xff0c;網頁自動化已經成為了不可或缺的技能。想象一下&#xff0c;您可以通過編寫代碼&#xff0c;讓瀏覽器自動執行各種操作&#xff0c;從點擊按鈕到填寫表單&#xff0c;從網頁抓取數據到進行自動化測試。學習 Selenium&#xff0c;這一功能…

Claude 2、ChatGPT、Google Bard優劣勢比較

?Claude 2&#xff1a; 優勢&#xff1a;Claude 2能夠一次性處理多達10萬個tokens&#xff08;約7.5萬個單詞&#xff09;。 tokens數量反映了模型可以處理的文本長度和上下文數量。tokens越多&#xff0c;模型理解語義的能力就越強&#xff09;。它在法律、數學和編碼等多個…

一百五十二、Kettle——Kettle9.3.0本地連接Hive3.1.2(踩坑,親測有效)

一、目的 由于先前使用的kettle8.2版本在Linux上安裝后&#xff0c;創建共享資源庫點擊connect時頁面為空&#xff0c;后來采用如下方法&#xff0c;在/opt/install/data-integration/ui/menubar.xul文件里添加如下代碼 <menuitem id"file-openZiyuanku" label&…

layui的基本使用-日期控件的業務場景使用入門實戰案例一

效果鎮樓&#xff1b; 1 前端UI層面&#xff1b; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport&…

TypeScript教程(五)條件語句,循環,函數

一、條件語句 條件語句基于不同的條件來執行不同的動作 1.if語句&#xff1a;只有當指定條件為true時&#xff0c;使用該語句來執行代碼 2.if...else語句&#xff1a;當條件為true時執行代碼&#xff0c;當條件為else時執行其他代碼 3.if...else if...else語句&#xff1a;…