python打卡第45天

tensorboard的發展歷史和原理

一、發展歷史

起源與 TensorFlow 一同誕生 (2015年底):

TensorBoard 最初是作為?TensorFlow?開源項目（2015年11月發布）的一部分而設計和開發的。其核心目標是解決深度學習模型訓練過程中的“黑盒”問題，提供直觀的方式來觀察模型內部狀態、訓練指標和計算圖結構。早期核心功能:?標量可視化（損失、準確率等）、計算圖可視化、簡單的直方圖（分布）可視化。

逐步擴展功能 (2016-2018):

Embedding Projector:?引入了強大的高維數據（如詞嵌入、激活）降維和可視化工具（PCA, t-SNE），用于探索和理解嵌入空間。圖像、音頻、文本支持:?增加了直接查看訓練/驗證集中的樣本圖像、生成的音頻樣本、文本摘要的功能，方便檢查輸入數據和模型輸出。

TensorFlow 2.x 時代與插件化 (2019至今):

緊密集成 Keras:?TensorFlow 2.x 將 Keras 作為高級API，TensorBoard 也深度集成了 Keras 的回調機制 (tf.keras.callbacks.TensorBoard)，使用戶能更便捷地記錄數據。模型圖可視化改進:?更好地支持?tf.function?和 Eager Execution 模式下的模型結構可視化。Profile 工具:?集成了強大的性能分析器，可以分析模型在 CPU/GPU/TPU 上的執行時間、內存消耗、算子耗時等，用于性能瓶頸定位和優化。

二、核心原理

TensorBoard 的工作原理可以概括為?“寫日志” -> “讀日志” -> “可視化”?三個步驟：

數據記錄 (Write Logs):

在模型訓練/評估代碼中，使用?Summary API?在關鍵點記錄需要可視化的數據。

TensorFlow:?tf.summary.scalar(),?tf.summary.image(),?tf.summary.histogram(),?tf.summary.text(),?tf.summary.audio(),?tf.summary.graph()?等。

PyTorch:?torch.utils.tensorboard.SummaryWriter.add_scalar(),?add_image(),?add_histogram()?等。

其他框架:?使用相應的適配器庫。

這些 API 調用并不會立即進行昂貴的渲染操作，而是將數據序列化為?tf.Event?協議緩沖區 (Protocol Buffer) 格式。

這些?tf.Event?記錄被順序追加寫入到磁盤上的?事件文件?中，通常命名為?events.out.tfevents.*。

寫入器 (SummaryWriter) 負責管理這些事件文件（如輪轉、刷新）。

數據加載與聚合 (Read and Aggregate Logs):

用戶通過命令行 (tensorboard --logdir=path/to/logs) 或 Notebook 內聯方式啟動 TensorBoard 服務器。

TensorBoard 后端服務 (Python) 監控指定的日志目錄 (--logdir)。

后端使用高效的?tensorboard.data.server?組件：

掃描目錄:?遞歸掃描?--logdir?下的所有子目錄，尋找事件文件 (*.tfevents.*)。

解析事件文件:?讀取并解析這些二進制事件文件，從中提取出存儲的?tf.Event?記錄。

聚合數據:?將解析出的原始數據（標量值、圖像字節、直方圖桶計數、圖結構等）根據其類型和標簽（Tag）進行聚合和組織，存儲在內存或緩存中，構建出可供前端查詢的數據結構。

處理運行 (Runs):?通常將日志目錄下的每個子目錄視為一個獨立的“運行”（Run，代表一次實驗或訓練過程），便于比較不同實驗的結果。

可視化展示 (Visualize):

TensorBoard 啟動一個?Web 服務器?(默認端口 6006)。

用戶在瀏覽器中訪問?http://localhost:6006?(或指定的地址)。

瀏覽器加載 TensorBoard 的前端應用 (基于 JavaScript, HTML, CSS)。

前端通過?HTTP API?向后端發送查詢請求（例如：獲取某個 Run 下某個 Tag 的所有標量數據點；獲取最新一批圖像；獲取模型圖結構等）。

后端接收到請求后，從它聚合好的數據結構中檢索出相應的數據，并通過?JSON?或其他格式返回給前端。

前端使用?可視化庫（如?D3.js?用于圖表繪制，?Three.js?用于 Embedding Projector 的 3D 渲染）將接收到的數據渲染成交互式的圖表和視圖（Scalars 折線圖、Images 網格、Distributions 直方圖動畫、Graphs 節點連接圖、Embeddings 3D點云等）。

用戶可以在前端界面交互（如縮放圖表、切換 Runs/Tags、調整 Embedding Projector 的參數、在計算圖中點擊節點查看詳情等），這些交互會觸發新的 API 請求，實現動態更新視圖。

import os
from torch.utils.tensorboard import SummaryWriterbase_dir = 'runs/cifar10_mlp_experiment'
log_dir = base_dir# 查找可用目錄名
counter = 1
while os.path.exists(log_dir):log_dir = f"{base_dir}_{counter}"counter += 1# 創建SummaryWriter
writer = SummaryWriter(log_dir)

# 記錄每個 Batch 的損失和準確率
writer.add_scalar('Train/Batch_Loss', batch_loss, global_step)
writer.add_scalar('Train/Batch_Accuracy', batch_acc, global_step)# 記錄每個 Epoch 的訓練指標
writer.add_scalar('Train/Epoch_Loss', epoch_train_loss, epoch)
writer.add_scalar('Train/Epoch_Accuracy', epoch_train_acc, epoch)dataiter = iter(train_loader)
images, labels = next(dataiter)
images = images.to(device)
writer.add_graph(model, images)  # 通過真實輸入樣本生成模型計算圖# 可視化原始訓練圖像
img_grid = torchvision.utils.make_grid(images[:8].cpu()) # 將多張圖像拼接成網格狀（方便可視化），將前8張圖像拼接成一個網格
writer.add_image('原始訓練圖像', img_grid)# 可視化錯誤預測樣本（訓練結束后）
wrong_img_grid = torchvision.utils.make_grid(wrong_images[:display_count])
writer.add_image('錯誤預測樣本', wrong_img_grid)if (batch_idx + 1) % 500 == 0:for name, param in model.named_parameters():writer.add_histogram(f'weights/{name}', param, global_step)  # 權重分布if param.grad is not None:writer.add_histogram(f'grads/{name}', param.grad, global_step)  # 梯度分布

@浙大疏錦行

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/82851.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/82851.shtml
英文地址，請注明出處：http://en.pswp.cn/web/82851.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！