day 37

模型的保存和加載

僅保存模型參數

- 原理:保存模型的權重參數,不保存模型結構代碼。加載時需提前定義與訓練時一致的模型類。

- 優點:文件體積小(僅含參數),跨框架兼容性強(需自行定義模型結構)。

# 保存模型參數
torch.save(model.state_dict(), "model_weights.pth")# 加載參數(需先定義模型結構)
model = MLP()  # 初始化與訓練時相同的模型結構
model.load_state_dict(torch.load("model_weights.pth"))
# model.eval()  # 切換至推理模式(可選)

保存模型+權重

- 原理:保存模型結構及參數

- 優點:加載時無需提前定義模型類

- 缺點:文件體積大,依賴訓練時的代碼環境(如自定義層可能報錯)。

# 保存整個模型
torch.save(model, "full_model.pth")# 加載模型(無需提前定義類,但需確保環境一致)
model = torch.load("full_model.pth")
model.eval()  # 切換至推理模式(可選)

保存訓練狀態(斷點續訓)

- 原理:保存模型參數、優化器狀態(學習率、動量)、訓練輪次、損失值等完整訓練狀態,用于中斷后繼續訓練。

- 適用場景:長時間訓練任務(如分布式訓練、算力中斷)。

 # 保存訓練狀態checkpoint = {"model_state_dict": model.state_dict(),"optimizer_state_dict": optimizer.state_dict(),"epoch": epoch,"loss": best_loss,}torch.save(checkpoint, "checkpoint.pth")# 加載并續訓model = MLP()optimizer = torch.optim.Adam(model.parameters())checkpoint = torch.load("checkpoint.pth")model.load_state_dict(checkpoint["model_state_dict"])optimizer.load_state_dict(checkpoint["optimizer_state_dict"])start_epoch = checkpoint["epoch"] + 1  # 從下一輪開始訓練best_loss = checkpoint["loss"]# 繼續訓練循環for epoch in range(start_epoch, num_epochs):train(model, optimizer, ...)

早停法(early stop)

- 正常情況:訓練集和測試集損失同步下降,最終趨于穩定。

- 過擬合:訓練集損失持續下降,但測試集損失在某一時刻開始上升(或不再下降)。

如果可以監控驗證集的指標不再變好,此時提前終止訓練,避免模型對訓練集過度擬合。----監控的對象是驗證集的指標。這種策略叫早停法。

if test_loss.item() < best_test_loss: # 如果當前測試集損失小于最佳損失best_test_loss = test_loss.item() # 更新最佳損失best_epoch = epoch + 1 # 更新最佳epochcounter = 0 # 重置計數器# 保存最佳模型torch.save(model.state_dict(), 'best_model.pth')else:counter += 1if counter >= patience:print(f"早停觸發!在第{epoch+1}輪,測試集損失已有{patience}輪未改善。")print(f"最佳測試集損失出現在第{best_epoch}輪,損失值為{best_test_loss:.4f}")early_stopped = Truebreak  # 終止訓練循環

邏輯:

- 首先初始一個計數器counter。

- 每 200 輪訓練執行一次判斷:比較當前損失與歷史最佳損失。

? - 若當前損失更低,保存模型參數。

? - 若當前損失更高或相等,計數器加 1。

? ? - 若計數器達到最大容許的閾值patience,則停止訓練。

@浙大疏錦行

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/907056.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/907056.shtml
英文地址,請注明出處:http://en.pswp.cn/news/907056.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MFC:獲取所有打印機的名稱(打印機模塊-2)

背景&#xff1a; “遍歷當前用戶的每一臺虛擬打印機&#xff0c;將其默認紙張設置為 A4 并設置為縱向。” 實現原理&#xff1a; 1.從當前用戶的注冊表讀取所有已配置的打印機&#xff1b; 2.遍歷每臺打印機&#xff1b; 3.輸出其邏輯與實際紙張大小&#xff1b; 4.嘗試設置…

Python驅動的游戲場景實時生成:如何用AI創造無限可能?

友友們好! 我是Echo_Wish,我的的新專欄《Python進階》以及《Python!實戰!》正式啟動啦!這是專為那些渴望提升Python技能的朋友們量身打造的專欄,無論你是已經有一定基礎的開發者,還是希望深入挖掘Python潛力的愛好者,這里都將是你不可錯過的寶藏。 在這個專欄中,你將會…

手機發熱怎么辦?

1?關閉后臺程序 &#x1f449; 把后臺運行的其他程序關掉&#xff0c;玩游戲或看視頻前&#xff0c;先清理一下后臺&#xff0c;避免發熱 2?“脫掉”手機殼 &#x1f449;夏天可以換成輕薄的散熱殼&#xff0c;比如金屬、亞克力材質的&#xff0c;或者暫時取下手機殼 3?物理…

【安全攻防與漏洞?】??HTTPS中的常見攻擊與防御??

HTTPS 中常見攻擊與防御策略涵蓋中間人攻擊&#xff08;MITM&#xff09;、SSL剝離、重放攻擊等&#xff0c;幫助構建安全的 HTTPS 通信環境&#xff1a; 一、中間人攻擊&#xff08;MITM&#xff09; 攻擊原理 場景&#xff1a;攻擊者通過偽造證書或劫持網絡流量&#xff0c…

如何搭建perfino監控(分析java服務性能)

本文主要解釋如何搭建perfino監控服務, 用于關注生產環境的性能指標, 提前知道什么時候達到服務器資源瓶頸, 避免資源不足時手忙腳亂~ 1. 安裝與部署? ??1. 下載與安裝? ?官網下載?&#xff1a;Perfino 官網 獲取最新版本&#xff08;支持 Windows/Linux/macOS&#xf…

5 分鐘速通密碼學!

讓我們開始第一部分&#xff1a;密碼學基礎 (Cryptography Basics)。 第一部分&#xff1a;密碼學基礎 (Cryptography Basics) 1. 什么是密碼學&#xff1f; 想象一下&#xff0c;在古代戰爭中&#xff0c;將軍需要向遠方的部隊傳遞作戰指令。如果直接派人送信&#xff0c;信…

MyBatis入門:快速搭建數據庫操作框架 + 增刪改查(CRUD)

一、創建Mybatis的項目 Mybatis 是?個持久層框架, 具體的數據存儲和數據操作還是在MySQL中操作的, 所以需要添加MySQL驅動 1.添加依賴 或者 手動添加依賴 <!--Mybatis 依賴包--><dependency><groupId>org.mybatis.spring.boot</groupId><artifactI…

基于Ubuntu的ros版本切換

解決在同一個虛擬機中管理兩個不同版本的ros 基于Ubuntu&#xff08;20.04&#xff09; ros版本1和版本2的切換 前期準備&#xff1a;已經在Ubuntu中安裝了兩個版本的ros&#xff0c;這里以版本1的noetic和版本2的foxy為例 在bashrc中&#xff1a; # ~/.bashrc: executed by…

vue2:橫向無限輪播

子組件 <template><div class"infinite-scroll" ref"scrollContainer"><div class"scroll-content" :style"{ transform: translateX(${scrollPosition}px) }"><div v-for"(item, index) in displayItems&q…

CVE-2021-44228源碼分析與漏洞復現

漏洞概述 漏洞名稱&#xff1a;Apache Log4j2 遠程代碼執行漏洞 漏洞編號&#xff1a;CVE-2021-44228 CVSS 評分&#xff1a;10.0 影響版本&#xff1a;Apache Log4j 2.0-beta9 至 2.14.1 修復版本&#xff1a;2.15.0、2.16.0 CVE-2021-44228 是 Apache Log4j2 日志框架中因 …

2025年Google I/O大會上,谷歌展示了一系列旨在提升開發效率與Web體驗的全新功能

每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎&#xff1f;訂閱我們的簡報&#xff0c;深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同&#xff0c;從行業內部的深度分析和實用指南中受益。不要錯過這個機會&#xff0c;成為AI領…

【C++指南】string(三):basic_string底層原理與模擬實現詳解

. &#x1f493; 博客主頁&#xff1a;倔強的石頭的CSDN主頁 &#x1f4dd;Gitee主頁&#xff1a;倔強的石頭的gitee主頁 ? 文章專欄&#xff1a;《C指南》 期待您的關注 文章目錄 引言一、成員變量與內存管理1.1 核心成員變量1.2 內存分配策略 二、默認成員函數的實現與優化…

AWS云與第三方通信最佳實踐:安全、高效的數據交互方案

引言 在當今的云計算時代,企業經常需要在AWS云環境中存儲和處理數據,同時還需要與第三方應用或服務進行數據交互。如何安全、高效地實現這種通信是許多企業面臨的挑戰。本文將詳細探討幾種AWS云與第三方通信的方案,并分析它們的優缺點,幫助您為自己的業務場景選擇最佳解決…

AE THYRO-AX 功率控制器 THYRISTOR-LEISTUNGSSTELLER THYRISTOR POWER CONTROLLER

AE THYRO-AX 功率控制器 THYRISTOR-LEISTUNGSSTELLER THYRISTOR POWER CONTROLLER

【論文解讀】STaR:不用人類思維鏈指導,模型可以自我進化!

1st author: Eric Zelikman paper: STaR: Bootstrapping Reasoning With Reasoning | OpenReview NeurIPS 2022 code: ezelikman/STaR: Code for STaR: Bootstrapping Reasoning With Reasoning (NeurIPS 2022) 1. 當語言模型學會自我進化 Zelikman 等人提出的 STaR (Self-T…

大語言模型 19 - MCP FastAPI-MCP 實現自己的MCP服務 快速接入API

MCP 基本介紹 官方地址&#xff1a; https://modelcontextprotocol.io/introduction “MCP 是一種開放協議&#xff0c;旨在標準化應用程序向大型語言模型&#xff08;LLM&#xff09;提供上下文的方式。可以把 MCP 想象成 AI 應用程序的 USB-C 接口。就像 USB-C 提供了一種…

用Matlab對單目相機參數的標定步驟(保姆級教程)

前言 在圖像測量及機器視覺應用中&#xff0c;為確定空間物體表面某點的三維幾何位置與其在圖像中對應點之間的相互關系&#xff0c;必須建立相機成像的幾何模型&#xff0c;這些幾何模型參數就是相機參數。 ??在大多數條件下這些參數必須通過實驗與計算才能得到&#xff…

【后端高階面經:架構篇】46、分布式架構:如何應對高并發的用戶請求

一、架構設計原則:構建可擴展的系統基石 在分布式系統中,高并發場景對架構設計提出了極高要求。 分層解耦與模塊化是應對復雜業務的核心策略,通過將系統劃分為客戶端、CDN/邊緣節點、API網關、微服務集群、緩存層和數據庫層等多個層次,實現各模塊的獨立演進與維護。 1.1 …

SQL每日一題(5)

前言&#xff1a;五更&#xff01;五更琉璃&#xff01;不對&#xff01;是&#xff0c;五更佩可&#xff01; 原始數據&#xff1a; new_hires reasonother_column1other_column2校園招聘信息 11社會招聘信息 22內部推薦信息 33獵頭推薦信息 44校園招聘信息 55社會招聘信息…

Kafka Kraft模式集群 + ssl

文章目錄 啟用集群資源規劃準備證書創建相關文件夾配置文件啟動各Kafka節點 故障轉移測試spring boot集成 啟用集群 配置集群時關鍵就是提前梳理好需要的網絡資源&#xff0c;完成對應server.properties文件的配置。在執行前先把這些梳理好&#xff0c;可以方便后面的配置&…