昇思MindSpore學習總結七——模型訓練

1、模型訓練

模型訓練一般分為四個步驟:

  1. 構建數據集。
  2. 定義神經網絡模型。
  3. 定義超參、損失函數及優化器。
  4. 輸入數據集進行訓練與評估。

現在我們有了數據集和模型后,可以進行模型的訓練與評估。

2、構建數據集

首先從數據集 Dataset加載代碼,構建數據集。

import mindspore
from mindspore import nn
from mindspore.dataset import vision, transforms
from mindspore.dataset import MnistDataset# Download data from open datasets
from download import downloadurl = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/" \"notebook/datasets/MNIST_Data.zip"
path = download(url, "./", kind="zip", replace=True)def datapipe(path, batch_size):image_transforms = [vision.Rescale(1.0 / 255.0, 0),vision.Normalize(mean=(0.1307,), std=(0.3081,)),vision.HWC2CHW()]label_transform = transforms.TypeCast(mindspore.int32)#mindspore.dataset.transforms.TypeCast(data_type)#將輸入的Tensor轉換為指定的數據類型。dataset = MnistDataset(path)dataset = dataset.map(image_transforms, 'image')dataset = dataset.map(label_transform, 'label')dataset = dataset.batch(batch_size)return datasettrain_dataset = datapipe('MNIST_Data/train', batch_size=64)
test_dataset = datapipe('MNIST_Data/test', batch_size=64)

?3、定義神經網絡模型

從網絡構建中加載代碼,構建一個神經網絡模型。

class Network(nn.Cell):def __init__(self):super().__init__()self.flatten = nn.Flatten()#將數據從start_dim 到 end_dim 的維度,對輸入Tensor進行展平self.dense_relu_sequential = nn.SequentialCell(#構造Cell順序容器。nn.Dense(28*28, 512),nn.ReLU(),nn.Dense(512, 512),nn.ReLU(),nn.Dense(512, 10))def construct(self, x):x = self.flatten(x)logits = self.dense_relu_sequential(x)return logitsmodel = Network()

?4、定義超參、損失函數和優化器

4.1 超參

????????超參(Hyperparameters)是可以調整的參數,可以控制模型訓練優化的過程,不同的超參數值可能會影響模型訓練和收斂速度。目前深度學習模型多采用批量隨機梯度下降算法進行優化,隨機梯度下降算法的原理如下:

公式中,𝑛是批量大小(batch size),η是學習率(learning rate)。另外,𝑤𝑡為訓練輪次𝑡中的權重參數,?𝑙為損失函數的導數。除了梯度本身,這兩個因子直接決定了模型的權重更新,從優化本身來看,它們是影響模型性能收斂最重要的參數。一般會定義以下超參用于訓練:

  • 訓練輪次(epoch):訓練時遍歷數據集的次數。

  • 批次大小(batch size):數據集進行分批讀取訓練,設定每個批次數據的大小。batch size過小,花費時間多,同時梯度震蕩嚴重,不利于收斂;batch size過大,不同batch的梯度方向沒有任何變化,容易陷入局部極小值,因此需要選擇合適的batch size,可以有效提高模型精度、全局收斂。

  • 學習率(learning rate):如果學習率偏小,會導致收斂的速度變慢,如果學習率偏大,則可能會導致訓練不收斂等不可預測的結果。梯度下降法被廣泛應用在最小化模型誤差的參數優化算法上。梯度下降法通過多次迭代,并在每一步中最小化損失函數來預估模型的參數。學習率就是在迭代過程中,會控制模型的學習進度。

epochs = 3
batch_size = 64
learning_rate = 1e-2

4.2 損失函數

????????損失函數(loss function)用于評估模型的預測值(logits)和目標值(targets)之間的誤差。訓練模型時,隨機初始化的神經網絡模型開始時會預測出錯誤的結果。損失函數會評估預測結果與目標值的相異程度,模型訓練的目標即為降低損失函數求得的誤差。

????????常見的損失函數包括用于回歸任務的nn.MSELoss(均方誤差)和用于分類的nn.NLLLoss(負對數似然)等。?nn.CrossEntropyLoss?結合了nn.LogSoftmaxnn.NLLLoss,可以對logits 進行歸一化并計算預測誤差。

loss_fn = nn.CrossEntropyLoss()

?4.3 優化器

????????模型優化(Optimization)是在每個訓練步驟中調整模型參數以減少模型誤差的過程。MindSpore提供多種優化算法的實現,稱之為優化器(Optimizer)。優化器內部定義了模型的參數優化過程(即梯度如何更新至模型參數),所有優化邏輯都封裝在優化器對象中。在這里,我們使用SGD(Stochastic Gradient Descent)優化器。

mindspore.nn.SGD(params,?learning_rate=0.1,?momentum=0.0,?dampening=0.0,?weight_decay=0.0,?nesterov=False,?loss_scale=1.0)

隨機梯度下降的實現。動量可選。

【參數】

  • params?(Union[list[Parameter], list[dict]]) - 當?params?為會更新的?Parameter?列表時,?params?中的元素必須為類?Parameter。當?params?為?dict?列表時,”params”、”lr”、”weight_decay”、”grad_centralization”和”order_params”為可以解析的鍵。

    • params?- 必填。當前組別的權重,該值必須是?Parameter?列表。

    • lr?- 可選。如果鍵中存在”lr”,則使用對應的值作為學習率。如果沒有,則使用優化器中的參數?learning_rate?作為學習率。支持固定和動態學習率。

    • weight_decay?- 可選。如果鍵中存在”weight_decay”,則使用對應的值作為權重衰減值。如果沒有,則使用優化器中配置的?weight_decay?作為權重衰減值。當前?weight_decay?僅支持float類型,不支持動態變化。

    • grad_centralization?- 可選。如果鍵中存在”grad_centralization”,則使用對應的值,該值必須為布爾類型。如果沒有,則認為?grad_centralization?為False。該參數僅適用于卷積層。

    • order_params?- 可選。值的順序是參數更新的順序。當使用參數分組功能時,通常使用該配置項保持?parameters?的順序以提升性能。如果鍵中存在”order_params”,則會忽略該組配置中的其他鍵。”order_params”中的參數必須在某一組?params?參數中。

  • learning_rate?(Union[float, int, Tensor, Iterable, LearningRateSchedule]) - 默認值:?0.1?。

    • float?- 固定的學習率。必須大于等于零。

    • int?- 固定的學習率。必須大于等于零。整數類型會被轉換為浮點數。

    • Tensor?- 可以是標量或一維向量。標量是固定的學習率。一維向量是動態的學習率,第i步將取向量中第i個值作為學習率。

    • Iterable?- 動態的學習率。第i步將取迭代器第i個值作為學習率。

    • LearningRateSchedule?- 動態的學習率。在訓練過程中,優化器將使用步數(step)作為輸入,調用?LearningRateSchedule?實例來計算當前學習率。

  • momentum?(float) - 浮點動量,必須大于等于0.0。默認值:?0.0?。

  • dampening?(float) - 浮點動量阻尼值,必須大于等于0.0。默認值:?0.0?。

  • weight_decay?(float) - 權重衰減(L2 penalty),必須大于等于0。默認值:?0.0?。

  • nesterov?(bool) - 啟用Nesterov動量。如果使用Nesterov,動量必須為正,阻尼必須等于0.0。默認值:?False?。

  • loss_scale?(float) - 梯度縮放系數,必須大于0.0。如果?loss_scale?是整數,它將被轉換為浮點數。通常使用默認值,僅當訓練時使用了?FixedLossScaleManager,且?FixedLossScaleManager?的?drop_overflow_update?屬性配置為?False?時,此值需要與?FixedLossScaleManager?中的?loss_scale?相同。有關更多詳細信息,請參閱?mindspore.amp.FixedLossScaleManager。默認值:?1.0?。

????????我們通過model.trainable_params()方法獲得模型的可訓練參數,并傳入學習率超參來初始化優化器。

5、訓練與評估

????????設置了超參、損失函數和優化器后,我們就可以循環輸入數據來訓練模型。一次數據集的完整迭代循環稱為一輪(epoch)。每輪執行訓練時包括兩個步驟:

  1. 訓練:迭代訓練數據集,并嘗試收斂到最佳參數。
  2. 驗證/測試:迭代測試數據集,以檢查模型性能是否提升。

接下來我們定義用于訓練的train_loop函數和用于測試的test_loop函數。

????????使用函數式自動微分,需先定義正向函數forward_fn,使用value_and_grad獲得微分函數grad_fn。然后,我們將微分函數和優化器的執行封裝為train_step函數,接下來循環迭代數據集進行訓練即可。

mindspore.value_and_grad(fn,?grad_position=0,?weights=None,?has_aux=False,?return_ids=False)

生成求導函數,用于計算給定函數的正向計算結果和梯度。

函數求導包含以下三種場景:

  1. 對輸入求導,此時?grad_position?非None,而?weights?是None;

  2. 對網絡變量求導,此時?grad_position?是None,而?weights?非None;

  3. 同時對輸入和網絡變量求導,此時?grad_position?和?weights?都非None。

【參數】

  • fn?(Union[Cell, Function]) - 待求導的函數或網絡。

  • grad_position?(Union[NoneType, int, tuple[int]]) - 指定求導輸入位置的索引。若為int類型,表示對單個輸入求導;若為tuple類型,表示對tuple內索引的位置求導,其中索引從0開始;若是None,表示不對輸入求導,這種場景下,?weights?非None。默認值:?0?。

  • weights?(Union[ParameterTuple, Parameter, list[Parameter]]) - 訓練網絡中需要返回梯度的網絡變量。一般可通過?weights = net.trainable_params()?獲取。默認值:?None?。

  • has_aux?(bool) - 是否返回輔助參數的標志。若為?True?,?fn?輸出數量必須超過一個,其中只有?fn?第一個輸出參與求導,其他輸出值將直接返回。默認值:?False?。

  • return_ids?(bool) - 是否返回由返回的梯度和指定求導輸入位置的索引或網絡變量組成的tuple。若為?True?,其輸出中所有的梯度值將被替換為:由該梯度和其輸入的位置索引,或者用于計算該梯度的網絡變量組成的tuple。默認值:?False?。

# Define forward function
def forward_fn(data, label):logits = model(data)loss = loss_fn(logits, label)return loss, logits# Get gradient function
grad_fn = mindspore.value_and_grad(forward_fn, None, optimizer.parameters, has_aux=True)# Define function of one-step training
def train_step(data, label):(loss, _), grads = grad_fn(data, label)optimizer(grads)return lossdef train_loop(model, dataset):size = dataset.get_dataset_size()model.set_train()for batch, (data, label) in enumerate(dataset.create_tuple_iterator()):loss = train_step(data, label)if batch % 100 == 0:loss, current = loss.asnumpy(), batchprint(f"loss: {loss:>7f}  [{current:>3d}/{size:>3d}]")

test_loop函數同樣需循環遍歷數據集,調用模型計算loss和Accuray并返回最終結果。

def test_loop(model, dataset, loss_fn):num_batches = dataset.get_dataset_size()model.set_train(False)total, test_loss, correct = 0, 0, 0for data, label in dataset.create_tuple_iterator():pred = model(data)total += len(data)test_loss += loss_fn(pred, label).asnumpy()correct += (pred.argmax(1) == label).asnumpy().sum()test_loss /= num_batchescorrect /= totalprint(f"Test: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/39744.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/39744.shtml
英文地址,請注明出處:http://en.pswp.cn/web/39744.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

檢測站機動車授權簽字人試題附答案

16、___的輪胎胎冠上花紋深度不得小于3.2mm。( ) A、乘用車 B、摩托車 C、貨車的轉向輪(正確答案) D、掛車 17、最大設計時速≥100km/h的機動車其轉向盤自由轉動量不大于__。( ) A、30 度 B、20 度(正確答案) C、45 度 D、40度…

在windows上安裝objection

安裝命令pip install objection -i https://mirrors.aliyun.com/pypi/simple hook指定進程 objection -g 測試 explore 進程名不定是包名,也可能是app名字,如“測試”就是app的名字 若出現如下錯誤,說明python 缺少setuptools 直接安裝setu…

擲骰子游戲 、 求絕對值,平方根,對數,正弦值 題目

題目 JAVA33 擲骰子游戲分析:代碼: JAVA34 求絕對值,平方根,對數,正弦值分析:代碼: JAVA33 擲骰子游戲 描述開發一個擲骰子游戲,即每次運行程序時,產生一個[1,6]之間的隨…

秋招突擊——設計模式補充——單例模式、依賴倒轉原則、工廠方法模式

文章目錄 引言正文依賴倒轉原則工廠方法模式工廠模式的實現簡單工廠和工廠方法的對比 抽線工廠模式最基本的數據訪問程序使用工廠模式實現數據庫的訪問使用抽象工廠模式的數據訪問程序抽象工廠模式的優點和缺點使用反射抽象工廠的數據訪問程序使用反射配置文件實現數據訪問程序…

檢索增強生成RAG系列6--RAG提升之查詢結構化(Query Construction)

系列5中講到會講解3個方面RAG的提升,它們可能與RAG的準確率有關系,但是更多的它們是有其它用途。本期來講解第二部分:查詢結構化(Query Construction)。在系列3文檔處理中,我們著重講解了文檔解析&#xff…

C++ dll導出類的方法

要在C動態庫中導出類,可以使用以下步驟: 定義一個類并實現其成員函數。在類的聲明前加上__declspec(dllexport)標記(Windows平臺)或__attribute__((visibility("default")))標記(Linux平臺)&…

C語言學習筆記--第一個程序

第一個C語言程序 #include<stdio.h> //引用輸入輸出頭文件&#xff0c;每一次都需要引用這個文件 //.h是頭文件 // .c是源文件 // .cpp是C源文件&#xff0c;兼容C //C的第一個程序 // 行注釋&#xff08;只能注釋這一行&#xff09; /*塊注釋 */ int main() {printf(&…

能保存到相冊的風景視頻在哪下載?下載風景視頻網站分享

在當今以視覺為核心的時代&#xff0c;高清美麗的風景視頻不僅能夠豐富我們的日常生活&#xff0c;還能提供心靈上的慰藉。無論是為了制作視頻項目&#xff0c;還是僅僅想要珍藏一些精美的風景畫面&#xff0c;獲取高質量的風景視頻素材顯得尤為重要。許多人可能會問&#xff1…

PTrade量化軟件常見問題整理系列2

一、研究界面使用get_fundamentals函數報錯&#xff1a;error_info:獲取token失敗&#xff1f; 研究界面使用get_fundamentals函數報錯&#xff1a;error_info:獲取token失敗&#xff1f; 1、測試版本202202.01.052&#xff0c;升級202202.01.051版本后&#xff0c;為了解決不…

在虛擬仿真中學習人工智能,可以達到什么目標?

人工智能已經成為引領社會創新的關鍵力量&#xff0c;想要在這個充滿機遇的領域中脫穎而出&#xff0c;掌握扎實的專業技能和積累豐富的實踐經驗至關重要。然而&#xff0c;許多學習者在追求這一目標的過程中面臨著幾個主要問題&#xff1a;專業技術掌握有難度、實踐經驗積累存…

linux中awk,sed, grep使用

《linux私房菜》這本書中將sed和awk一同歸為行的修改這一點&#xff0c;雖然對&#xff0c;但不利于實際處理問題時的思考。因為這樣的話&#xff0c;當我們實際處理問題時&#xff0c;遇到比如說統計文本打印內容時&#xff0c;我們選擇sed還是awk進行處理呢&#xff1f; 也因…

?香橙派AIpro測評:usb魚眼攝像頭的Camera圖像獲取

一、前言 近期收到了一塊受到業界人士關注的開發板"香橙派AIpro",因為這塊板子具有極高的性價比&#xff0c;同時還可以兼容ubuntu、安卓等多種操作系統&#xff0c;今天博主便要在一塊832g的香橙派AI香橙派AIpro進行YoloV5s算法的部署并使用一個外接的魚眼USB攝像頭…

React 中如何使用 Monaco

Monaco 是微軟開源的一個編輯器&#xff0c;VSCode 也是基于 Monaco 進行開發的。如果在 React 中如何使用 Monaco&#xff0c;本文將介紹如何在 React 中引入 Monaco。 安裝 React 依賴 yarn add react-app-rewired --dev yarn add monaco-editor-webpack-plugin --dev yarn…

學習和發展人工智能:新興趨勢和成功秘訣

人工智能(AI)繼續吸引組織&#xff0c;因為它似乎無窮無盡地提高生產力和業務成果。在本博客中&#xff0c;了解學習和發展(L&D)部門如何利用人工智能改進流程&#xff0c;簡化工作流程&#xff1f; 學習與發展(L&D)部門領導開始探索如何提高和支持人工智能能力的勞動…

1-認識網絡爬蟲

1.什么是網絡爬蟲 ? 網絡爬蟲&#xff08;Web Crawler&#xff09;又稱網絡蜘蛛、網絡機器人&#xff0c;它是一種按照一定規則&#xff0c;自動瀏覽萬維網的程序或腳本。通俗地講&#xff0c;網絡爬蟲就是一個模擬真人瀏覽萬維網行為的程序&#xff0c;這個程序可以代替真人…

工業智能網關在現代工業生產中的重要性-天拓四方

工業智能網關是一款具備挖掘工業設備數據并接入到自主開發的云平臺的智能嵌入式網絡設備。它具備數據采集、協議解析、邊緣計算&#xff0c;以及4G/5G/WiFi數據傳輸等功能&#xff0c;并能接入工業云平臺。這種網關不僅支持采集PLC、傳感器、儀器儀表和各種控制器&#xff0c;還…

iss文件本機可以訪問,其他電腦無法訪問解決

1.搜索的時候有很多答案&#xff0c;總結就是2種 引用來自這位大佬的博客跳轉 2.我實際解決了的方法 將這里的ip地址修改為你局域網wifi的ip 如何看自己wifi的ip&#xff0c;大家自行百度&#xff01;

linux中與網絡有關的命令

本文的命令總覽 ifconfig命令 在 Linux 系統中&#xff0c;ifconfig 命令用于配置和顯示網絡接口的信息&#xff0c;包括 IP 地址、MAC 地址、網絡狀態等。同時我們也可以利用ifconfig 命令設置網絡接口對應的ip地址&#xff0c;子網掩碼等 當你使用 ifconfig 命令時&#xf…

06-6.3.3 圖的深度優先遍歷

&#x1f44b; Hi, I’m Beast Cheng &#x1f440; I’m interested in photography, hiking, landscape… &#x1f331; I’m currently learning python, javascript, kotlin… &#x1f4eb; How to reach me --> 458290771qq.com 喜歡《數據結構》部分筆記的小伙伴可以…

UE5.4新功能 - Texture Graph上手簡介

TextureGraph是UE5.4還在實驗(Experimental)階段的新功能&#xff0c;該功能旨在材質生成方面達到類似Subtance Designer的效果&#xff0c;從而程序化的生成一些紋理。 本文就來簡要學習一下。 1.使用UE5.4或以上版本&#xff0c;激活TextureGraph插件 2.內容視圖中右鍵找到…