《昇思25天學習打卡營第04天|數據集Dataset》

數據集

  • 環境準備
# 實驗環境已經預裝了mindspore==2.2.14,如需更換mindspore版本,可更改下面mindspore的版本號
!pip uninstall mindspore -y
!pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindspore==2.2.14
import numpy as np
from mindspore.dataset import vision
from mindspore.dataset import MnistDataset, GeneratorDataset
import matplotlib.pyplot as plt

數據集加載

  • Mnist數據集為例
  • mindspore.dateset提供的接口僅支持解壓后的數據文件,使用download庫下載數據集并解壓。
# 從開源庫下載數據集
from download import download
url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/" \"notebook/datasets/MNIST_Data.zip"
path = download(url, "./", kind="zip", replace=True)
train_dataset = MnistDataset("MNIST_Data/train", shuffle=False)

數據集迭代

def visualize(dataset):figure = plt.figure(figsize=(4, 4)) #定義圖片大小cols, rows = 3, 3 #定義迭代生成圖排列順序plt.subplots_adjust(wspace=0.5, hspace=0.5) # 調整子圖之間的寬度和高度for idx, (image, label) in enumerate(dataset.create_tuple_iterator()): # 迭代過程figure.add_subplot(rows, cols, idx + 1)plt.title(int(label))plt.axis("off")plt.imshow(image.asnumpy().squeeze(), cmap="gray")if idx == cols * rows - 1:breakplt.show()visualize(train_dataset)

數據集常用操作

  • shuffle
    • 消除數據排列造成的分布不均問題
    train_dataset = train_dataset.shuffle(buffer_size=64)
    
  • map
    • 針對數據集指定列添加數據變換,將數據變換應用于該列數據的每個元素,并返回包含變換后元素的新數據集
      image, label = next(train_dataset.create_tuple_iterator())
      #(28, 28, 1) UInt8
      train_dataset = train_dataset.map(vision.Rescale(1.0 / 255.0, 0), input_columns='image')
      image, label = next(train_dataset.create_tuple_iterator())
      #Output (28, 28, 1) Float32
      
  • batch - 將數據集打包成batch是在有限硬件資源下使用梯度下降進行模型優化的折中辦法,可以保證梯度下降的隨機性和優化計算量
    train_dataset = train_dataset.batch(batch_size=32)
    image, label = next(train_dataset.create_tuple_iterator())
    # Output (32, 28, 28, 1) Float32
    

自定義數據集

可隨機訪問數據集

  • 通過索引/鍵直接訪問對應位置的數據樣本
    # 可隨機訪問數據集
    class RandomAccessDataset:def __init__(self):self._data = np.ones((5, 2))self._label = np.zeros((5, 1))def __getitem__(self, index):return self._data[index], self._label[index]def __len__(self):return len(self._data)
    

可迭代數據集

  • 通過迭代方式逐步獲取數據樣本。適用于隨機訪問成本不太高或者不可行的方案。
    #迭代器作為輸入源
    class IterableDataset():def __init__(self, start, end):'''init the class object to hold the data'''self.start = startself.end = enddef __next__(self):'''iter one data and return'''return next(self.data)def __iter__(self):'''reset the iter'''self.data = iter(range(self.start, self.end))return self
    

生成器

  • 直接依賴Python的生成器類型generator返回數據,直至生成器拋出異常
    def my_generator(start, end):for i in range(start, end):yield i
    

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/38990.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/38990.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/38990.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于Tools體驗NLP編程的魅力

大模型能理解自然語言,從而能解決問題,但是就像人類大腦一樣,大腦只能發送指令,實際行動得靠四肢,所以LangChain4j提供的Tools機制就是大模型的四肢。 大模型的不足 大模型在解決問題時,是基于互聯網上很…

Tomcat部署與優化

Tomcat部署與優化 Tomcat簡述 server: 服務器,Tomcat運行的進程實例,一個Server中可以有多個service,但通常就一個 service:服務,用來組織Engine(引擎)和Connector(連接…

gdb及其使用

gdb調試一&#xff1a; 首先進入gdb&#xff0c;確定好進程&#xff0c;輸入進程號 確定要調試哪個文件&#xff0c;然后輸入&#xff1a;&#xff08;b為打斷點&#xff09; (gdb) b serialization_protobuffer.h:write<ros::serialization::OStream>(ros::serializat…

MySQL的limit關鍵字和聚合函數講解

目錄 一、MySQL數據庫介紹二、MySQL聚合函數三、MySQL數據排序分組四、MySQL的limit關鍵字 一、MySQL數據庫介紹 MySQL是一種廣泛使用的開源關系型數據庫管理系統&#xff0c;由瑞典MySQL AB公司開發&#xff0c;后被Sun Microsystems收購&#xff0c;最終成為Oracle公司的一部…

RANSAC空間圓擬合實現

由初中的幾何知識我們可以知道&#xff0c;確定一個三角形至少需要三個不共線的點&#xff0c;因此確定一個三角形的外接圓至少可用三個點。我們不妨假設三個點坐標為P1(x1,y1,z1),P2(x2,y2,z2),P3(x3,y3,z3)。 圓方程的標準形式為&#xff1a; (xi-x)2(yi-y)2R2 &#xff08;1…

【Annotation】SpringBoot自定義注解

1. 自定義注釋是基于SpringAOP實現的 Spring AOP&#xff08;Aspect-Oriented Programming&#xff0c;面向切面編程&#xff09;是Spring框架中的一個強大功能模塊&#xff0c;它實現了AOP編程模型&#xff0c;允許開發者將橫切關注點&#xff08;如日志記錄、事務管理、安全…

新火種AI|蘋果要將蘋果智能做成AI時代的APP Store?

作者&#xff1a;一號 編輯&#xff1a;美美 蘋果還是想要自己做AI時代的“APP Store”。 自從去年開始落了隊&#xff0c;蘋果現在AI上開始高歌猛進。今年WWDC上展示的AI產品和與OpenAI的合作只是開始。有消息稱&#xff0c;蘋果正與Meta等AI巨頭展開深入合作&#xff0c;這…

隨想錄 Day 74 Floyd / A*

隨想錄 Day 74 Floyd / A* Bellman_ford 隊列優化 97. 小明逛公園 時間限制&#xff1a;1.000S 空間限制&#xff1a;256MB 題目描述 小明喜歡去公園散步&#xff0c;公園內布置了許多的景點&#xff0c;相互之間通過小路連接&#xff0c;小明希望在觀看景點的同時&#xff…

小和問題和逆序對問題

小和問題和逆序對問題 小和問題&#xff0c; 在一個數組中&#xff0c;每一個數左邊的數中比當前數小的數累加起來&#xff0c;叫做這個數組的小和&#xff0c;求一個數組的小和 直接遍歷&#xff1a; int littleSum1(int* arr, int L, int R) {int temp 0;for (int i L; …

Spring底層原理之bean的加載方式四 @import 注解

bean的加載方式四 import 第四種bean的導入方式 是import導入的方式 在配置類上面加上注解就行 package com.bigdata1421.config;import com.bigdata1421.bean.Dog; import org.springframework.context.annotation.Import;Import(Dog.class) public class SpringConfig4 {…

CesiumJS【Basic】- #041 繪制紋理線(Entity方式)- 需要自定義著色器

文章目錄 繪制紋理線(Entity方式)- 需要自定義著色器1 目標2 代碼2.1 main.ts3 資源文件繪制紋理線(Entity方式)- 需要自定義著色器 1 目標 使用Entity方式繪制紋理線 2 代碼 2.1 main.ts import * as Cesium from cesium;const viewer = new Cesium.Viewer

Java并發編程:最佳實踐與性能優化

Java并發編程&#xff1a;最佳實踐與性能優化 大家好&#xff0c;我是免費搭建查券返利機器人省錢賺傭金就用微賺淘客系統3.0的小編&#xff0c;也是冬天不穿秋褲&#xff0c;天冷也要風度的程序猿&#xff01; 介紹并發編程 在當今軟件開發中&#xff0c;多核處理器和分布式…

K8S學習教程(一):使用PetaExpress云服務器安裝Minikube 集群題

什么是Minikube Minikube是一款工具&#xff0c;主要用于在本地運行 Kubernetes 集群。Kubernetes 開源的平臺&#xff0c;用于自動化容器化應用的部署、擴展和管理&#xff0c;而Minikube 使得開發人員能夠在本地機器上輕松創建一個單節點的 Kubernetes 集群&#xff0c;從而…

【高級篇】第6章 Elasticsearch 高級查詢與搜索優化

在Elasticsearch的深入應用之旅中,掌握高級查詢技巧與優化搜索性能是提升數據處理效率的關鍵。本章將帶你深入探索Elasticsearch的高級查詢特性,揭示搜索性能優化的奧秘,以及如何利用高亮與建議API增強用戶體驗。 6.1 復雜查詢 6.1.1 Nested查詢 Nested基本概念與用法: …

IT設備監控模板:支持多種監控工具和平臺的集成和整合

IT設備監控模板管理在支持多種監控工具和平臺方面發揮著關鍵作用&#xff0c;它通過提供統一的配置和管理界面&#xff0c;使運維人員能夠靈活地適應和整合不同的監控工具和平臺。以下是IT設備監控模板管理如何支持多種監控工具和平臺的具體方式&#xff1a; 一、抽象化和標準…

如何使用AI學習一門編程語言?

無論你是軟件開發新手還是擁有幾十年的豐富經驗&#xff0c;總是需要學習新知識。TIOBE Index追蹤50種最受歡迎的編程語言&#xff0c;許多生態系統為職業發展和橫向轉型提供了機會。鑒于現有技術具有的廣度&#xff0c;抽空學習一項新技能并有效運用技能可能困難重重。 最近我…

ARCGIS python 裁剪柵格函數 arcpy.management.Clip

ARCGIS python 裁剪柵格函數 arcpy.management.Clip 1 功能 裁剪掉柵格數據集、鑲嵌數據集或圖像服務圖層的一部分。 2 使用情況 基于模板范圍提取部分柵格數據集&#xff0c;輸出與模板范圍相交的所有像素使用以 x 和 y 坐標的最小值和最大值確定的包絡矩形或使用輸出范圍文…

MATLAB-振動問題:單自由度阻尼振動系統受迫振動

一、基本理論 二、MATLAB實現 單自由度阻尼振動系統受迫振動&#xff0c;MATLAB代碼如下&#xff1a; clear; clc; close allA 1; psi 0; F0 10; D 20; Rm 0.5; M 1; omega 2; delta Rm / (2*M); omega0 sqrt(D / M); Omega sqrt(omega0^2 - delta^2); Zm Rm i *…

多線程的三種創建方式

繼承Thread類的方式進行實現 public class MyThread extends Thread{ Override public void run(){//多線程具體業務邏輯} }在main方法里面創建子類對象&#xff0c;開啟線程 public static void main(String[] args) {MyThread t1 new MyThread(); MyThread t2 new MyThrea…

LLM大模型工程師面試經驗寶典--基礎版(2024.7月最新)

1.簡單介紹一下大模型【LLMs】&#xff1f; 大模型&#xff1a;一般指1億以上參數的模型&#xff0c;但是這個標準一直在升級&#xff0c;目前萬億參數以上的模型也有了。大語言模型&#xff08;Large Language Model&#xff0c;LLM&#xff09;是針對語言的大模型。 2.目前主…