昇思25天學習打卡營第5天|數據變換Transforms

數據變換Transforms

  • 介紹
  • Transforms分類
    • Common Transforms
    • Vision Transforms
    • Text Transforms
      • PythonTokenizer
    • Lookup
    • Lambda Transforms
  • 參考

介紹

MindSpore提供不同種類的數據變換(Transforms),配合數據處理Pipeline來實現數據預處理。
所有的Transforms均可通過map方法傳入,實現對指定數據列的處理。
mindspore.dataset提供了面向圖像、文本、音頻等不同數據類型的Transforms,同時也支持使用Lambda函數。

Transforms分類

Common Transforms

mindspore.dataset.transforms模塊支持一系列通用Transforms。
transforms通用api

Vision Transforms

mindspore.dataset.vision模塊提供一系列針對圖像數據的Transforms。
此模塊用于圖像數據增強,其中有一部分增強是基于C++ OpenCV實現的,具有較好的性能,而另一部分是基于Python Pillow實現的。

Text Transforms

mindspore.dataset.text模塊提供一系列針對文本數據的Transforms。與圖像數據不同,文本數據需要有分詞(Tokenize)、構建詞表、Token轉Index等操作。

PythonTokenizer

分詞(Tokenize)操作是文本數據的基礎處理方法。以PythonTokenizer舉例實現自定義分詞策略。
代碼示例:

# 自定義分詞函數
def my_tokenizer(content):return content.split()test_dataset = test_dataset.map(text.PythonTokenizer(my_tokenizer))
print(next(test_dataset.create_tuple_iterator()))# 運行結果:
# [Tensor(shape=[3], dtype=String, value= ['Welcome', 'to', 'Beijing'])]

Lookup

Lookup為詞表映射變換,用來將Token轉換為Index。在使用Lookup前,需要構造詞表,一般可以加載已有的詞表,或使用Vocab生成詞表。
代碼示例:

# 使用Vocab.from_dataset方法從數據集中生成詞表
vocab = text.Vocab.from_dataset(test_dataset)
print(vocab.vocab())
# 輸出
# {'to': 2, 'Beijing': 0, 'Welcome': 1}# 配合map方法進行詞表映射變換,將Token轉為Index
test_dataset = test_dataset.map(text.Lookup(vocab))
print(next(test_dataset.create_tuple_iterator()))
# 輸出
# [Tensor(shape=[3], dtype=Int32, value= [1, 2, 0])]

Lambda Transforms

Lambda函數是一種不需要名字、由一個單獨表達式組成的匿名函數,表達式會在調用時被求值。
Lambda Transforms可以加載任意定義的Lambda函數,提供足夠的靈活度。
代碼示例:

# 使用GeneratorDataset接口自定義數據集
test_dataset = GeneratorDataset([1, 2, 3], 'data', shuffle=False)# 方式一:使用一個簡單的Lambda函數,對輸入數據乘2
test_dataset = test_dataset.map(lambda x: x * 2)
print(list(test_dataset.create_tuple_iterator()))
# 運行結果:
# [[Tensor(shape=[], dtype=Int64, value= 2)], [Tensor(shape=[], dtype=Int64, value= 4)], [Tensor(shape=[], dtype=Int64, value= 6)]]# 方式二:定義較復雜的函數,配合Lambda函數實現復雜數據處理
def func(x):return x * x + 2test_dataset = test_dataset.map(lambda x: func(x))
print(list(test_dataset.create_tuple_iterator()))
# 運行結果:
# [[Tensor(shape=[], dtype=Int64, value= 6)], [Tensor(shape=[], dtype=Int64, value= 18)], [Tensor(shape=[], dtype=Int64, value= 38)]]

參考

  • MindSpore的api文檔

截圖時間
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/37933.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/37933.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/37933.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【ROS】apt 找不到 ROS版本?(ROS1和ROS2通用方案)

問題描述 安裝ROS底層系統時,經常遇到一個情況就是apt找不到ros的對應版本 解決方案 添加ros官方給的apt源和安裝密鑰 ROS1 # ros獎項 sudo sh -c echo "deb http://packages.ros.org/ros/ubuntu $(lsb_release -sc) main" > /etc/apt/sources.li…

數學建模 —— MATLAB中的向量

目錄 向量的創建方法 (1)直接輸入法 (2)冒號法(常用) (3)利用MATLAB函數創建 linspace函數 logspace函數 向量元素的引用 (1)單個元素引用 (2)多個元素引用 向量元素的修改和刪除 向量的創建方法 在 MATLAB中,向量的創建方法主要有…

微軟Edge瀏覽器多用戶配置文件管理:個性化瀏覽體驗

在家庭或工作環境中,經常需要在同一臺計算機上為多個用戶創建和管理獨立的瀏覽體驗。微軟Edge瀏覽器提供了多用戶配置文件管理功能,允許用戶為每個賬戶設置獨立的書簽、歷史記錄、密碼、擴展和設置。本文將詳細介紹如何在微軟Edge中管理多個用戶配置文件…

連接Sql Server時報錯:無法通過使用安全套接字層加密與 SQL Server 建立安全連接

JDBC連接Sql Server時報錯:無法通過使用安全套接字層加密與 SQL Server 建立安全連接 前言解決辦法一解決辦法二總結 前言 今天使用jdbc連接sql server突然報錯為:SQLServerException: “Encrypt”屬性設置為“true”且 “trustServerCertificate”屬性設置為“fals…

GoMate:配置化模塊化的Retrieval-Augmented Generation (RAG) 框架

文章目錄 GoMate簡介1.1 GoMate的核心技術文檔解析向量存儲嵌入模型問題查詢文本生成文檔更新 1.2 GoMate的應用領域智能客服知識庫構建內容生成教育培訓法律文書處理 GoMate的產品特色2.1 文檔解析2.2 向量存儲2.3 嵌入模型2.4 問題查詢2.5 文本生成2.6 文檔更新 GoMate的使用…

解決SPA(單頁應用)首屏加載速度慢

SPA是目前流行的前端開發模式,相對于傳統的多頁面用戶體驗更好,操作更順暢,開發效率也更高。但是SPA首屏加載速度慢一直是個致命的問題,由于SPA應用首次打開需要一次性加載大量的靜態資源,這就導致了加載速度慢的問題&…

監聽設備方向變化?分享 1 段優質 JS 代碼片段!

大家好,我是大澈! 本文約 700 字,整篇閱讀約需 1 分鐘。 每日分享一段優質代碼片段。 今天分享一段 JS 代碼片段,用于在H5端監聽設備方向的變化。 老規矩,先閱讀代碼片段并思考,再看代碼解析再思考&#…

文件夾內-資源名稱前加序號排列

問題:在文件夾下的資源可以按時間排序,導入unity后資源順序會亂掉,不方便按順序賦值,為了方便,通過下面方法在文件夾下統一在資源名稱前按順序加上序號 win11在文件夾內右鍵,選擇——在終端中打開 輸入&a…

制造企業用AI可以做什么?

ChatGPT橫空出世,有關AI的浪潮席卷全球,比起人工智能如何改變世界,可能你更感興趣我能用AI可以做的事情是什么? 制造企業用AI可以做的事情是什么?人工智能在制造企業中可以做很多事情,以下是一些主要的應用&#xff1…

企業源代碼加密軟件丨透明加密技術是什么

在一個繁忙的軟件開發公司中,兩位員工小李和小張正在討論源代碼安全的問題。 “小張,你有沒有想過我們的源代碼如果被泄露了怎么辦?”小李擔憂地問。 “是啊,這是個大問題。源代碼是我們的核心競爭力,一旦泄露&#…

LUA 語言中subtree 的使用教程

在線編輯器: https://www.runoob.com/try/runcode.php?filenameHelloWorld&typelua 在Lua語言中,"subtree"通常指的是一個子表或者子樹,它指的是一個Lua表(table)中的一個部分,可以是一個單…

<電力行業> - 《第8課:輸電(一)》

1 輸電環節的意義 電能的傳輸,是電力系統整體功能的重要組成環節。發電廠與電力負荷中心通常都位于不同地區。在水力、煤炭等一次能源資源條件適宜的地點建立發電廠,通過輸電可以將電能輸送到遠離發電廠的負荷中心,使電能的開發和利用超越地…

哪些存儲器內可以直接運行程序?

存儲器是否可以運行程序,主要取決于其是否支持eXecute In Place (XIP) 或類似的直接執行特性。下面根據不同存儲器進行分別說明: 1.PROM(Programmable Read-Only Memory,可編程只讀存儲器)是一種可以通過用戶編程來存…

fiddler使用

1、設置抓取HTTPS的請求 先選中瀏覽器Browser---Chrome 默認是不抓https的數據包的 有時我們抓取的的包是https的,不是http的,就要做一些設置 Tools---Options 勾選Capture HTTPS CONNECTs 勾選Decrypt HTTPS traffic 勾選 Ignore server certificat…

(單機版)神魔大陸|v0.51.0|冰火榮耀

前言 今天給大家帶來一款單機游戲的架設:神魔大陸v0.51.0:冰火榮耀。 如今市面上的資源參差不齊,大部分的都不能運行,本人親自測試,運行視頻如下: (單機版)神魔大陸 下面我將詳細的教程交給大家,請耐心閱…

[數據集][目標檢測]電力場景下電柜箱門把手檢測數據集VOC+YOLO格式1167張1類別

數據集格式:Pascal VOC格式YOLO格式(不包含分割路徑的txt文件,僅僅包含jpg圖片以及對應的VOC格式xml文件和yolo格式txt文件) 圖片數量(jpg文件個數):1167 標注數量(xml文件個數):1167 標注數量(txt文件個數):1167 標注…

編譯工具-Gradle

文章目錄 Idea中配置Gradle項目project目錄settings.gradlebuild.gradlegradlewgradlew.bat Gradle Build生命周期編寫Settings.gradle編寫Build.gradleTasksPlugins Idea中配置 配置項:gradle位置 及倉庫位置 Gradle項目 Task,settings.gradle,build.…

微型無人機未來發展方向

盡管今天的納米和微型無人機顯示出比早期系統大得多的能力,但在速度、續航能力、航程和有效載荷能力方面仍然存在局限性。在任何或所有這些領域的改進將使部隊能夠在推進或打擊之前收集更大、更詳細的可操作情報。這將允許優化任務規劃,并有可能減少傷亡…

java一面 哭了-------

常見的設計模式 首先設計模式可分為三大類 創建型模式 單例模式:一個類只有一個實例,并提供全局訪問;工廠模式:將創建實例的過程隱藏,實例通過一個工廠方法返回;抽象工廠模式:提供一個創建實…

Web滲透-命令執行漏洞及常見靶場探測實戰

一、概述 命令執行(RCE):應用有時需要調用一些執行系統命令的函數,如php中的system,exec,shell exec,passthru,popen,proc popen等,當用戶能控制這些函數的參數時,就可以將惡意系統命令拼接到正常命令中&a…