one-hot編碼案例

import jieba
from tensorflow.keras.preprocessing.text import Tokenizer  # 安裝了新版本的tensorflow
# from keras.preprocessing.text import Tokenizer  # 系統里面沒有按照新版本的tensorflow 直接使用keras# pytroch tensorflow1.xxxx  (keras)
# 導入用于對象保存與加載的joblib
# from sklearn.externals import joblib
import joblib# 思路分析 生成onehot
# 1 準備語料 vocabs
# 2 實例化詞匯映射器Tokenizer, 使用映射器擬合現有文本數據 (內部生成 index_word word_index)
# 2-1 注意idx序號-1
# 3 查詢單詞idx 賦值 zero_list,生成onehot
# 4 使用joblib工具保存映射器 joblib.dump()
def dm01_onehot_gen():# 1 準備語料 vocabs# vocabs = {"周杰倫", "陳奕迅", "王力宏", "李宗盛", "吳亦凡", "鹿晗"}vocabs = ["周杰倫", "陳奕迅", "王力宏", "李宗盛", "吳亦凡", "鹿晗"]# 2 實例化詞匯映射器Tokenizer, 使用映射器擬合現有文本數據 (內部生成 index_word word_index)mytokenizer = Tokenizer()   # cmd+shift +umytokenizer.fit_on_texts(vocabs)print('mytokenizer.index_word-->', mytokenizer.index_word)print('mytokenizer.word_index-->', mytokenizer.word_index)# 2-1 注意idx序號-1# 3 查詢單詞idx 賦值 zero_list,生成onehotfor vocab in vocabs:zero_list = [0] * len(mytokenizer.index_word)  # 詞表有多長 onehot特征就有多長idx = mytokenizer.word_index[vocab] - 1zero_list[idx] = 1print(vocab, '的onehot編碼是', zero_list)# 4 使用joblib工具保存映射器 joblib.dump()joblib.dump(mytokenizer, './mytokenizer2' )print('保存 token ok')pass# 思路分析
# 1 加載已保存的詞匯映射器Tokenizer joblib.load(mypath)
# 2 查詢單詞idx 賦值zero_list,生成onehot 以token為'李宗盛'
# 3 token = "狗蛋" 會出現異常 # mytokenizer對沒有擬合的詞 會報錯
# OOV單詞問題 out of vocab 10萬單詞 把常用的21128個單詞進行訓練 其他單詞我不要!
# 文本生成 單詞表 5682 單詞!
def dm_onehot_use():# 1 load已經存在詞匯映射器文件mytokenizer = joblib.load('mytokenizer2')# 2 準備單詞vocab = '李宗盛'idx = mytokenizer.word_index[vocab] -1zero_list = [0] * len(mytokenizer.index_word)zero_list[idx] = 1# 3print(vocab, '的onehot編碼是', zero_list)# 4print('狗蛋 開始 ...')vocab = '狗蛋'idx = mytokenizer.word_index[vocab] - 1zero_list = [0] * len(mytokenizer.index_word)zero_list[idx] = 1print(vocab, '的onehot編碼是', zero_list)passif __name__ == '__main__':# dm01_onehot_gen()dm_onehot_use()print('one-hot編碼 End')

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/44804.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/44804.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/44804.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

uniapp 九宮格抽獎

<template><view class"container"><view class"navleft" click"navback"><image src"/static/cj/left.png" mode""></image></view><view class"navtitle">抽獎</…

SAP S4 銷售組的定義和分配

spro-企業結構-定義-銷售與分銷-維護銷售組 新增一個記錄 spro-企業結構-分配-銷售與分銷-給銷售辦公室分配銷售組

JavaScript-map方法

map可以遍歷數組處理數據&#xff0c;并返回新的數組 語法&#xff1a; ?const arr[元素1&#xff0c;元素2&#xff0c;元素3] const newarrarr.map(function(數組的元素,數組的索引)){return 新元素 } const arr[blue,red,green]const newarrarr.map(function(ele,index){co…

詳細介紹TS中的枚舉

在 TypeScript 中&#xff0c;枚舉&#xff08;Enums&#xff09;是一個用于表示常見常量集合的便利特性。枚舉是一種特殊的類型&#xff0c;它們允許你為一組值定義一個固定的命名空間。枚舉常用于模式匹配的 switch 語句和提供更可讀的類型檢查。 枚舉的基本語法&#xff1a…

應用案例 | 臺積電為保證光罩運輸質量選擇MSR沖擊振動記錄儀!內含臺積電工程師專訪

晶圓運輸需要注意什么&#xff1f; 晶圓運輸是半導體制造過程中極為關鍵和敏感的一環。在晶圓運輸過程中&#xff0c;需要注意以下幾點&#xff1a; 1.靜電防護 晶圓非常容易受到靜電的干擾&#xff0c;因此在運輸過程中需要遵守嚴格的靜電防護措施。使用適當的靜電防護包裝…

Bugly并非無所不能

在 iOS 應用因為內存占用過大而被系統 killed 的情況下&#xff0c;Bugly 以及大多數崩潰報告工具是無法捕獲到這種類型的崩潰信息的。原因在于&#xff0c;當系統由于內存壓力過大而終止應用時&#xff0c;是直接將應用進程殺死&#xff0c;不會觸發常規的崩潰處理流程&#x…

Blender 中導出模型fbx

準備模型&#xff1a;確保你的模型已經完成&#xff0c;并且所有的材質、紋理等都已設置好。 應用所有變換&#xff1a; 選擇模型&#xff0c;按下 CtrlA&#xff0c;選擇 "All Transforms" 以應用所有的變換&#xff08;位置、旋轉和縮放&#xff09;。 導出模型&a…

Java面試八股之Redis有哪些數據類型?底層實現分別是什么

Redis有哪些數據類型&#xff1f;底層實現分別是什么 Redis數據類型概述 Redis作為一款鍵值存儲系統&#xff0c;提供了豐富多樣的數據類型以滿足不同場景的需求。以下是Redis支持的主要數據類型及其基本用途&#xff1a; String&#xff08;字符串&#xff09; 存儲單個鍵…

windows系統上python3安裝open3d第三方庫

打開命令提示符&#xff0c;輸入&#xff0c; pip install open3d -i https://pypi.tuna.tsinghua.edu.cn/simple成功頁面&#xff0c;

CSDN回顧與前行:我的創作紀念日——2048天的技術成長與感悟

CSDN回顧與前行&#xff1a;我的創作紀念日——2048天的技術成長與感悟 &#x1f496;The Begin&#x1f496;點點關注&#xff0c;收藏不迷路&#x1f496; 前言 時光荏苒&#xff0c;歲月如梭。轉眼間&#xff0c;從我在CSDN上寫下第一篇技術博客《2-6 帶頭結點的鏈式表操作…

MVC 控制器 中Action 不能同名,參數不一樣,路由器尋找不到對應的,要加特性

//1 方法不可能完全相同&#xff0c;參數不同//2 那還需要特性嗎&#xff1f;需要的&#xff0c;因為MVC選擇方法時&#xff0c;不是按參數選擇&#xff1a;http請求發送很多數據&#xff0c;其實沒法識別&#xff0c;//因為mvc找方法是通過反射來的&#xff0c;GetMethods(nam…

【SQL】InnoDB中的行鎖

InnoDB 里的行鎖機制主要通過索引來實現&#xff0c;而不是直接對表中的記錄加鎖。具體來說&#xff0c;InnoDB 使用以下幾種鎖定機制來實現行鎖&#xff1a; 記錄鎖 (Record Lock)&#xff1a;鎖定單個索引記錄。間隙鎖 (Gap Lock)&#xff1a;鎖定索引記錄之間的間隙&#x…

vue 自定義(hook)--(模塊化)

文章目錄 定義示例代碼 定義 什么是hook&#xff1f;—— 本質是一個函數&#xff0c;把setup函數中使用的Composition API進行了封裝&#xff0c;類似于vue2.x中的mixin。 自定義hook的優勢&#xff1a;復用代碼, 讓setup中的邏輯更清楚易懂。 示例代碼 useSum.ts中內容如下…

react學習——26redux實現求和案例(異步action)

1、安裝redux-thunk npm install redux-thunk npm install redux-thunk2、redux/store.js 引入redux-thunk /*該文件專門用于創建一個為Count組件服務的store對象*/ //引入createStore,專門創建redux中最為核心的store對象 import {createStore,applyMiddleware} from redux …

Python:引號應用、字符串應用

# 把前面的引號理解為起始符&#xff0c;后面的理解為終止符 # 單雙引號的靈活運用 想輸出"hello,Q" 用單引號 # 想輸出 This is Qs 用雙引號 # 想輸出既有單引號又有雙引號或者特定格式 用三對單引號### word "hello,Q" word2 "This is Qs" …

mavlink協議解析

1. mavlink數據包格式 字節索引C 版本內容值說明0uint8_t magic數據包啟動標記0xFE特定于協議的文本啟動 (stx) 標記, 用于指示新數據包的開始。 任何不識別協議版本的系統都將跳過數據包。1uint8_t len載荷長度0 - 255指示以下 payload 部分的長度 (為特定消息固定)。2uint8_t…

java并發編程概述

java并發編程概述 一. 進程和線程的概念 進程是計算機中的程序關于某數據集合上的一次運行活動&#xff0c;是系統進行資源分配的基本單位。進程是程序運行的實例&#xff0c;每當操作系統在運行一個程序時&#xff0c;會為其創建一個進程。每個進程都擁有自己的一整套變量。…

python:openpyxl DataBarRule 制作數據條

技術文檔&#xff1a; 條件格式 — openpyxl 3.0.7 文檔 openpyxl.formatting.rule module — openpyxl 3.1.3 documentation 但是&#xff0c;想讓單元格數值按比例顯示&#xff08;右邊正確&#xff09;只能按data_bar_rule_2編寫&#xff1a; from openpyxl import Workb…

微服務中的 “客戶端負載均衡” 簡介

微服務中的客戶端負載均衡是指將負載&#xff08;即工作任務或訪問請求&#xff09;在客戶端進行分配&#xff0c;以決定由哪個服務實例來處理這些請求。這種負載均衡方式與服務端負載均衡相對&#xff0c;后者是在服務端&#xff08;如服務器或負載均衡器&#xff09;進行請求…

系統設計題-路由表最長匹配

一、題目 路由表最長匹配&#xff1a;將目標IP地址dstIP與路由為entryIP/掩碼長度m&#xff08;比如10.166.50.0/23&#xff09;進行匹配&#xff0c;找出匹配掩碼m最長值。 匹配規則&#xff1a; 如果dstIP和entryIP的二進制表示的前m個位相同&#xff0c;則說明是匹配的。 0…