AI人工智能之機器學習sklearn-數據預處理和劃分數據集

1、概要

??本篇學習AI人工智能之機器學習sklearn數據預處理和劃分數據集,從代碼層面講述如何進行數據的預處理和數據集劃分。

2、簡介

本片講述數據預處理的標準化處理、歸一化處理,以常用的兩個類為例

  • 標準化處理類 StandardScaler
  • 歸一化處理類 MinMaxScaler

在數據處理方面,使用train_test_split函數處理列表數據集為例

3、 數據預處理和數據集劃分

3.1 安裝依賴

python安裝機器學習庫: pip install scikit-learn

3.2、定義數據集
from sklearn.feature_extraction import text, DictVectorizer
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split# 示例數據集合,是一個經過處理的列表數據  X
X = [[1, 2], [3, 4], [5, 6], [7, 8]]
print("data:", X)# 示例打標的數據,
y = [0, 1, 0, 1]
print("tag", y)

運行上述代碼,您將得到如下輸出:

data: [[1, 2], [3, 4], [5, 6], [7, 8]]
tag [0, 1, 0, 1]
3.3 數據預處理 StandardScaler、MinMaxScaler
# 標準化處理
ss = StandardScaler()
# 將特征縮放到零均值和單位方差
X = ss.fit_transform(X)
X

運行上述代碼,您將得到如下輸出:

array([[-1.34164079, -1.34164079],[-0.4472136 , -0.4472136 ],[ 0.4472136 ,  0.4472136 ],[ 1.34164079,  1.34164079]])
# 歸一化處理
mms = MinMaxScaler()
# 將特征縮放到一個范圍(如[0,1])
X = mms.fit_transform(X) 
X

運行上述代碼,您將得到如下輸出:

array([[0.        , 0.        ],[0.33333333, 0.33333333],[0.66666667, 0.66666667],[1.        , 1.        ]])
3.4 劃分數據集 train_test_split
# 劃分訓練集 _train, 測試集 _test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
print(f"訓練集: {X_train} - {y_train}")
print(f"測試集: {X_test} - {y_test}")

運行上述代碼,您將得到如下輸出:

訓練集: [[1.         1.        ][0.         0.        ][0.66666667 0.66666667]] - [1, 0, 0]
測試集: [[0.33333333 0.33333333]] - [1]

4、 總結

本篇以自定義數據集為例,從代碼視角講述如何對數據集進行預處理和數據集的劃分。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/70711.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/70711.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/70711.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

智能硬件-01智能停車場

行業背景 隨著現代人們生活水平的提高,私家車輛在不斷增加,小區將面臨著臨時車用戶要多于固定車用戶的窘境,尤其是在早晚高峰時段車輛出入擁堵,對小區的車輛管理難度越來越大,對停車場收費員的崗位要求越來越高&#…

定長內存池的實現、測試及錯誤分析

背景 C/C 申請內存使用的是 malloc ,malloc 其實就是一個大眾貨,什么場景下都可以用,但是什么場景下都可以用就意味著什么場景下都不會有很高的性能。 定長內存池解決固定大小的內存申請釋放需求, 性能達到極致,不考…

vue3 下載文件 responseType-blob 或者 a標簽

在 Vue 3 中,你可以使用 axios 或 fetch 來下載文件,并將 responseType 設置為 blob 以處理二進制數據。以下是一個使用 axios 的示例: 使用 axios 下載文件 首先,確保你已經安裝了 axios: npm install axios然后在你…

Search API:讓數據獲取變得簡單高效的搜索引擎代理商

Search API:讓數據獲取變得簡單高效的搜索引擎代理商 在當今數字化時代,數據驅動的決策變得越來越重要,而獲取精準、實時的數據是眾多企業、研究機構和開發者的核心需求。然而,直接爬取搜索引擎或行業資訊網站可能會遇到諸多挑戰&…

halcon三維對象處理例程總結(二)

目錄 一、intersect_plane_object_model_3d二、interactive_intersection三、measure_plant四、moments_object_model_3d五、projective_trans_object_model_3d六、read_object_model_3d_generic_ascii一、intersect_plane_object_model_3d 計算三維物體模型與平面之間的相交部…

基于 Python 的項目管理系統開發

基于 Python 的項目管理系統開發 一、引言 在當今快節奏的工作環境中,有效的項目管理對于項目的成功至關重要。借助信息技術手段開發項目管理系統,能夠顯著提升項目管理的效率和質量。Python 作為一種功能強大、易于學習且具有豐富庫支持的編程語言&…

2月24(信息差)

🌍“任意舞蹈任意學”!宇樹機器人又進化了 傳Meta有意合作拋出橄欖枝 🎄兩部門:深入推進公路沿線充電基礎設施建設 推動大功率充電技術標準應用 ?小米15 Ultra、小米SU7 Ultra定檔2月27日 雷軍宣布:向超高端進發 1.…

mysql 遷移到人大金倉數據庫

我是在windows上安裝了客戶端工具 運行數據庫遷移工具 打開 在瀏覽器輸入http://localhost:54523/ 賬號密碼都是kingbase 添加mysql源數據庫連接 添加人大金倉目標數據庫 添加好的兩個數據庫連接 新建遷移任務 選擇數據庫 全選 遷移中 如果整體遷移不過去可以單個單個或者幾個…

C++和OpenGL實現3D游戲編程【連載23】——幾何著色器和法線可視化

歡迎來到zhooyu的C++和OpenGL游戲專欄,專欄連載的所有精彩內容目錄詳見下邊鏈接: ??C++和OpenGL實現3D游戲編程【總覽】 1、本節實現的內容 上一節課,我們在Blend軟件中導出經緯球模型時,遇到了經緯球法線導致我們在游戲中模型光照顯示問題,我們在Blender軟件中可以通過…

JUC并發—12.ThreadLocal源碼分析

大綱 1.ThreadLocal的特點介紹 2.ThreadLocal的使用案例 3.ThreadLocal的內部結構 4.ThreadLocal的核心方法源碼 5.ThreadLocalMap的核心方法源碼 6.ThreadLocalMap的原理總結 1.ThreadLocal的特點介紹 (1)ThreadLocal的注釋說明 (2)ThreadLocal的常用方法 (3)ThreadL…

Deepseek和Grok 3對比:寫一段冒泡排序

1、這是訪問Grok 3得到的結果 2、grok3輸出的完整代碼: def bubble_sort(arr):n len(arr) # 獲取數組長度# 外層循環控制排序輪數for i in range(n):# 內層循環比較相鄰元素,j的范圍逐漸減少for j in range(0, n - i - 1):# 如果當前元素大于下一個元…

Java-01-源碼篇-04集合-05-ConcurrentHashMap(1)

1.1 加載因子 加載因子(Load Factor)是用來決定什么時候需要擴容的一個參數。具體來說,加載因子 當前元素數量 / 桶的數量,當某個桶的元素個數超過了 桶的數量 加載因子 時,就會觸發擴容。 我們都知道 ConcurrentHas…

vue3: directive自定義指令防止重復點擊

第一章 前言 相信很多小伙伴會在各個渠道上搜如何防止重復點擊,之后會推薦什么防抖、節流來避免這一操作,該方法小編就不繼續往下說了。接下來說說小編的場景,項目已經完成的差不多了,但是由于之前大家都是直接點擊事件調用方法的…

忽略Git文件的修改,讓它不被提交

使用Git托管的工程中,經常有這樣的需求,希望文件只是本地修改,不提交到服務端。 如果僅僅是本地存在的文件,我們可以通過.gitignore配置避免文件被提交。 有的時候文件是由git托管的,但是我們希望只在本地修改&#…

Zap:Go 的高性能日志庫

文章目錄 Zap:Go 高性能日志庫一、Zap 的核心優勢二、快速入門 Zap1. 安裝2. 基本用法輸出示例 三、Logger 與 SugaredLogger:如何選擇?1. **Logger(高性能模式)**2. **SugaredLogger(開發友好模式&#xf…

每日一題——順時針旋轉矩陣

順時針旋轉矩陣 目錄 一、問題描述二、解題思路 1. 原地旋轉矩陣2. 旋轉邏輯3. 代碼實現 三、代碼解析 1. 參數說明2. 原地旋轉邏輯3. 返回矩陣 四、示例測試代碼五、復雜度分析 1. 時間復雜度2. 空間復雜度 一、問題描述 以下是內容轉換為 CSDN 的 Markdown 格式&#xf…

接雨水的算法

題目 代碼 # 接雨水算法 def trap(height):# 1. 特殊情況:數組為空 則返回0if not height:return 0n len(height)# 2. 初始化左右指針,左右最大值,結果left, right 0, n - 1# maxleft代表左邊最大值,maxright代表右邊最大值max…

會話對象 HttpSession 二、HttpSession失效

session失效有如下幾個原因&#xff1a; session.invalidate()方法注銷sessionsession超時 <session-config><!-- session的超時時間&#xff0c;以分鐘為單位 --><session-timeout>1</session-timeout> </session-config>Cookie被禁用

Jenkins 創建 Node 到 Windows

Jenkins 創建 Node 到 Windows 一. 新建 Node Dashboard -> Manage Jenkins -> Manage Nodes and Clouds Dashboard -> Nodes -> New Node 二. 配置節點 Node&#xff1a;節點名 Description&#xff1a;節點描述 Number of executors&#xff1a;節點最大同…

Opengl常用緩沖對象功能介紹及使用示例(C++實現)

本文整理了常用的opengl緩沖區對象并安排了使用示例 名稱英文全稱作用簡述頂點數組對象Vertex Array Object (VAO)管理 VBO 和 EBO 的配置&#xff0c;存儲頂點屬性設置&#xff0c;簡化渲染流程&#xff0c;避免重復設置狀態頂點緩沖區對象Vertex Buffer Object (VBO)存儲頂點…