Scikit-learn工具介紹與數據集

一、Scikit-learn簡介與安裝

Scikit-learn是Python中最流行的機器學習庫之一,它提供了簡單高效的數據挖掘和數據分析工具。

  1. Python語言機器學習工具

  2. Scikit-learn包括許多智能的機器學習算法的實現

  3. Scikit-learn文檔完善,容易上手,豐富的API接口函數

  4. Scikit-learn官網:scikit-learn: machine learning in Python — scikit-learn 1.6.1 documentation

  5. Scikit-learn中文文檔:sklearn

  6. scikit-learn中文社區

1. Scikit-learn安裝

# 使用pip安裝scikit-learn
# pip install scikit-learn
# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scikit-learn# 或者使用conda安裝
# conda install scikit-learn# 驗證安裝是否成功
import sklearn
print("Scikit-learn版本:", sklearn.__version__)

2. Scikit-learn包含的內容

Scikit-learn主要包含以下功能模塊:

  • 分類(Classification)

  • 回歸(Regression)

  • 聚類(Clustering)

  • 降低降維(Dimensionality reduction)

  • 模型選擇(Model selection)

  • 預處理(Preprocessing)

二、數據集使用

1. sklearn玩具數據集介紹

Scikit-learn內置了一些小型標準數據集,數據量小,只要安裝了sklearn就可以使用,非常適合學習和測試算法。

from sklearn import datasets# 列出所有可用的玩具數據集
print("可用玩具數據集:", datasets.__all__)

2. sklearn現實世界數據集介紹

除了玩具數據集,scikit-learn還提供了一些更大的現實世界數據集,數據量大,數據只能通過網絡獲取 。

3. sklearn加載玩具數據集

示例1:鳶尾花數據
from sklearn.datasets import load_iris
# 加載鳶尾花數據集
iris = load_iris() # 返回一個Bunch對象# iris字典中有幾個重要屬性: 
# data 特征
# feature_names 特征描述
# target  目標
# target_names  目標描述
# DESCR 數據集的描述
# filename 下后到本地保存后的文件名
# 它們可以通過 數據集.屬性 的方式訪問# 查看數據集描述
print(iris.DESCR)# 特征數據 (150個樣本,4個特征)
print("特征數據形狀:", iris.data.shape)# 目標變量 (3類鳶尾花)
print("目標變量:", iris.target_names)# 下面使用pandas把特征和目標一起顯示出來# 將數據轉換為DataFrame (需要pandas)
import pandas as pd
import numpy as np
# iris = load_iris()
feature = iris.data
target = iris.target
target.shape=(len(target), 1)
data = np.hstack([feature, target])
cols = iris.feature_names
cols.append("target")
pd.DataFrame(data,columns=cols)

示例2:分析糖尿病數據集?

from sklearn.datasets import load_iris
# 加載糖尿病數據集
diabetes = load_diabetes()# 查看數據集描述
print(diabetes.DESCR)# 特征數據 (442個樣本,10個特征)
print("特征數據形狀:", diabetes.data.shape)# 目標變量 (一年后疾病進展的定量測量)
print("目標變量范圍:", min(diabetes.target), "到", max(diabetes.target))# 可視化第一個特征與目標變量的關系
import matplotlib.pyplot as plt
plt.scatter(diabetes.data[:, 0], diabetes.target)
plt.xlabel('年齡(標準化)')
plt.ylabel('疾病進展')
plt.title('年齡與糖尿病進展關系')
plt.show()

4. sklearn獲取現實世界數據集

示例3:獲取20分類新聞數據
# 針對下載不成功的可能是版本問題的解決方式
# 加載互聯網數據集
# pip install --upgrade scikit-learn 庫更新import sklearn.datasets as datasets
from sklearn.datasets import fetch_20newsgroups, fetch_california_housing
path = datasets.get_data_home() # 獲取數據集的默認路徑
print(path)# news = fetch_20newsgroups(data_home="./src",subset="all") # 加載所有數據集 train:訓練集 / test:測試集
# print(len(news.data)) # 18846
# print(type(news.data)) # <class 'list'>
# print(news.data[:5]) # 文本數據
# print(news.target_names) # 20個類別data,target = fetch_20newsgroups(data_home="./src",subset="all",return_X_y=True)
print(data[:5],target[:5]) # 文本數據

5. 讀取本地csv數據(借用pandas讀取)

(1) 創建csv文件
# 創建一個簡單的csv文件
import csvdata = [['姓名', '年齡', '城市'],['張三', 25, '北京'],['李四', 30, '上海'],['王五', 35, '廣州']
]with open('sample_data.csv', 'w', newline='', encoding='utf-8') as f:writer = csv.writer(f)writer.writerows(data)

?(2) pandas加載csv

# 使用pandas加載csv文件
import pandas as pd# 讀取csv文件
df = pd.read_csv('sample_data.csv')# 查看數據
print("數據概覽:")
print(df.head())# 基本統計信息
print("\n基本統計信息:")
print(df.describe())# 可視化
df.plot(kind='bar', x='姓名', y='年齡')
plt.title('年齡分布')
plt.show()

三、總結

????????本文介紹了scikit-learn的基本安裝、包含的內容,以及如何使用內置數據集和本地csv數據進行機器學習分析。通過示例代碼展示了如何加載和處理不同類型的數據集,為后續的機器學習建模打下基礎。

????????在實際應用中,理解數據是機器學習項目成功的關鍵第一步。scikit-learn提供的數據集接口和pandas的數據處理能力可以幫助我們快速開始數據分析工作。

?

?

?

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/903425.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/903425.shtml
英文地址,請注明出處:http://en.pswp.cn/news/903425.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Byte-Buddy系列 - 第4講 byte-buddy無法讀取到SpringBoot Jar中的類

目錄 一、問題描述二、原因分析三、解決方案1&#xff08;推薦&#xff09;&#xff1a;獲取線程上下文中的類加載器擴展 四、解決方案2&#xff1a;自定義SpringBoot類加載器 一、問題描述 在使用Byte-Buddy中的TypePool對類進行擴展后&#xff0c;在本地開發集成環境&#x…

AutogenStudio使用

官網介紹&#xff1a;https://microsoft.github.io/autogen/stable/ Autogen是什么&#xff1f; AutoGen 是由微軟開發的一個開源框架&#xff0c;旨在通過 多智能體協作&#xff08;Multi-Agent Collaboration&#xff09; 實現復雜的任務自動化。它的核心思想是讓多個 AI 代…

Vue3 Echarts 3D圓形柱狀圖實現教程以及封裝一個可復用的組件

文章目錄 前言一、實現原理二、series ——type: "pictorialBar" 簡介2.1 常用屬性 三、代碼實戰3.1 封裝一個echarts通用組件 echarts.vue3.2 首先實現一個基礎柱狀圖3.3 添加上下2個橢圓面3.4 進階封裝一個可復用的3D圓形柱狀圖組件 總結 前言 在前端開發的數據可視…

yolov8中train、test、val

說明yolov8中train、test、val是什么意思&#xff0c;是什么作用呢&#xff1f;詳細介紹使用yolov8進行實例分割&#xff0c;我應該如何制作我的數據集呢&#xff1f; 1. YOLOv8中的train、val、test是什么意思&#xff1f;作用是什么&#xff1f; 在YOLOv8&#xff08;由Ultr…

借助Spring AI實現智能體代理模式:從理論到實踐

借助Spring AI實現智能體代理模式&#xff1a;從理論到實踐 前言 在人工智能領域&#xff0c;大語言模型&#xff08;LLM&#xff09;的應用愈發廣泛&#xff0c;如何高效構建基于LLM的系統成為眾多開發者關注的焦點。Anthropic的研究報告《構建高效代理》為我們提供了新的思…

【學習筆記】計算機操作系統(二)—— 進程的描述與控制

第二章 進程的描述與控制 文章目錄 第二章 進程的描述與控制2.1 前趨圖和程序執行2.1.1 前趨圖2.1.2 程序順序執行2.1.3 程序并發執行 2.2 進程的描述2.2.1 進程的定義和特征2.2.2 進程的基本狀態及轉換2.2.3 掛起操作和進程狀態的轉換2.2.4 進程管理中的數據結構 2.3 進程控制…

具身智能之強化學習

在具身智能&#xff08;Embodied AI&#xff09;中&#xff0c;強化學習&#xff08;Reinforcement Learning&#xff0c;RL&#xff09;是一種非常核心的學習方法。它讓智能體&#xff08;agent&#xff09;通過與環境交互&#xff0c;不斷試錯&#xff0c;學習完成任務的策略…

go打印金字塔

需求 打印空心金字塔 解析 // * // * * // * * * // * * * *// 看成由星號、空格組成的矩形&#xff1a; // 1 1 1 0 // 2 3 2 1 // 3 5 3 2 // 4 7 4 3// 層數&#xff1a;n // 每層總元素數&#xff1a;2n-1 // 每星號數&#xff1a;n // 每層空格數&am…

C語言教程(二十二):C 語言頭文件詳解

一、頭文件的定義與形式 頭文件一般具有 .h 擴展名&#xff0c;它主要用來存放函數聲明、宏定義、結構體和共用體的定義、全局變量的聲明等內容。在C語言程序里&#xff0c;可借助 #include 預處理指令把這些頭文件包含到源文件中。 二、頭文件的作用 2.1 函數聲明 頭文件可對…

數據庫day-08

一、實驗名稱和性質 刪除修改數據 驗證 設計 二、實驗目的 1&#xff0e;掌握數據操作-- 刪除、修改&#xff1b; 三、實驗的軟硬件環境要求 硬件環境要求&#xff1a; PC機&#xff08;單機&#xff09; 使用的軟件名稱、版本號以及模塊&#xff1a; Windows 10&#x…

JAVA中Spring全局異常處理@ControllerAdvice解析

一、ControllerAdvice基礎概念 1. 什么是ControllerAdvice&#xff1f; ControllerAdvice是Spring 3.2引入的注解&#xff0c;用于定義全局控制器增強組件&#xff0c;主要功能包括&#xff1a; 全局異常處理&#xff08;最常用&#xff09;全局數據綁定全局數據預處理 2. …

開放平臺架構方案- GraphQL 詳細解釋

GraphQL 詳細解釋 GraphQL 是一種用于 API 的查詢語言&#xff0c;由 Facebook 開發并開源&#xff0c;旨在提供一種更高效、靈活且強大的數據獲取和操作方式。它與傳統的 REST API 有顯著不同&#xff0c;通過類型系統和靈活的查詢能力&#xff0c;解決了 REST 中常見的過度獲…

labview項目文件架構

為了使 LabVIEW 項目更具可擴展性和易于維護&#xff0c;合理規劃和設計項目文件結構是非常重要的。 以下是一些基于行業經驗和最佳實踐的建議&#xff1a; 1. ### 文件夾層次劃分 將不同的功能模塊分開存儲在一個清晰的分層目錄結構中是一個常見的做法。通常情況下&#xff…

Chrome的插件擴展程序安裝目錄是什么?在哪個文件夾?

目錄 前提 直接復制到瀏覽器中打開 Mac下Chrome extension 安裝路徑 最近換了mac pro用起來雖然方便&#xff0c;但是對常用的一些使用方法還是不熟悉。這不為了找到mac上chrome插件的安裝路徑在哪里&#xff0c;花費了不少時間。我想應用有不少像小編一樣剛剛使用mac的小白…

第13講:圖形尺寸與分辨率設置——適配論文版面,打造專業圖稿!

目錄 ?? 為什么這一講重要? ?? 一、先認識幾個關鍵詞 ?? 二、ggsave() 是導出圖的標準方法 ?? 三、尺寸設置技巧:對齊目標期刊 ?? 找到目標期刊的圖形欄寬 ?? 四、多個圖組合導出(與 patchwork 搭配) ?? 五、使用 Cairo / ragg 導出高質量圖 ?? 六…

2025年- H13-Lc120-189.輪轉數組(普通數組)---java版

1.題目描述 2.思路 import java.util.Arrays;public class H189 {public static void main(String[] args) {int[] newArr {1, 2, 3, 4, 5};int[] nums new int[5];System.arraycopy(newArr,0,nums,0,4);System.out.println(Arrays.toString(nums)); } }補充2&#xff1a; 3.…

機器人--相機

教程 畸變和校正 單目和雙目標定 單雙&#xff0c;rgb-d原理 單目相機 只有一個攝像頭的相機。 原理 小孔成像。 缺點 單目相機無法測量物體點的深度信。 因為物體的Z軸坐標系無法測量。 雙目相機 有兩個攝像頭的相機。 用兩個單目相機組成的雙目相機就可以測量深度信…

Go 語言入門:(一) 環境安裝

一、前言 這里不同于其他人的 Go 語言入門&#xff0c;環境安裝我向來注重配置&#xff0c;比如依賴包、緩存的默認目錄。因為前期不弄好&#xff0c;后面要整理又影響這影響那的&#xff0c;所以就干脆寫成文章&#xff0c;方便后期撿起。 二、安裝 1. 安裝包 https://go.…

筆試專題(十二)

文章目錄 主持人調度題解代碼 小紅的ABC題解代碼 不相鄰取數題解代碼 空調遙控題解代碼 主持人調度 題目鏈接 題解 1. 排序 2. 先按左端點的大小進行排序&#xff0c;保證時間是連續的&#xff0c;如果后一個點的左端點大于等于前一個點的右端點就是和法的&#xff0c;否則…

Ansible 守護 Windows 安全(Ansible Safeguards Windows Security)

Ansible 守護 Windows 安全&#xff1a;自動化基線檢查與加固 在當今網絡威脅日益嚴峻的形勢下&#xff0c;保障 Windows 系統安全至關重要。Ansible 作為一款強大的自動化運維工具&#xff0c;可通過自動化腳本實現 Windows 安全基線檢查和加固&#xff0c;大幅提升運維效率并…