Python 數據挖掘之數據探索

????????在數據挖掘的流程中,數據探索是非常關鍵的第一步,它能幫助我們深入了解數據的特點,為后續的預處理和模型構建打下堅實的基礎。我們主要圍繞四個方面展開:數據對象與特征、數據統計描述、數據可視化以及相關性和相似性度量。

一、數據對象與特征

首先,我們來認識一下數據對象和特征。數據集可以看作是由數據對象構成的集合,一個數據對象代表一個實體,它還有很多其他的稱呼,比如記錄、樣本、實例等。而數據對象通常是由一組特征來描述的,這些特征刻畫了對象的基本屬性。

在數據庫中,一行數據就對應一個數據對象,也被稱為 “元組”,一列則對應一個特征。比如大家看這個包含銷售記錄的樣本數據集,每一行是一個客戶的購買記錄,也就是一個數據對象,而客戶 ID、購買日期、購買金額、購買商品 ID 這些就是描述這個對象的特征。

1. 特征及其類型

數據對象的特征可以用多種類型的數據來描述,我們把特征主要分為 5 種類型:標稱特征、二元特征、序數特征、區間標度特征和比率標度特征。

標稱特征是用于區分不同類別的標簽,比如顏色、職業等,它的值沒有順序和大小之分。二元特征是一種特殊的標稱特征,只能取兩個值,比如性別中的男和女、是否購買等。序數特征的值有明確的順序關系,但相鄰值之間的差距不一定相等,比如成績等級中的優、良、中、差。區間標度特征的值之間的差距是有意義的,但沒有絕對零點,比如溫度。比率標度特征不僅有差距意義,還有絕對零點,比如身高、體重等。

2. 離散和連續特征

從特征的取值數量角度,我們還可以把特征分為離散特征和連續特征。

離散特征在一定區間內有有限個取值,可以用整數、符號、布爾值等表示。像標稱特征、二元特征、序數特征和整數數值特征通常都是離散特征,比如職工人數、設備臺數、性別等。

連續特征則可以在一定區間內任意取值,有無限個取值,區間標度特征和比率標度特征一般屬于連續特征,比如生產零件的規格尺寸、人體的身高體重等。

二、數據統計描述

數據統計描述是通過計算一些統計度量指標來幫助我們認識數據,了解數據的分布特點,它通常包括集中趨勢和離中趨勢兩類度量指標。

1. 集中趨勢

集中趨勢反映的是數據集中分布的中心位置。

首先是均值,也就是算術平均數,它是所有數據的總和除以數據的個數,能反映數據的平均水平。但均值容易受到極端值的影響。

然后是中位數,對于偏度較大的數據,中位數是更好的集中趨勢度量指標。它是將數據排序后位于中間位置的那個值,如果數據個數是奇數,中間的那個值就是中位數;如果是偶數,通常取中間兩個值的平均值。

眾數則是在離散型特征中出現頻數最高的值,只對離散特征有意義。有時候可能會出現多個眾數,這樣的數據被稱為多峰數據。比如一組學生成績中,85 分出現的次數最多,那 85 就是眾數。

2. 離中趨勢

離中趨勢反映的是數據的離散程度。

極差是最簡單的離中趨勢指標,是數據中的最大值減去最小值,它能反映數據的波動范圍,但只考慮了兩個極端值,不夠全面。

方差和標準差也是常用的指標。方差是每個數據與均值的差的平方的平均值,標準差是方差的平方根,它們都能反映數據的離散程度,值越大說明數據越分散。

四分位極差是上四分位數與下四分位數的差。四分位數是將數據排序后,把數據分成 4 等份的 3 個點,分別是 25% 位置的下四分位數(Q1)、50% 位置的中位數(Q2)和 75% 位置的上四分位數(Q3)。四分位極差能反映中間 50% 數據的離散程度,受極端值影響較小。

三、數據可視化

在數據挖掘中,利用圖形工具對數據進行可視化,能讓我們直觀地觀察數據的分布規律、特征之間的關系以及異常值等情況。

1. 散點圖

散點圖是將數據點繪制在二維或三維坐標系中,通過數據點的散布情況來觀察數據的分布或特征之間的相關關系。

我們可以用 Matplotlib 模塊中的 scatter () 函數來繪制散點圖。兩個特征之間的相關性有多種情況,比如完全線性正相關、完全線性負相關、線性正相關、線性負相關、線性無關和非線性相關等。從散點圖中,我們能很直觀地看出這些關系。

2. 箱線圖

箱線圖也稱盒圖,主要用來展現數據的分布,包括上四分位數、下四分位數、中位數等,還能反映數據的異常情況。箱線圖通過繪制數據的五數概括(最小值、下四分位數、中位數、上四分位數、最大值)來展示數據的分布特征,超出一定范圍的數據點可能被視為異常值。

3. 頻率直方圖

頻率直方圖由一系列高度不等的縱向條紋組成,橫軸表示數據類型,縱軸表示分布情況,它能直觀地展示數據的頻率分布,讓我們了解數據在不同區間的分布密度。

4. 柱狀圖

柱狀圖以長方形的長度為變量,用高度不等的縱向條紋來表示數據大小,主要用于比較兩個或以上的變量。它也可以橫向排列,或者用多維方式表達。比如這個展示三個品種鳶尾花數量的柱狀圖,能很清楚地看出不同品種數量的差異。

5. 餅圖

餅圖是一個劃分為幾個扇形的圓形統計圖,用于描述數量、頻率或百分比之間的相對關系。每個扇區的弧長大小代表其所表示的數量的比例,所有扇區合起來是一個完整的圓。比如這個展示三個品種鳶尾花所占比例的餅圖,每個品種占比 33.3%。

6. 散點圖矩陣

散點圖矩陣和簡單散點圖不同,它可以同時展示多個特征的分布情況以及兩兩特征之間的關系,能幫助我們更全面地了解特征之間的關聯。

四、相關性和相似性度量

在數據探索中,有兩項重要工作:一是觀察特征之間是否存在相關性,判斷是否有冗余特征,以及特征和目標變量的相關性,為特征工程提供依據;二是計算數據之間的相似性,這是很多數據挖掘模型的基礎。

1. 數據相關性度量

相關性是衡量不同特征之間相關關系的指標,常用的有協方差、皮爾遜相關系數、斯皮爾曼相關系數、肯德爾相關系數等。

皮爾遜相關系數用于衡量兩個連續變量之間的線性相關性程度,它是兩個變量協方差與標準差乘積的商,取值范圍在 - 1 到 1 之間,絕對值越接近 1,線性相關性越強。

斯皮爾曼相關系數主要用于描述分類或等級變量之間、分類或等級變量與連續變量之間的關系,它通過關注兩個變量的秩次大小來計算相關性。

肯德爾相關系數也是一種秩相關系數,用于度量兩個等級變量的相關程度或單調關系強弱,它通過計算一致對和分歧對之差與總對數的比值得到。

2. 數據相似性度量

相似性是度量數據對象之間相似程度的方法,是聚類、推薦等模型的核心概念。不同類型的數據有不同的相似性度量指標。

杰卡德相似系數適用于二元特征,它是兩個集合交集的大小與并集大小的比值。

余弦相似度常用于文檔數據,它通過計算兩個向量的夾角余弦值來衡量它們的相似性。

對于數值特征,常用的距離度量有歐式距離,也就是兩點之間的直線距離;曼哈頓距離,類似城市中兩點之間的直角邊距離;還有馬氏距離、切比雪夫距離等。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88939.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88939.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88939.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

高并發點贊場景Synchronized、AtomicLong、LongAdder 和 LongAccumulator性能分析

在高并發點贊場景中,我們需要一個高效、線程安全的計數器來記錄點贊數。synchronized、AtomicLong、LongAdder 和 LongAccumulator 都是 Java 中用于實現原子操作的類,但它們的性能在高并發下差異顯著。性能主要取決于線程競爭程度:競爭越高&…

postgreSQL的sql語句

目錄 一:前提準備1.postgreSQL的安裝可以參考我下面一片文章: 二:SQL語句 1.相同點:支持標準sql類型 2.參考詳細學習地址: 3.postgresql與mysql的不同點 一:前提準備 1.postgreSQL的安裝可以參考我下面…

vue3 JavaScript 數據累加 reduce

在Vue 3中,你可以使用JavaScript的reduce方法來處理數據累加。reduce方法通常用在數組上,它將數組中的每個元素通過一個累加器函數(accumulator)從左到右累積,最終生成一個單一的值。這在計算總和、累加值等場景中非常…

史上最清楚!讀者,寫者問題(操作系統os)

讀者-寫者問題是另一個里程碑式的同步互斥問題。它比生產者-消費者更復雜,因為它引入了不對稱的訪問權限:讀者和讀者之間是共享的,但寫者和任何人(包括讀者和其他寫者)之間都是互斥的。我們用一個生動的比喻來解析這個…

使用Starrocks替換Clickhouse的理由

背景 Starrocks和clickhouse都是非常優秀的OLAP數據庫,那么什么情況下使用clickhouse,什么場景下使用starrocks呢,本文就簡單列舉一下他們的優缺點 理由 首先兩者都是列存儲,并且都實現了列壓縮,所以從存儲中兩者的壓縮…

Mybatis 兩級緩存可能導致的問題

Mybatis 兩級緩存可能導致的問題兩級緩存簡介一級緩存 localCache效果開關二級緩存兩級緩存可能導致的問題分布式環境下查詢到過期數據事務隔離級別失效讀已提交失效讀未提交失效總結兩級緩存簡介 一級緩存 localCache 效果 一級緩存是 session 或者說事務級別的&#xff0c…

vue3+uniapp 使用vue-plugin-hiprint中實現打印效果

前言: vue3uniapp 使用vue-plugin-hiprint中實現打印效果 官網地址:gitee https://gitee.com/ccsimple/vue-plugin-hiprinthttps://gitee.com/ccsimple/vue-plugin-hiprint 實現效果: 預覽打印內容: 實現步驟: 1、安…

【elementUI踩坑記錄】解決 el-table 固定列 el-table__fixed 導致部分滾動條無法拖動的問題

目錄一、問題背景二、 問題現象三、核心原因四、解決辦法增強方案🚀寫在最后一、問題背景 在使用 Element UI 的 el-table 組件時,固定列功能雖然實用,但會引發滾動條交互問題: 固定列區域懸浮顯示滾動條但無法正常拖動滾動條 …

【機器人編程基礎】python文件的打開和關閉

文件的打開和關閉 在Python中,文件操作是一項基本而重要的任務,涉及到打開、讀取、寫入、關閉文件等操作。正確地管理文件對于數據持久化、輸入輸出處理等至關重要。下面將詳細解釋如何在Python中打開和關閉文件,并提供相應的代碼示例。 文件打開 在Python中,可以使用內…

ShenYu實戰、問題記錄

概述 一款高性能的國產的Apache開源API網關,官方文檔。 在ShenYu v2.6.1, ShenYu注冊中心只支持http類型,中間件注冊類型已經被移除。 所以,請使用http注冊類型來注冊你的服務。不是微服務注冊中心,它只是將元數據、選擇器數據、…

走近科學IT版:EasyTire設置了ip,但是一閃之后就變回到原來的dhcp獲得的地址

EasyTier 是一款簡單、安全、去中心化的內網穿透和異地組網工具,適合遠程辦公、異地訪問、游戲加速等多種場景。無需公網 IP,無需復雜配置,輕松實現不同地點設備間的安全互聯。 上次實踐的記錄:適合遠程辦公、異地訪問的EasyTier…

rk3588平臺USB 3.0 -OAK深度相機適配方法

目錄 文件更改記錄表 1、usb規則添加 2、拉取相關依賴 3、安裝python3、安裝pip 4、安裝依賴 5、安裝ffmeg 6、攝像頭功能測試 7、將視頻拷貝到U盤查看 1、usb規則添加 由于OAK是USB設備,因此為了在使用 udev 工具的系統上與之通信, 您需要添加udev規則以使…

工廠模式總結

工廠模式1. 簡單工廠模式&#xff08;Simple Factory&#xff09; 核心思想 定義一個工廠類&#xff0c;根據輸入參數創建不同的具體對象。客戶端不直接調用具體類的構造函數&#xff0c;而是通過工廠類獲取對象。 示例代碼 #include <iostream> #include <memory>…

MySQL的三種安裝方式(mis、zip、yum)

目錄 2.0數據庫安裝 2.1windows上.mis格式 環境準備 MySQL的安裝 環境配置&#xff08;非必要&#xff09; 2.2windows上.zip格式安裝 環境準備 配置文件的內容 MySQL的安裝 附錄可能出現問題 圖形工具遠程連接數據庫 2.3Linux上安裝yum包 環境準備 過程命令 My…

串口學習和藍牙通信HC05(第八天)

&#x1f468;?&#x1f4bb;個人主頁&#xff1a;開發者-削好皮的Pineapple! &#x1f468;?&#x1f4bb; hello 歡迎 點贊&#x1f44d; 收藏? 留言&#x1f4dd; 加關注?! &#x1f468;?&#x1f4bb; 本文由 削好皮的Pineapple! 原創 &#x1f468;?&#x1f4b…

設計總監的“輕量化”新武器:用Adobe Express,音頻一鍵驅動動畫

在快節奏的創意項目中&#xff0c;如何將復雜的設計理念或冗長的研究報告&#xff0c;快速轉化為易于理解、富有吸引力的動態內容&#xff0c;是衡量一個團隊溝通效率的關鍵。作為一名在海外設計界工作了十余年的設計師&#xff0c;我發現&#xff0c;最高效的團隊&#xff0c;…

零知開源——STM32F407VET6驅動SHT41溫濕度傳感器完整教程

?零知開源是一個真正屬于國人自己的開源軟硬件平臺&#xff0c;在開發效率上超越了Arduino平臺并且更加容易上手&#xff0c;大大降低了開發難度。零知開源在軟件方面提供了完整的學習教程和豐富示例代碼&#xff0c;讓不懂程序的工程師也能非常輕而易舉的搭建電路來創作產品&…

Linux流量分析:tcpdump wireshark

前言 最近因為工作需要&#xff0c;研究了下如何使用tcpdump和wireshark分析業務流量。如果要使用tcpdump分析具體的HTTP請求耗時&#xff0c;需捕獲網絡數據包并分析時間戳信息&#xff0c;重點關注TCP連接的建立、HTTP請求發送到響應接收的全過程。 以下是具體步驟和技巧&…

深度學習圖像分類數據集—角膜潰瘍識別分類

該數據集為圖像分類數據集&#xff0c;適用于ResNet、VGG等卷積神經網絡&#xff0c;SENet、CBAM等注意力機制相關算法&#xff0c;Vision Transformer等Transformer相關算法。 數據集信息介紹&#xff1a;角膜潰瘍識別分類&#xff1a;[dot, mix, slice] 訓練數據集總共有270張…

功能強、超好用【PDF轉換工具】的介紹下載與安裝教程

Windows 電腦上一款簡單好用的PDF轉換工具&#xff0c;可以輕松地將其他文檔轉換為 PDF 格式&#xff0c;也可以將 PDF 文件轉換為其他格式&#xff0c;如常見的 Word、Excel、PPT 等。 此外軟件還支持 Office 文檔合并分割、旋轉頁面、拼接頁面、刪除文字、刪除頁面、添加水印…