????????在數據挖掘的流程中,數據探索是非常關鍵的第一步,它能幫助我們深入了解數據的特點,為后續的預處理和模型構建打下堅實的基礎。我們主要圍繞四個方面展開:數據對象與特征、數據統計描述、數據可視化以及相關性和相似性度量。
一、數據對象與特征
首先,我們來認識一下數據對象和特征。數據集可以看作是由數據對象構成的集合,一個數據對象代表一個實體,它還有很多其他的稱呼,比如記錄、樣本、實例等。而數據對象通常是由一組特征來描述的,這些特征刻畫了對象的基本屬性。
在數據庫中,一行數據就對應一個數據對象,也被稱為 “元組”,一列則對應一個特征。比如大家看這個包含銷售記錄的樣本數據集,每一行是一個客戶的購買記錄,也就是一個數據對象,而客戶 ID、購買日期、購買金額、購買商品 ID 這些就是描述這個對象的特征。
1. 特征及其類型
數據對象的特征可以用多種類型的數據來描述,我們把特征主要分為 5 種類型:標稱特征、二元特征、序數特征、區間標度特征和比率標度特征。
標稱特征是用于區分不同類別的標簽,比如顏色、職業等,它的值沒有順序和大小之分。二元特征是一種特殊的標稱特征,只能取兩個值,比如性別中的男和女、是否購買等。序數特征的值有明確的順序關系,但相鄰值之間的差距不一定相等,比如成績等級中的優、良、中、差。區間標度特征的值之間的差距是有意義的,但沒有絕對零點,比如溫度。比率標度特征不僅有差距意義,還有絕對零點,比如身高、體重等。
2. 離散和連續特征
從特征的取值數量角度,我們還可以把特征分為離散特征和連續特征。
離散特征在一定區間內有有限個取值,可以用整數、符號、布爾值等表示。像標稱特征、二元特征、序數特征和整數數值特征通常都是離散特征,比如職工人數、設備臺數、性別等。
連續特征則可以在一定區間內任意取值,有無限個取值,區間標度特征和比率標度特征一般屬于連續特征,比如生產零件的規格尺寸、人體的身高體重等。
二、數據統計描述
數據統計描述是通過計算一些統計度量指標來幫助我們認識數據,了解數據的分布特點,它通常包括集中趨勢和離中趨勢兩類度量指標。
1. 集中趨勢
集中趨勢反映的是數據集中分布的中心位置。
首先是均值,也就是算術平均數,它是所有數據的總和除以數據的個數,能反映數據的平均水平。但均值容易受到極端值的影響。
然后是中位數,對于偏度較大的數據,中位數是更好的集中趨勢度量指標。它是將數據排序后位于中間位置的那個值,如果數據個數是奇數,中間的那個值就是中位數;如果是偶數,通常取中間兩個值的平均值。
眾數則是在離散型特征中出現頻數最高的值,只對離散特征有意義。有時候可能會出現多個眾數,這樣的數據被稱為多峰數據。比如一組學生成績中,85 分出現的次數最多,那 85 就是眾數。
2. 離中趨勢
離中趨勢反映的是數據的離散程度。
極差是最簡單的離中趨勢指標,是數據中的最大值減去最小值,它能反映數據的波動范圍,但只考慮了兩個極端值,不夠全面。
方差和標準差也是常用的指標。方差是每個數據與均值的差的平方的平均值,標準差是方差的平方根,它們都能反映數據的離散程度,值越大說明數據越分散。
四分位極差是上四分位數與下四分位數的差。四分位數是將數據排序后,把數據分成 4 等份的 3 個點,分別是 25% 位置的下四分位數(Q1)、50% 位置的中位數(Q2)和 75% 位置的上四分位數(Q3)。四分位極差能反映中間 50% 數據的離散程度,受極端值影響較小。
三、數據可視化
在數據挖掘中,利用圖形工具對數據進行可視化,能讓我們直觀地觀察數據的分布規律、特征之間的關系以及異常值等情況。
1. 散點圖
散點圖是將數據點繪制在二維或三維坐標系中,通過數據點的散布情況來觀察數據的分布或特征之間的相關關系。
我們可以用 Matplotlib 模塊中的 scatter () 函數來繪制散點圖。兩個特征之間的相關性有多種情況,比如完全線性正相關、完全線性負相關、線性正相關、線性負相關、線性無關和非線性相關等。從散點圖中,我們能很直觀地看出這些關系。
2. 箱線圖
箱線圖也稱盒圖,主要用來展現數據的分布,包括上四分位數、下四分位數、中位數等,還能反映數據的異常情況。箱線圖通過繪制數據的五數概括(最小值、下四分位數、中位數、上四分位數、最大值)來展示數據的分布特征,超出一定范圍的數據點可能被視為異常值。
3. 頻率直方圖
頻率直方圖由一系列高度不等的縱向條紋組成,橫軸表示數據類型,縱軸表示分布情況,它能直觀地展示數據的頻率分布,讓我們了解數據在不同區間的分布密度。
4. 柱狀圖
柱狀圖以長方形的長度為變量,用高度不等的縱向條紋來表示數據大小,主要用于比較兩個或以上的變量。它也可以橫向排列,或者用多維方式表達。比如這個展示三個品種鳶尾花數量的柱狀圖,能很清楚地看出不同品種數量的差異。
5. 餅圖
餅圖是一個劃分為幾個扇形的圓形統計圖,用于描述數量、頻率或百分比之間的相對關系。每個扇區的弧長大小代表其所表示的數量的比例,所有扇區合起來是一個完整的圓。比如這個展示三個品種鳶尾花所占比例的餅圖,每個品種占比 33.3%。
6. 散點圖矩陣
散點圖矩陣和簡單散點圖不同,它可以同時展示多個特征的分布情況以及兩兩特征之間的關系,能幫助我們更全面地了解特征之間的關聯。
四、相關性和相似性度量
在數據探索中,有兩項重要工作:一是觀察特征之間是否存在相關性,判斷是否有冗余特征,以及特征和目標變量的相關性,為特征工程提供依據;二是計算數據之間的相似性,這是很多數據挖掘模型的基礎。
1. 數據相關性度量
相關性是衡量不同特征之間相關關系的指標,常用的有協方差、皮爾遜相關系數、斯皮爾曼相關系數、肯德爾相關系數等。
皮爾遜相關系數用于衡量兩個連續變量之間的線性相關性程度,它是兩個變量協方差與標準差乘積的商,取值范圍在 - 1 到 1 之間,絕對值越接近 1,線性相關性越強。
斯皮爾曼相關系數主要用于描述分類或等級變量之間、分類或等級變量與連續變量之間的關系,它通過關注兩個變量的秩次大小來計算相關性。
肯德爾相關系數也是一種秩相關系數,用于度量兩個等級變量的相關程度或單調關系強弱,它通過計算一致對和分歧對之差與總對數的比值得到。
2. 數據相似性度量
相似性是度量數據對象之間相似程度的方法,是聚類、推薦等模型的核心概念。不同類型的數據有不同的相似性度量指標。
杰卡德相似系數適用于二元特征,它是兩個集合交集的大小與并集大小的比值。
余弦相似度常用于文檔數據,它通過計算兩個向量的夾角余弦值來衡量它們的相似性。
對于數值特征,常用的距離度量有歐式距離,也就是兩點之間的直線距離;曼哈頓距離,類似城市中兩點之間的直角邊距離;還有馬氏距離、切比雪夫距離等。