下一篇:
《Python數據分析基礎04:預測性數據分析》
《Python數據分析基礎03:探索性數據分析》
《python數據分析基礎02:數據可視化分析》
《Python數據分析基礎01:描述性統計分析》
描述性統計分析是統計學中最基礎、應用最廣泛的部分。它旨在通過總結、組織和簡化數據,來描述和展示數據集合的主要特征,幫助我們理解數據的“樣子”,而不涉及對總體進行推斷(那是推斷統計的任務)。
1.0? 核心目的:
-
概括數據:?用少數幾個關鍵指標(如平均值、標準差)代表大量數據。
-
發現模式:?識別數據的分布形狀、集中趨勢、離散程度以及變量間可能的關系。
-
識別異常:?找出數據中可能存在的異常值。
-
數據呈現:?通過圖表清晰、直觀地展示數據特征。
-
為推斷統計打基礎:?提供對數據的初步理解,指導后續更復雜的分析(如假設檢驗、回歸分析)。
2.0? 主要分析內容:
描述性統計分析通常從以下幾個關鍵維度來描述數據:
-
集中趨勢:
-
描述數據點圍繞哪個中心值聚集。
-
常用指標:
-
均值:?所有數值的和除以數值個數。最常用,但受極端值影響大。
Mean = Σx? / n
-
中位數:?將數據按大小排序后,位于中間位置的值。不受極端值影響,更能反映數據的“典型”中心。奇數個數據取中間值,偶數個取中間兩個的平均值。
-
眾數:?數據集中出現頻率最高的值。一個數據集可以有多個眾數(多峰分布)或沒有眾數。適用于分類數據和數值數據。
-
-
-
離散程度:
-
描述數據點偏離中心值的程度有多大,數據是緊密聚集還是分散開。
-
常用指標:
-
極差:?最大值與最小值之差。計算簡單,但只利用了數據兩端的信息,對異常值敏感。
-
方差:?各數據點與均值之差的平方的平均值。衡量數據偏離均值的平均程度。
Variance (s2) = Σ(x? - Mean)2 / (n - 1)
?(樣本方差公式)。 -
標準差:?方差的平方根。單位與原數據一致,是最常用的離散程度度量。
Standard Deviation (s) = √Variance
。標準差小,數據圍繞均值緊密聚集;標準差大,數據分散。 -
四分位距:?第三四分位數(Q3, 75%位置)與第一四分位數(Q1, 25%位置)之差。
IQR = Q3 - Q1
。衡量中間50%數據的離散程度,不受極端值影響,是識別異常值的基礎(常用?Q1 - 1.5*IQR
?和?Q3 + 1.5*IQR
?作為異常值邊界)。 -
平均絕對偏差:?各數據點與均值(或中位數)之差的絕對值的平均值。概念直觀,但數學性質不如方差/標準差好。
-
-
-
分布形態:
-
描述數據分布的對稱性、偏斜程度和尖峰程度。
-
常用指標和圖:
-
偏度:?衡量分布不對稱性的方向和程度。
-
偏度 ≈ 0: 分布大致對稱(如正態分布)。
-
偏度 > 0: 正偏態/右偏態。數據向右(較大值方向)拖尾。均值 > 中位數 > 眾數。
-
偏度 < 0: 負偏態/左偏態。數據向左(較小值方向)拖尾。均值 < 中位數 < 眾數。
-
-
峰度:?衡量分布曲線頂峰的尖銳程度(與正態分布相比)。
-
峰度 ≈ 0: 峰度與正態分布相當(常峰態)。
-
峰度 > 0: 尖峰態。數據分布比正態分布更集中在均值附近,尾部更厚。
-
峰度 < 0: 低峰態/平頂峰。數據分布比正態分布更分散,尾部更薄。
-
-
直方圖:?最直觀展示分布形狀的圖表。
-
箱線圖:?能同時展示中位數、四分位數、極差、異常值,對分布形狀有粗略展示(特別是偏斜和異常值)。
-
Q-Q圖 / P-P圖:?用于更精確地檢驗數據是否服從特定分布(如正態分布)。
-
-
-
變量間關系:
-
當數據集包含多個變量時,描述性統計也用于探索變量之間的關聯。
-
常用方法:
-
散點圖:?兩個連續變量之間關系的直觀展示(正相關、負相關、非線性相關、無相關)。
-
協方差:?衡量兩個變量協同變化的方向。正值表示同向變化,負值表示反向變化。
Cov(X,Y) = Σ[(x? - Mean?)(y? - Mean?)] / (n - 1)
。但其數值大小受變量自身量綱影響,不便于直接比較相關性強弱。 -
相關系數:
-
皮爾遜相關系數:?衡量兩個連續變量之間線性關系的強度和方向。
r = Cov(X,Y) / (s? * s?)
。取值范圍 [-1, 1]。-
|r| ≈ 1: 強線性相關。
-
|r| ≈ 0: 弱線性相關或無線性相關(可能存在非線性關系)。
-
r > 0: 正相關。
-
r < 0: 負相關。
-
-
斯皮爾曼等級相關系數:?衡量兩個變量之間的單調關系(不一定是線性)的強度和方向。基于數據的排名計算。
-
卡方檢驗 / 列聯表:?用于分析兩個分類變量之間是否存在關聯。
-
-
交叉表:?展示兩個或多個分類變量聯合分布的頻數或比例。
-
-
常用工具與方法:
-
統計量計算:?直接計算上述各種指標(均值、標準差、方差、中位數、四分位數、極差、IQR、偏度、峰度、相關系數等)。
-
數據可視化:
-
單變量:?直方圖、箱線圖、莖葉圖、餅圖(分類數據)、條形圖(分類數據)。
-
雙變量:?散點圖、分組條形圖、堆疊條形圖、熱力圖。
-
多變量:?散點圖矩陣、平行坐標圖(較少用)。
-
-
頻數分布表:?展示數據在不同類別或區間內出現的次數或比例。
描述性統計 vs. 推斷性統計:
這是初學者容易混淆的關鍵點:
特征 | 描述性統計 | 推斷性統計 |
---|---|---|
目的 | 描述樣本數據的特征 | 利用樣本數據推斷總體特征或檢驗假設 |
對象 | 樣本數據本身 | 樣本數據代表的未知總體 |
方法 | 計算統計量、繪制圖表 | 參數估計(置信區間)、假設檢驗、回歸分析等 |
結論 | 報告樣本的實際情況(如樣本均值=5.2) | 對總體做出概率性陳述(如總體均值可能在4.8-5.6之間,置信度95%) |
不確定性 | 不涉及抽樣誤差 | 核心是量化和管理抽樣誤差帶來的不確定性 |
重要性與應用:
描述性統計是任何數據分析項目的第一步和基礎。它在幾乎所有涉及數據的領域都有廣泛應用:
-
商業智能:?報告銷售總額、平均訂單額、客戶地域分布、產品銷量排名等。
-
市場研究:?描述消費者人口統計特征(年齡、性別分布)、滿意度評分均值、品牌認知度比例等。
-
金融:?計算股票收益率均值、波動率(標準差)、風險價值。
-
社會科學:?描述調查問卷結果(各選項比例、平均態度得分)、人口普查數據(平均收入、教育水平分布)。
-
自然科學與工程:?報告實驗數據的平均值、誤差范圍(標準差)、測量結果的分布。
-
質量控制:?監控生產過程的均值、標準差、合格率。
-
日常報告:?任何需要總結和展示數據的場合。
總結:
描述性統計分析是打開數據寶庫的第一把鑰匙。它通過計算關鍵統計量(集中趨勢、離散程度、分布形態)和繪制直觀圖表(直方圖、箱線圖、散點圖等),有效地總結、簡化和呈現數據的主要特征和模式,幫助我們快速理解“數據講了什么故事”。它為后續更復雜的推斷性統計分析、建模和決策提供了不可或缺的基礎和洞察。不做好描述性統計就急于進行高級分析,就像不看地圖就一頭扎進未知森林一樣危險。