核心區別對比表
特征 | Pearson 相關系數 | Spearman 相關系數 |
---|---|---|
相關性類型 | 線性相關 | 單調相關 |
計算基礎 | 原始數據值 | 數據排名(秩) |
公式 | ||
數據要求 | 連續變量,近似正態分布 | 有序數據或連續變量 |
異常值敏感性 | 高度敏感 | 不敏感 |
取值范圍 | [-1, 1] | [-1, 1] |
單調關系檢測 | 僅檢測線性關系 | 檢測線性+非線性單調關系 |
計算復雜度 | 較低 | 較高(需計算排名) |
適用場景 | 線性關系,數據質量好 | 非線性單調關系,異常值多,有序數據 |
詳細區別解析
1. 相關性類型不同
Pearson: 衡量變量之間的線性關系強度
Spearman: 衡量變量之間的單調關系強度(無論線性還是非線性)
2. 計算基礎不同
Pearson: 基于原始數據值的協方差和標準差
Spearman: 基于數據值的排名(秩):
將每個變量的值轉換為排名
計算排名之間的 Pearson 相關系數
4. 數據要求不同
Pearson:
要求變量是連續型
最好近似正態分布
變量間關系應為線性
無顯著異常值
Spearman:
適用于連續變量和有序分類變量
不要求正態分布
可處理非線性但單調的關系
對異常值穩健
5. 異常值敏感性
Pearson: 高度敏感,單個異常值可顯著改變結果
Spearman: 不敏感,因為使用排名而非原始值
6. 單調關系檢測
Pearson: 只能檢測線性關系
Spearman: 可檢測任何單調關系(線性或非線性)
Spearman: 可檢測任何單調關系(線性或非線性)
7. 計算示例對比
數據:
X | Y |
---|---|
1 | 1 |
2 | 4 |
3 | 9 |
4 | 16 |
5 | 25 |
Pearson 計算:
計算原始數據的協方差和標準差
結果 ≈ 0.96(顯示強相關)
Spearman 計算:
轉換為排名:
X_rank Y_rank 1 1 2 2 3 3 4 4 5 5 計算排名間的 Pearson 相關
結果 = 1(完全單調相關)
8. 實際應用場景
使用 Pearson 當:
數據滿足線性、正態分布假設
需要精確測量線性關系強度
數據質量高,無顯著異常值
例如:身高與體重的關系研究
使用 Spearman 當:
數據不滿足正態分布假設
存在異常值
變量是有序分類變量(如滿意度評分)
關系可能是非線性但單調的
例如:廣告投入與銷售額的關系(可能存在邊際效應遞減)
總結
Pearson?是"線性相關"的黃金標準,但對數據要求嚴格
Spearman?是更穩健的"單調相關"度量,適用范圍更廣
在數據分析中,通常建議:
首先使用 Spearman(更穩健)
如果 Spearman 顯示強相關且數據質量好,再用 Pearson 測量線性強度
兩種方法都是度量相關性而非因果性
對于復雜關系,應結合散點圖等可視化工具分析