基尼系數的定義
基尼系數是衡量數據分布不均衡程度的指標,取值范圍在0到1之間:
- 0 表示完全均衡(所有值相等)。
- 1 表示完全不均衡(所有值集中在一個點)。
基尼系數的計算公式
假設有 n n n 個數據點,其值為 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1?,x2?,…,xn?,且已按從小到大排序。基尼系數的計算公式為:
G = ∑ i = 1 n ( 2 i ? n ? 1 ) ? x i n ? ∑ i = 1 n x i G = \frac{\sum_{i=1}^{n} (2i - n - 1) \cdot x_i}{n \cdot \sum_{i=1}^{n} x_i} G=n?∑i=1n?xi?∑i=1n?(2i?n?1)?xi??
其中:
- x i x_i xi? 是第 i i i 個數據點的值。
- n n n 是數據點的總數。
計算步驟
- 排序:將 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1?,x2?,…,xn? 按從小到大排序。
- 計算分子:計算 ∑ i = 1 n ( 2 i ? n ? 1 ) ? x i \sum_{i=1}^{n} (2i - n - 1) \cdot x_i ∑i=1n?(2i?n?1)?xi?。
- 計算分母:計算 n ? ∑ i = 1 n x i n \cdot \sum_{i=1}^{n} x_i n?∑i=1n?xi?。
- 計算基尼系數:將分子除以分母。
示例計算
以地域維度的波動貢獻值 [2.5, 1, 1, 95.5]
為例:
- 排序:
[1, 1, 2.5, 95.5]
- 計算分子:
∑ i = 1 4 ( 2 i ? 4 ? 1 ) ? x i = ( 2 ? 1 ? 5 ) ? 1 + ( 2 ? 2 ? 5 ) ? 1 + ( 2 ? 3 ? 5 ) ? 2.5 + ( 2 ? 4 ? 5 ) ? 95.5 = ( ? 3 ) ? 1 + ( ? 1 ) ? 1 + 1 ? 2.5 + 3 ? 95.5 = ? 3 ? 1 + 2.5 + 286.5 = 285 \begin{aligned} \sum_{i=1}^{4} (2i - 4 - 1) \cdot x_i &= (2 \cdot 1 - 5) \cdot 1 + (2 \cdot 2 - 5) \cdot 1 \\ &\quad + (2 \cdot 3 - 5) \cdot 2.5 + (2 \cdot 4 - 5) \cdot 95.5 \\ &= (-3) \cdot 1 + (-1) \cdot 1 + 1 \cdot 2.5 + 3 \cdot 95.5 \\ &= -3 -1 + 2.5 + 286.5 \\ &= 285 \end{aligned} i=1∑4?(2i?4?1)?xi??=(2?1?5)?1+(2?2?5)?1+(2?3?5)?2.5+(2?4?5)?95.5=(?3)?1+(?1)?1+1?2.5+3?95.5=?3?1+2.5+286.5=285? - 計算分母:
n ? ∑ i = 1 4 x i = 4 ? ( 1 + 1 + 2.5 + 95.5 ) = 4 ? 100 = 400 n \cdot \sum_{i=1}^{4} x_i = 4 \cdot (1 + 1 + 2.5 + 95.5) = 4 \cdot 100 = 400 n?i=1∑4?xi?=4?(1+1+2.5+95.5)=4?100=400 - 計算基尼系數:
G = 285 400 = 0.7125 G = \frac{285}{400} = 0.7125 G=400285?=0.7125
案例說明
假設我們分析某公司銷售額的異常下跌,數據分為兩個維度:
- 地域維度:包含4個地區(A、B、C、D)
- 時間維度:包含4個時間段(Q1、Q2、Q3、Q4)
我們需要計算每個維度下各維度值對整體銷售額波動的貢獻值。
波動貢獻值的計算步驟
1. 計算整體銷售額的波動
- 假設上期總銷售額為 1000 萬元,本期總銷售額為 800 萬元。
- 整體波動 = 本期銷售額 - 上期銷售額 = 800 - 1000 = -200 萬元
2. 計算每個維度值的波動
對于每個維度值,計算其本期銷售額與上期銷售額的差值。
地域維度
地區 | 上期銷售額(萬元) | 本期銷售額(萬元) | 波動值(萬元) |
---|---|---|---|
A | 100 | 95 | -5 |
B | 200 | 198 | -2 |
C | 300 | 298 | -2 |
D | 400 | 209 | -191 |
時間維度
時間段 | 上期銷售額(萬元) | 本期銷售額(萬元) | 波動值(萬元) |
---|---|---|---|
Q1 | 250 | 224 | -26 |
Q2 | 250 | 225 | -25 |
Q3 | 250 | 225 | -25 |
Q4 | 250 | 226 | -24 |
3. 計算每個維度值的波動貢獻值
波動貢獻值 = (維度值的波動值 / 整體波動) × 100
地域維度
地區 | 波動值(萬元) | 波動貢獻值(%) |
---|---|---|
A | -5 | (-5 / -200) × 100 = 2.5% |
B | -2 | (-2 / -200) × 100 = 1% |
C | -2 | (-2 / -200) × 100 = 1% |
D | -191 | (-191 / -200) × 100 = 95.5% |
因此,地域維度的波動貢獻值為:[2.5, 1, 1, 95.5]
時間維度
時間段 | 波動值(萬元) | 波動貢獻值(%) |
---|---|---|
Q1 | -26 | (-26 / -200) × 100 = 13% |
Q2 | -25 | (-25 / -200) × 100 = 12.5% |
Q3 | -25 | (-25 / -200) × 100 = 12.5% |
Q4 | -24 | (-24 / -200) × 100 = 12% |
因此,時間維度的波動貢獻值為:[13, 12.5, 12.5, 12]
基尼系數的計算
根據波動貢獻值,可以計算每個維度的基尼系數。
地域維度的基尼系數
- 波動貢獻值:
[2.5, 1, 1, 95.5]
- 基尼系數較高,說明地域維度值分布不均衡,D地區的波動貢獻值(95.5%)遠高于其他地區。
時間維度的基尼系數
- 波動貢獻值:
[13, 12.5, 12.5, 12]
- 基尼系數較低,說明時間維度值分布均衡,各時間段的波動貢獻值接近。
- 地域維度的基尼系數較高,表明該維度更可能是異常源頭(D地區銷售額暴跌)。
- 時間維度的基尼系數較低,表明該維度與異常關聯性較低。
結論
通過基尼系數,可以快速判斷哪個維度更可能是導致指標異常的根源