【機器學習】“回歸“算法模型的三個評估指標：MAE（衡量預測準確性）、MSE（放大大誤差）、R2（說明模型解釋能力）

文章目錄

一、MAE、MSE、r2概念說明
二、MAE（平均絕對誤差）：用"房價預測"理解誤差測量
三、MSE（均方誤差）：誤差的"放大鏡"
- 1、概念說明
- 2、 sklearn代碼實踐
- 3、流程總結
四、R2：理解模型的"解釋能力"
- 1. 概念描述
- 2、sklearn代碼示例
五、應用場景：從理論到實踐
- 房價預測場景
- 股票價格預測場景
- 銷售預測場景
- 注意事項
六、總結

想象一下，你是一個天氣預報員，每天都要預測明天的溫度。有時候你預測25度，實際是23度；有時候預測30度，實際是28度。這些預測到底準不準？誤差有多大？如果只是說"差不多"，顯然不夠專業。

在機器學習中，回歸模型預測連續數值（如房價、溫度、銷售額），我們需要精確的"尺子"來衡量預測的準確性。MAE、MSE、r2就是這樣的"尺子"，它們告訴我們模型預測得有多好，誤差有多大，以及模型解釋數據的能力有多強。

一、MAE、MSE、r2概念說明

回歸評估指標就像三種不同的測量工具：MAE是"直尺"（簡單直接），MSE是"放大鏡"（對誤差更敏感），r2是"溫度計"（衡量解釋能力）。

核心定義：

MAE（平均絕對誤差）：預測值與真實值差值的絕對值的平均
MSE（均方誤差）：預測值與真實值差值的平方的平均
r2（決定系數）：模型解釋數據變異性的比例

對比分析

指標	特點	適用場景	優勢	劣勢
MAE	簡單直接	對異常值不敏感	易于理解	對誤差不夠敏感
MSE	對誤差敏感	需要懲罰大誤差	數學性質好	單位不直觀
r2	相對指標	模型解釋能力	標準化比較	可能誤導

二、MAE（平均絕對誤差）：用"房價預測"理解誤差測量

MAE是預測值與真實值差值的絕對值的平均，反映模型預測的平均偏差程度。

想象一下，你是一個房地產經紀人，需要預測房屋售價。你預測一套房子賣25萬，實際賣了23萬；預測另一套房子賣30萬，實際賣了32萬。這些預測到底準不準？誤差有多大？如果只是說"差不多"，顯然不夠專業。

在機器學習中，我們需要精確的"尺子"來衡量預測的準確性。MAE（平均絕對誤差）就是這樣的"尺子"，它告訴我們模型預測的平均偏差有多大，單位與目標變量相同，非常直觀。

# ============================================================================
# 導入必要的庫和模塊
# ============================================================================# pandas用于數據處理和分析
from pandas import read_csv# sklearn用于機器學習
from sklearn.model_selection import KFold              # K折交叉驗證
from sklearn.model_selection import cross_val_score    # 交叉驗證評分
from sklearn.linear_model import LinearRegression      # 線性回歸模型# ============================================================================
# 第一步：數據加載和預處理
# ============================================================================# 指定數據文件路徑（波士頓房價數據集）
filename = 'housing.csv'# 定義數據列名（特征和目標變量）
names = ['CRIM',     # 城鎮人均犯罪率'ZN',       # 住宅用地超過25000平方英尺的比例'INDUS',    # 非零售商業用地比例'CHAS',     # 查爾斯河虛擬變量（1表示靠近河流，0表示不靠近）'NOX',      # 一氧化氮濃度'RM',       # 每棟住宅的平均房間數'AGE',      # 1940年以前建成的業主自住單位比例'DIS',      # 與五個波士頓就業中心的加權距離'RAD',      # 放射狀公路的可達性指數'TAX',      # 每10000美元的全值財產稅率'PRTATIO',  # 城鎮師生比例'B',        # 1000(Bk - 0.63)^2，其中Bk是城鎮黑人比例'LSTAT',    # 人口中地位低下者的比例'MEDV'      # 目標變量：自住房的中位數價值（千美元）
]# 讀取CSV文件，使用自定義列名，以空格為分隔符
data = read_csv(filename, names=names, delim_whitespace=True)# ============================================================================
# 第二步：數據準備 - 分離特征和目標變量
# ============================================================================# 將pandas數據框轉換為numpy數組，便于數值計算
array = data.values# 提取特征變量X（前13列）：用于預測的輸入特征
X = array[:, 0:13]  # 選擇第0到第12列（索引0-12）# 提取目標變量Y（第14列）：要預測的結果（房價）
Y = array[:, 13]    # 選擇第13列（索引13）# ============================================================================
# 第三步：設置交叉驗證參數
# ============================================================================# 設置K折交叉驗證的折數
n_splits = 10  # 將數據分為10份，每次用9份訓練，1份測試# 設置隨機種子，確保結果可重現
seed = 7# 創建KFold交叉驗證對象
kfold = KFold(n_splits=n_splits,      # 10折交叉驗證random_state=seed,       # 隨機種子shuffle=True             # 打亂數據順序，確保隨機性
)# ============================================================================
# 第四步：創建模型和設置評估指標
# ============================================================================# 創建線性回歸模型實例
model = LinearRegression()# 設置評估指標為負平均絕對誤差
# 注意：sklearn返回負值，因為sklearn總是最大化指標（越小越好）
scoring = 'neg_mean_absolute_error'# ============================================================================
# 第五步：執行交叉驗證
# ============================================================================# 使用交叉驗證評估模型性能
result = cross_val_score(model,           # 要評估的模型X, Y,           # 特征和目標變量cv=kfold,       # 交叉驗證策略scoring=scoring  # 評估指標
)# ============================================================================
# 第六步：輸出結果
# ============================================================================# 打印交叉驗證結果
# result.mean()：10次驗證的平均MAE
# result.std()：10次驗證的MAE標準差
print('MAE: %.3f (%.3f)' % (result.mean(), result.std()))# ============================================================================
# 結果解讀說明
# ============================================================================"""
交叉驗證結果解讀：1. 結果格式：MAE: -3.387 (±0.234)- 負號：sklearn返回負值，實際MAE為3.387- 3.387：平均絕對誤差為3.387千美元- ±0.234：標準差，表示結果的可信度2. 交叉驗證過程：- 數據被分為10份- 每次用9份訓練，1份測試- 重復10次，每次使用不同的測試集- 最終得到10個MAE值，計算平均值和標準差3. 業務含義：- 模型預測房價的平均誤差為3.387千美元- 標準差0.234表示模型性能相對穩定- 在房價預測中，3.387千美元的誤差是可以接受的4. 優勢：- 避免了過擬合評估- 充分利用了有限的數據- 提供了模型性能的置信區間
"""

三、MSE（均方誤差）：誤差的"放大鏡"

1、概念說明

想象一下，你是一個房地產評估師，需要預測房屋售價。你預測一套房子賣25萬，實際賣了23萬；預測另一套房子賣30萬，實際賣了35萬。這些預測的誤差有多大？如果只是簡單相加，小誤差和大誤差的權重是一樣的，但顯然大誤差的后果更嚴重。

在機器學習中，我們需要一種能夠"懲罰"大誤差的評估方法。MSE（均方誤差）就是這樣一種方法，它對誤差進行平方處理，讓大誤差的"懲罰"更重，小誤差的"懲罰"更輕。
?

核心概念：誤差的"放大鏡"
MSE就像一把放大鏡，對誤差進行平方處理，讓大誤差變得更大，小誤差相對變小，從而突出大誤差的重要性。它能夠敏感地反映預測誤差，特別是對大誤差進行更重的懲罰，適合需要精確預測的場景。

2、 sklearn代碼實踐

# ============================================================================
# 導入必要的庫和模塊
# ============================================================================# pandas用于數據處理和分析
from pandas import read_csv# sklearn用于機器學習
from sklearn.model_selection import KFold              # K折交叉驗證
from sklearn.model_selection import cross_val_score    # 交叉驗證評分
from sklearn.linear_model import LinearRegression      # 線性回歸模型# ============================================================================
# 第一步：數據加載和預處理
# ============================================================================# 指定數據文件路徑（波士頓房價數據集）
filename = 'housing.csv'# 定義數據列名（特征和目標變量）
names = ['CRIM',     # 城鎮人均犯罪率'ZN',       # 住宅用地超過25000平方英尺的比例'INDUS',    # 非零售商業用地比例'CHAS',     # 查爾斯河虛擬變量（1表示靠近河流，0表示不靠近）'NOX',      # 一氧化氮濃度'RM',       # 每棟住宅的平均房間數'AGE',      # 1940年以前建成的業主自住單位比例'DIS',      # 與五個波士頓就業中心的加權距離'RAD',      # 放射狀公路的可達性指數'TAX',      # 每10000美元的全值財產稅率'PRTATIO',  # 城鎮師生比例'B',        # 1000(Bk - 0.63)^2，其中Bk是城鎮黑人比例'LSTAT',    # 人口中地位低下者的比例'MEDV'      # 目標變量：自住房的中位數價值（千美元）
]# 讀取CSV文件，使用自定義列名，以空格為分隔符
data = read_csv(filename, names=names, delim_whitespace=True)# ============================================================================
# 第二步：數據準備 - 分離特征和目標變量
# ============================================================================# 將pandas數據框轉換為numpy數組，便于數值計算
array = data.values# 提取特征變量X（前13列）：用于預測的輸入特征
X = array[:, 0:13]  # 選擇第0到第12列（索引0-12）# 提取目標變量Y（第14列）：要預測的結果（房價）
Y = array[:, 13]    # 選擇第13列（索引13）# ============================================================================
# 第三步：設置交叉驗證參數
# ============================================================================# 設置K折交叉驗證的折數
n_splits = 10  # 將數據分為10份，每次用9份訓練，1份測試# 設置隨機種子，確保結果可重現
seed = 7# 創建KFold交叉驗證對象
kfold = KFold(n_splits=n_splits,      # 10折交叉驗證random_state=seed,       # 隨機種子shuffle=True             # 打亂數據順序，確保隨機性
)# ============================================================================
# 第四步：創建模型和設置評估指標
# ============================================================================# 創建線性回歸模型實例
model = LinearRegression()# 設置評估指標為負均方誤差
# 注意：sklearn返回負值，因為sklearn總是最大化指標（越小越好）
scoring = 'neg_mean_squared_error'# ============================================================================
# 第五步：執行交叉驗證
# ============================================================================# 使用交叉驗證評估模型性能
result = cross_val_score(model,           # 要評估的模型X, Y,           # 特征和目標變量cv=kfold,       # 交叉驗證策略scoring=scoring  # 評估指標
)# ============================================================================
# 第六步：輸出結果
# ============================================================================# 打印交叉驗證結果
# result.mean()：10次驗證的平均MSE
# result.std()：10次驗證的MSE標準差
print('MSE: %.3f (%.3f)' % (result.mean(), result.std()))

3、流程總結

數據準備:
我們從波士頓房價數據集開始，包含506個房屋樣本和13個特征（如犯罪率、房間數等），目標變量是房價。通過pandas讀取數據后，將前13列作為輸入特征X，最后一列作為目標變量Y，為模型訓練做好準備。
模型評估設置
設置10折交叉驗證，將數據分為10份，每次用9份訓練、1份測試，確保每個樣本都被用作測試集。選擇線性回歸作為基準模型，使用MSE（均方誤差）作為評估指標，它能敏感地反映預測誤差并對大誤差進行懲罰。
性能評估與結果輸出
執行交叉驗證評估，sklearn進行10次訓練測試循環，每次計算MSE值。由于sklearn返回負值，我們轉換為正值來理解實際誤差。最終輸出MSE的平均值和標準差，平均值反映整體性能，標準差反映穩定性，為模型選擇提供可靠依據。

四、R2：理解模型的"解釋能力"

1. 概念描述

概念描述
R2就像測量一杯混合果汁中"橙汁"的比例，它告訴我們數據的總變化中有多少能被模型解釋，多少是模型無法解釋的"其他成分"。在房價預測中，如果R2=0.85，說明85%的房價變化能被模型解釋，剩下的15%可能是裝修風格、市場情緒等無法量化的因素。

R2的計算基于方差分解
首先計算數據的總變異量（所有房價與平均房價的差異），然后計算模型無法解釋的變異量（預測房價與真實房價的差異），最后用公式R2 = 1 - (殘差方差/總方差)得到模型能解釋的變異比例。這個比例范圍在0到1之間，越接近1說明模型解釋能力越強。
?

實際應用

在波士頓房價預測中，R2=0.734意味著模型解釋了73.4%的房價變異性，這是一個良好的表現。相比之下，股票收益預測的R2通常只有0.3左右，因為股票價格受太多不可預測因素影響。R2幫助我們判斷模型是否真正捕捉到了數據中的規律，而不僅僅是預測得準不準，為模型選擇和優化提供了重要依據。

2、sklearn代碼示例

# ============================================================================
# 導入必要的庫和模塊
# ============================================================================# pandas用于數據處理和分析
from pandas import read_csv# sklearn用于機器學習
from sklearn.model_selection import KFold              # K折交叉驗證
from sklearn.model_selection import cross_val_score    # 交叉驗證評分
from sklearn.linear_model import LinearRegression      # 線性回歸模型# ============================================================================
# 第一步：數據加載和預處理
# ============================================================================# 指定數據文件路徑（波士頓房價數據集）
filename = 'housing.csv'# 定義數據列名（特征和目標變量）
names = ['CRIM',     # 城鎮人均犯罪率'ZN',       # 住宅用地超過25000平方英尺的比例'INDUS',    # 非零售商業用地比例'CHAS',     # 查爾斯河虛擬變量（1表示靠近河流，0表示不靠近）'NOX',      # 一氧化氮濃度'RM',       # 每棟住宅的平均房間數'AGE',      # 1940年以前建成的業主自住單位比例'DIS',      # 與五個波士頓就業中心的加權距離'RAD',      # 放射狀公路的可達性指數'TAX',      # 每10000美元的全值財產稅率'PRTATIO',  # 城鎮師生比例'B',        # 1000(Bk - 0.63)^2，其中Bk是城鎮黑人比例'LSTAT',    # 人口中地位低下者的比例'MEDV'      # 目標變量：自住房的中位數價值（千美元）
]# 讀取CSV文件，使用自定義列名，以空格為分隔符
data = read_csv(filename, names=names, delim_whitespace=True)# ============================================================================
# 第二步：數據準備 - 分離特征和目標變量
# ============================================================================# 將pandas數據框轉換為numpy數組，便于數值計算
array = data.values# 提取特征變量X（前13列）：用于預測的輸入特征
X = array[:, 0:13]  # 選擇第0到第12列（索引0-12）# 提取目標變量Y（第14列）：要預測的結果（房價）
Y = array[:, 13]    # 選擇第13列（索引13）# ============================================================================
# 第三步：設置交叉驗證參數
# ============================================================================# 設置K折交叉驗證的折數
n_splits = 10  # 將數據分為10份，每次用9份訓練，1份測試# 設置隨機種子，確保結果可重現
seed = 7# 創建KFold交叉驗證對象
kfold = KFold(n_splits=n_splits,      # 10折交叉驗證random_state=seed,      # 隨機種子shuffle=True
)# ============================================================================
# 第四步：創建模型和設置評估指標
# ============================================================================# 創建線性回歸模型實例
model = LinearRegression()# 設置評估指標為R2（決定系數）
# R2衡量模型解釋數據變異性的能力，范圍[0,1]，越接近1越好
scoring = 'r2'# ============================================================================
# 第五步：執行交叉驗證
# ============================================================================# 使用交叉驗證評估模型性能
result = cross_val_score(model,           # 要評估的模型X, Y,           # 特征和目標變量cv=kfold,       # 交叉驗證策略scoring=scoring  # 評估指標
)# ============================================================================
# 第六步：輸出結果
# ============================================================================# 打印交叉驗證結果
# result.mean()：10次驗證的平均R2
# result.std()：10次驗證的R2標準差
print('R2: %.3f (%.3f)' % (result.mean(), result.std()))# ============================================================================
# R2概念詳解
# ============================================================================"""
R2（決定系數）詳解：1. 定義：R2 = 1 - (SS_res / SS_tot)- SS_res：殘差平方和（模型無法解釋的變異）- SS_tot：總平方和（數據的總變異）- 范圍：[0, 1]，越接近1越好2. 特點：- 相對指標：無量綱，便于比較不同模型- 解釋能力：衡量模型解釋數據變異性的比例- 標準化：不受數據規模影響3. 與MSE/MAE的區別：- MSE/MAE：絕對誤差指標，單位與目標變量相同- R2：相對指標，無量綱，便于模型比較4. 波士頓房價數據集中的R2：- 含義：模型能解釋多少房價的變異性- 業務解釋：R2越高，模型預測越可靠- 應用價值：為模型選擇和優化提供依據
"""R2: 0.718 (0.099)