【漫話機器學習系列】168.最大最小值縮放（Min-Max Scaling）

在機器學習和數據預處理中，特征縮放（Feature Scaling） 是一個至關重要的步驟，它可以使模型更穩定，提高訓練速度，并優化收斂效果。最大最小值縮放（Min-Max Scaling） 是其中最常見的方法之一，它可以將特征值變換到一個固定范圍（通常是 [0,1]）。本文將詳細介紹 Min-Max Scaling 的數學公式、適用場景、優缺點以及如何在 Python 中實現它。

1. 什么是 Min-Max Scaling？

Min-Max Scaling，也稱為歸一化（Normalization），是一種線性變換方法，用于將數據的數值縮放到特定范圍（通常是 [0,1]?或 [-1,1]）。其核心思想是保持數據的相對大小，但將其拉伸或壓縮到目標范圍。

公式如下：

$X_i' = \frac{X_i - \min(X)}{\max(X) - \min(X)}$

其中：

$X_i'$ 是歸一化后的數據，
$X_i$ 是原始數據，
min?(X)?是特征中的最小值，
max?(X)?是特征中的最大值。

這樣變換后，所有數據點都會被映射到 [0,1]?之間。

2. Min-Max Scaling 的數學原理

（1）線性變換

Min-Max Scaling 通過線性變換，使數據按照比例縮放到指定范圍。設原始數據集 X?在 $[X_{\min}, X_{\max}]$ 之間，而我們希望轉換后的數據在 [a, b]?之間（通常是 [0,1]），那么變換公式為：

$X_i' = a + \frac{(X_i - X_{\min}) (b - a)}{X_{\max} - X_{\min}}$

當 a=0?且 b=1?時，就得到了標準的 Min-Max Scaling 公式。

（2）如何映射數據

當 $X_i = X_{\min}$ ? 時， $X_i' = 0$ 。
當 $X_i = X_{\max}$ ? 時， $X_i' = 1$ 。
介于最小值和最大值之間的數據，按比例映射到 [0,1]?內。

這種變換不會改變數據的分布形態，但會影響數據的范圍。

3. Min-Max Scaling 的優缺點

優點

保持原始數據的分布形態：不會改變數據的相對大小，適用于已經有界的數據，如年齡（通常在 0 到 100 之間）。
適用于數據范圍已知的情況：如圖像數據（像素值通常在 0 到 255 之間），轉換后數據會處于統一的區間，有助于模型收斂。
計算簡單，易于實現：只需要計算最小值和最大值，進行一次線性變換即可。

缺點

對異常值（Outliers）敏感：如果數據中存在異常值（如極端大或極端小的值），它們會影響最大值和最小值，從而影響所有數據的縮放。
依賴于數據范圍：如果數據范圍發生變化（如在不同批次數據上應用 Min-Max Scaling），那么縮放后的數據可能不一致。

4. 適用場景

Min-Max Scaling 適用于：

神經網絡：神經網絡的輸入通常需要歸一化到 [0,1]?或 [-1,1]，Min-Max Scaling 是常用的預處理方法。
K 近鄰（KNN）和支持向量機（SVM）：這些模型依賴于距離計算，數據縮放有助于提高模型性能。
圖像處理：圖像像素值通常位于 [0, 255]，縮放到 [0,1]?有助于提高模型穩定性。

不適用于：

具有異常值的數據集：可以考慮使用 RobustScaler 或 標準化（Standardization） 方法。

5. 在 Python 中實現 Min-Max Scaling

在 Python 中，可以使用 sklearn.preprocessing.MinMaxScaler 輕松實現 Min-Max Scaling：

（1）使用 Scikit-Learn

from sklearn.preprocessing import MinMaxScaler
import numpy as np# 示例數據
data = np.array([[10], [20], [30], [40], [50]])# 創建 MinMaxScaler，默認縮放到 [0,1]
scaler = MinMaxScaler()# 進行歸一化
scaled_data = scaler.fit_transform(data)print(scaled_data)

?運行結果

[[0.  ][0.25][0.5 ][0.75][1.  ]]

（2）手動實現 Min-Max Scaling

如果不使用 sklearn，可以手動計算：

import numpy as npdef min_max_scaling(data):min_val = np.min(data)max_val = np.max(data)return (data - min_val) / (max_val - min_val)data = np.array([10, 20, 30, 40, 50])
scaled_data = min_max_scaling(data)
print(scaled_data)

運行結果?

[0.   0.25 0.5  0.75 1.  ]

6. Min-Max Scaling vs. Z-Score 標準化

Min-Max Scaling 與 Z-Score 標準化（Standardization） 是兩種常見的特征縮放方法，它們的主要區別如下：

特性	Min-Max Scaling	Z-Score 標準化
公式	$X' = \frac{X - X_{\min}}{X_{\max} - X_{\min}}$	$X' = \frac{X - \mu}{\sigma}$
結果范圍	[0,1]（或指定范圍）	無固定范圍，均值 0，標準差 1
適用場景	適用于已知范圍的數據	適用于正態分布數據
對異常值的影響	受異常值影響大	受異常值影響小

當數據包含異常值時，通常更適合使用 Z-Score 標準化（即均值歸一化）。

7. 總結

Min-Max Scaling 是一種常用的特征縮放方法，它可以將數據縮放到固定范圍（如 [0,1]），使模型更穩定、訓練更快。它適用于范圍已知的數據，但對異常值敏感，因此在使用時需要考慮數據的分布特性。

核心要點

Min-Max Scaling 通過線性變換將數據縮放到 [0,1]。
適用于神經網絡、KNN、SVM 和圖像處理等場景。
對異常值敏感，若數據存在異常值，可考慮其他方法。
在 Python 中可使用 sklearn.preprocessing.MinMaxScaler 輕松實現。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/899817.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/899817.shtml
英文地址，請注明出處：http://en.pswp.cn/news/899817.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！