2.1對特征歸一化的一些理解

`特征歸一化`有很多不同的叫法，比如：`特征縮放`，`Feature Normalization`，`Feature Scaling`

數據標準化（歸一化）處理是數據挖掘的一項基礎工作，不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到數據分析的結果，為了消除指標之間的量綱影響，需要進行數據標準化處理，以解決數據指標之間的可比性。原始數據經過數據標準化處理后，各指標處于同一數量級，適合進行綜合對比評價。

`特征歸一化`的意義

各特征之間的大小范圍一致，才能使用距離度量等算法
加速梯度下降算法的收斂
在SVM算法中，一致化的特征能加速尋找支持向量的時間
不同的機器學習算法，能接受的輸入數值范圍不一樣

以下是兩種常用的歸一化方法：

Min-Max標準化（Min-Max Normalization）線性歸一化

稱為離差標準化，是對原始數據的線性變換，使結果值映射到[0 1]之間。轉換函數如下：

x^*=\frac{x-min}{max-min}

該方法實現對原始數據的等比例縮放，其中x^*為歸一化后的數據，x為原始數據，max為樣本數據的最大值，min為樣本數據的最小值。

缺點：

當有新數據加入時，可能導致max和min的變化，需要重新定義。
數據不穩定，存在異常值和較多噪音

優點：

當我們需要將特征值都歸一化為某個范圍[a,b]時，選MinMaxScaler

0均值標準化(Z-score standardization)

這種方法給予原始數據的均值（mean）和標準差（standard deviation）進行數據的標準化。將原始數據集歸一化為均值為0、方差1的數據集，轉化函數為：

x^*=\frac{x-\mu}{\delta}

其中μ、δ分別為原始數據集的均值和方法。該種歸一化方式要求原始數據的分布可以近似為高斯分布，否則歸一化的效果會變得很糟糕。

優點：

適用于數據的最大值和最小值未知，或存在孤立點

比較

以上為兩種比較普通但是常用的歸一化技術，那這兩種歸一化的應用場景是怎么樣的呢？什么時候第一種方法比較好、什么時候第二種方法比較好呢？下面做一個簡要的分析概括：

在分類、聚類算法中，需要使用距離來度量相似性的時候、或者使用PCA技術進行降維的時候，第二種方法(Z-score
standardization)表現更好。
在不涉及距離度量、協方差計算、數據不符合正太分布的時候，可以使用第一種方法或其他歸一化方法。比如圖像處理中，將RGB圖像轉換為灰度圖像后將其值限定在[0
255]的范圍。

下面用`Python`來實現上述

舉例：假設有4個樣本及他們的特征如下
樣本 | 特征1 | 特征2
---|---|---
1 | 10001 | 2
2 | 16020 | 4
3 | 12008 | 6
4 | 13131 | 8

可見歸一化前，特征1和特征2的大小不是一個數量級。歸一化后，特征變為

樣本	特征1	特征2
1	0	0
2	1	0.33
3	0.73	0.67
4	0.81	1

min-max標準化（Min-Max Normalization）線性歸一化

sklearn.preprocessing.MinMaxScaler
在sklearn中，sklearn.preprocessing.MinMaxScaler是一種用于特征歸一化的方法。使用示例如下

from sklearn.preprocessing import MinMaxScaler
x = [[10001,2],[16020,4],[12008,6],[13131,8]]
min_max_scaler = MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(x)#歸一化后的結果
X_train_minmax
array([[ 0.        ,  0.        ],[ 1.        ,  0.33333333],[ 0.33344409,  0.66666667],[ 0.52001994,  1.        ]])

它默認將每種特征的值都歸一化到[0，1]之間，歸一化后的數值大小范圍是可調的（根據MinMaxScaler的參數feature_range調整）。下面代碼能將特征歸一化到[-1,1]之間。

min_max_scaler = MinMaxScaler(feature_range=(-1,1))
X_train_minmax = min_max_scaler.fit_transform(x)#歸一化后的結果
X_train_minmax
array([[-1.        , -1.        ],[ 1.        , -0.33333333],[ 0.46574339,  0.33333333],[ 0.6152873 ,  1.        ]])

MinMaxScaler的實現公式如下

X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min

這是向量化的表達方式，說明X是矩陣，其中

X_std：將X歸一化到[0，1]之間
X.min(axis=0)表示列最小值
max，min表示MinMaxScaler的參數feature_range參數。即最終結果的大小范圍

以下例說明計算過程（max=1，min=0）
樣本 | 特征1 | 特征2
---|---|---
1 | 10001 | 2
2 | 16020 | 4
3 | 12008 | 6
4 | 13131 | 8
X.max | 16020 | 8
X.min | 10001 | 2

歸一化的過程如下，假設歸一化后的矩陣為S

S11=(10001-10001)/(16020-10001)=0
S21=(16020-10001)/(16020-10001)=1
S31=(12008-10001)/(16020-10001)=0.333444
S41=(13131-10001)/(16020-10001)=0.52002
S12=(2-2)/(8-2)=0
S22=(4-2)/(8-2)=0.33
S32=(6-2)/(8-2)=0.6667
S42=(8-2)/(8-2)=1

可見，結果與章節“MinMaxScaler使用”中的計算結果一致。

StandardScaler標準化方法零均值歸一化

sklearn.preprocessing.StandardScaler
sklearn.preprocessing.robust_scale
在sklearn中，sklearn.preprocessing.StandardScaler是一種用于特征歸一化的方法。使用示例如下

from sklearn.preprocessing import StandardScaler
x = [[10001,2],[16020,4],[12008,6],[13131,8]]
X_scaler = StandardScaler()
X_train = X_scaler.fit_transform(x)
X_train
array([[-1.2817325 , -1.34164079],[ 1.48440157, -0.4472136 ],[-0.35938143,  0.4472136 ],[ 0.15671236,  1.34164079]])

歸一化后，矩陣每列的均值為0，標準差為1。注意，這里的標準差是指加了Delta Degrees of Freedom因子后的標準差，這與傳統的標準差計算公式有區別。（在numpy中，有std()函數用于計算標準差）

StandardScaler的歸一化方式是用每個特征減去列均值，再除以列標準差。
以下例說明計算過程，注意標準差是用np.std()計算的。

樣本	特征1	特征2
1	10001	2
2	16020	4
3	12008	6
4	13131	8
列均值	12790	5
列標準差	2175.96	2.236

歸一化的過程如下，假設歸一化后的矩陣為S

S11=(10001-12790)/2175.96=-1.28173
S21=(16020-12790)/2175.96=1.484
S31=(12008-12790)/2175.96=-0.35938
S41=(13131-12790)/2175.96=0.1567
S12=(2-5)/2.236=-1.342
S22=(4-5)/2.236=-0.447
S32=(6-5)/2.236=0.447
S42=(8-5)/2.236=1.3416

轉載于:https://www.cnblogs.com/cjr0707/p/9750611.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/249356.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/249356.shtml
英文地址，請注明出處：http://en.pswp.cn/news/249356.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！