機器學習sklearn入門：歸一化和標準化

bg：歸一化（Normalization）通常指將數據按比例縮放至某個特定范圍，但具體范圍并不一定是固定的?0到1。標準化是將數據轉換成均值為0，標準差為1的分布。

使用場景：

用歸一化：
- 需要嚴格限定范圍（如神經網絡輸入、圖像處理）。
- 數據分布均勻且無極端值。
用標準化：
- 數據服從正態分布（或需要轉換為正態分布）。
- 算法假設數據均值為 0（如 PCA、線性回歸、SVM）。

歸一化

1、pandas構建二維數組

from sklearn.preprocessing import MinMaxScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
import pandas as pd
pd.DataFrame(data)

2、實現歸一化

scaler = MinMaxScaler() #實例化
scaler = scaler.fit(data) #fit，在這里本質是生成min(x)和max(x)
result = scaler.transform(data) #通過接口導出結果
result

--也可以使用fit_tranform一步到位

3、反歸一化就用scaler.inverse_transform(result)

4、上面默認轉換為0-1之間的數據，如果需要其它范圍的就在實例化MinMaxScaler的時候加上參數feature_range

data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = MinMaxScaler(feature_range=[5,10]) 
result = scaler.fit_transform(data) #fit_transform一步導出結果
result

標準化

from sklearn.preprocessing import StandardScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = StandardScaler() #實例化
scaler.fit(data) #fit，本質是生成均值和方差
scaler.mean_ #查看均值的屬性mean_
scaler.var_ #查看方差的屬性var_
x_std = scaler.transform(data) #通過接口導出結果
x_std.mean() #導出的結果是一個數組，用mean()查看均值
x_std.std() #用std()查看方差
scaler.fit_transform(data) #使用fit_transform(data)一步達成結果
scaler.inverse_transform(x_std) #使用inverse_transform逆轉標準化

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/89722.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/89722.shtml
英文地址，請注明出處：http://en.pswp.cn/web/89722.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！