【深度學習】P1 數據缺失值預處理

數據缺失值預處理

創建數據集
展示數據集
缺失值處理

創建數據集

首先創建一個人工數據集，作為下文對數據缺失值預處理的案例，

import osos.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:f.write('NumRooms, Alley, Price\n')f.write('NA, Pave, 127500\n')f.write('2,NA, 106000\n')f.write('4,NA, 178100\n')f.write('NA,NA, 140000\n')

案例中包含數值缺失值（屬性NumRooms）字符串缺失值（屬性Alley）；

展示數據集

通過 pandas 庫 read_csv 函數讀取 csv 文件，

import pandas as pddata = pd.read_csv(data_file)
print(data)

請添加圖片描述

需要注意的是，不是 NaN 而是 NA 的原因，是因為上述創建數據集時 NA 前包含空格；

缺失值處理

對缺失數據的處理，典型方法包括插值與刪除，而對于很少的數據集，一般不采用刪除的方法。以下展示插值的方法，插值包含 對于數值缺失值的插值 以及 對于字符串缺失值的插值。

首先對數值缺失值做插值處理，插入平均值，

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]inputs = inputs.fillna(inputs.mean(numeric_only=True))
print(inputs)

請添加圖片描述

注意加入 numeric_only=True 的原因是為了區分出數值缺失值以及字符串缺失值；

對于字符串的缺失值，可以把所有缺失值做成一個類。列中所有不同的值各自作為一個類，通過 pandas 庫的 get_dummies 函數，進行分類操作，

inputs = pd.get_dummies(inputs, dummy_na=True, dtype=int)
print(inputs)

請添加圖片描述

如果不加入 dtype=int 屬性，則一般默認為結果值為 True/False 而非 1/0；

將所有的缺失值以及所有的字符串轉化為數值后，就可以轉換為張量格式的 tensor 了，

import torchX, y = torch.tensor(inputs.values), torch.tensor(outputs.values)

請添加圖片描述

64位浮點數一般計算比較慢，所以深度學習通常會使用32位浮點數；

以上便是一個對于數據缺失值的簡單處理，以及最后轉化為深度學習的數據結構。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/166869.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/166869.shtml
英文地址，請注明出處：http://en.pswp.cn/news/166869.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！