Kaggle官方課程鏈接:Basic Data Exploration
本專欄旨在Kaggle官方課程的漢化,讓大家更方便地看懂。
Basic Data Exploration
加載并理解您的數據。
使用Pandas熟悉您的數據
任何機器學習項目的第一步都是熟悉數據。您將使用Pandas庫進行此操作。Pandas是數據科學家用來探索和操縱數據的主要工具。大多數人在代碼中將pandas縮寫為pd。
import pandas as pd
Pandas庫最重要的部分是DataFrame。DataFrame包含您可能認為是表的數據類型。這類似于Excel中的工作表或SQL數據庫中的表。
Pandas對于你想用這類數據做的大多數事情都有強大的方法。
例如,我們將查看澳大利亞墨爾本的房價數據。在實踐練習中,您將把相同的過程應用于一個新的數據集,該數據集包含愛荷華州的房價。
示例(墨爾本)數據位于文件路徑中/輸入/墨爾本住房快照/melb_data.csv。
我們使用以下命令加載和瀏覽數據:
# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path)
# print a summary of the data in Melbourne data
melbourne_data.describe()
Rooms | Price | Distance | Postcode | Bedroom2 | Bathroom | Car | Landsize | BuildingArea | YearBuilt | Lattitude | Longtitude | Propertycount | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 13580.000000 | 1.358000e+04 | 13580.000000 | 13580.000000 | 13580.000000 | 13580.000000 | 13518.000000 | 13580.000000 | 7130.000000 | 8205.000000 | 13580.000000 | 13580.000000 | 13580.000000 |
mean | 2.937997 | 1.075684e+06 | 10.137776 | 3105.301915 | 2.914728 | 1.534242 | 1.610075 | 558.416127 | 151.967650 | 1964.684217 | -37.809203 | 144.995216 | 7454.417378 |
std | 0.955748 | 6.393107e+05 | 5.868725 | 90.676964 | 0.965921 | 0.691712 | 0.962634 | 3990.669241 | 541.014538 | 37.273762 | 0.079260 | 0.103916 | 4378.581772 |
min | 1.000000 | 8.500000e+04 | 0.000000 | 3000.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 1196.000000 | -38.182550 | 144.431810 | 249.000000 |
25% | 2.000000 | 6.500000e+05 | 6.100000 | 3044.000000 | 2.000000 | 1.000000 | 1.000000 | 177.000000 | 93.000000 | 1940.000000 | -37.856822 | 144.929600 | 4380.000000 |
50% | 3.000000 | 9.030000e+05 | 9.200000 | 3084.000000 | 3.000000 | 1.000000 | 2.000000 | 440.000000 | 126.000000 | 1970.000000 | -37.802355 | 145.000100 | 6555.000000 |
75% | 3.000000 | 1.330000e+06 | 13.000000 | 3148.000000 | 3.000000 | 2.000000 | 2.000000 | 651.000000 | 174.000000 | 1999.000000 | -37.756400 | 145.058305 | 10331.000000 |
max | 10.000000 | 9.000000e+06 | 48.100000 | 3977.000000 | 20.000000 | 8.000000 | 10.000000 | 433014.000000 | 44515.000000 | 2018.000000 | -37.408530 | 145.526350 | 21650.000000 |
解讀數據描述
結果顯示原始數據集中每列有8個數字。第一個數字是計數,顯示有多少行沒有缺失值。
缺失值的出現有很多原因。例如,在調查一間臥室的房子時,不會收集第二間臥室的大小。我們將回到缺失數據的話題。
第二個值是平均值,即平均值。在這種情況下,std是標準偏差,它衡量的是數值的分散程度。
要解釋最小值、25%、50%、75%和最大值,想象一下從最低值到最高值對每列進行排序。第一個(最小)值是最小值。如果你遍歷列表的四分之一,你會發現一個大于值的25%但小于值的75%的數字。這就是25%的值(發音為“25th percentury”)。第50和第75百分位數的定義類似,最大值是最大的數字。
Your Turn
開始你的第一個編碼練習