編程小白沖Kaggle每日打卡（13）--kaggle學堂：＜機器學習簡介＞基礎數據探索

Kaggle官方課程鏈接：Basic Data Exploration

本專欄旨在Kaggle官方課程的漢化，讓大家更方便地看懂。

Basic Data Exploration

加載并理解您的數據。

使用Pandas熟悉您的數據

任何機器學習項目的第一步都是熟悉數據。您將使用Pandas庫進行此操作。Pandas是數據科學家用來探索和操縱數據的主要工具。大多數人在代碼中將pandas縮寫為pd。

import pandas as pd

Pandas庫最重要的部分是DataFrame。DataFrame包含您可能認為是表的數據類型。這類似于Excel中的工作表或SQL數據庫中的表。

Pandas對于你想用這類數據做的大多數事情都有強大的方法。

例如，我們將查看澳大利亞墨爾本的房價數據。在實踐練習中，您將把相同的過程應用于一個新的數據集，該數據集包含愛荷華州的房價。

示例（墨爾本）數據位于文件路徑中/輸入/墨爾本住房快照/melb_data.csv。

我們使用以下命令加載和瀏覽數據：

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()

Rooms	Price	Distance	Postcode	Bedroom2	Bathroom	Car	Landsize	BuildingArea	YearBuilt	Lattitude	Longtitude	Propertycount
count	13580.000000	1.358000e+04	13580.000000	13580.000000	13580.000000	13580.000000	13518.000000	13580.000000	7130.000000	8205.000000	13580.000000	13580.000000	13580.000000
mean	2.937997	1.075684e+06	10.137776	3105.301915	2.914728	1.534242	1.610075	558.416127	151.967650	1964.684217	-37.809203	144.995216	7454.417378
std	0.955748	6.393107e+05	5.868725	90.676964	0.965921	0.691712	0.962634	3990.669241	541.014538	37.273762	0.079260	0.103916	4378.581772
min	1.000000	8.500000e+04	0.000000	3000.000000	0.000000	0.000000	0.000000	0.000000	0.000000	1196.000000	-38.182550	144.431810	249.000000
25%	2.000000	6.500000e+05	6.100000	3044.000000	2.000000	1.000000	1.000000	177.000000	93.000000	1940.000000	-37.856822	144.929600	4380.000000
50%	3.000000	9.030000e+05	9.200000	3084.000000	3.000000	1.000000	2.000000	440.000000	126.000000	1970.000000	-37.802355	145.000100	6555.000000
75%	3.000000	1.330000e+06	13.000000	3148.000000	3.000000	2.000000	2.000000	651.000000	174.000000	1999.000000	-37.756400	145.058305	10331.000000
max	10.000000	9.000000e+06	48.100000	3977.000000	20.000000	8.000000	10.000000	433014.000000	44515.000000	2018.000000	-37.408530	145.526350	21650.000000

解讀數據描述

結果顯示原始數據集中每列有8個數字。第一個數字是計數，顯示有多少行沒有缺失值。

缺失值的出現有很多原因。例如，在調查一間臥室的房子時，不會收集第二間臥室的大小。我們將回到缺失數據的話題。

第二個值是平均值，即平均值。在這種情況下，std是標準偏差，它衡量的是數值的分散程度。

要解釋最小值、25%、50%、75%和最大值，想象一下從最低值到最高值對每列進行排序。第一個（最小）值是最小值。如果你遍歷列表的四分之一，你會發現一個大于值的25%但小于值的75%的數字。這就是25%的值（發音為“25th percentury”）。第50和第75百分位數的定義類似，最大值是最大的數字。

Your Turn

開始你的第一個編碼練習

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/70641.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/70641.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/70641.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！