kaggle上經典泰坦尼克項目數據分析探索

? ? ? ? 之前了解在kaggle上這個項目很火，最近想要加強一下python數據分析，所以在kaggle上找到這個項目進行學習探索，下面是將一些學習資料以及過程整理出來。

一、首先我們了解一下項目背景以及如何找到這個項目。

kaggle項目地址:

https://www.kaggle.com/code/alexisbcook/titanic-tutorial?scriptVersionId=99170538&cellId=5

進入頁面后會有背景介紹以及項目

我們先大概了解一下項目背景以及流程，找到項目所需要的數據源。

二、準備就緒，下面進入項目一起學習探索

import pandas as pdtrain_data = pd.read_csv(r'E:/train.csv')
test_data = pd.read_csv(r'E:/test.csv')
train_data.head(10)# 數據集概述
# 泰坦尼克號數據集是機器學習入門中一個非常著名的數據集，包含了乘客的個人信息以及他們的生死狀態。數據集主要包含以下字段：# PassengerI：乘客編號
# Survive：生存狀態（0代表未存活，1代表存活）
# Pclas：艙位等級
# Nam：乘客姓名
# Se：性別
# Ag：年齡
# SibS：同艙兄弟姐妹或配偶的數量
# Parc：同行父母或子女的數量
# Ticke：票號
# Far：票價
# Cabi：艙位
# Embarke：登船港口

查看導入train數據結果:

查看導入的test數據結果:

test_data.head(10)

查看數據基本信息

# 查看數據基本信息
train_data.info()

test_data.info()

查看數據空值情況

# 檢查各個字段的空值情況
train_data.isnull().sum()

說明：從結果看到Age、Cabin和Embarked明顯有空值

test_data.isnull().sum()

查看一下數據描述

train_data.describe()

test_data.describe()

# 計算女性獲救的概率
women = train_data.loc[train_data.Sex == 'female']["Survived"]
rate_women = sum(women)/len(women)print("% of women who survived:", rate_women)

# 計算男性獲救的概率
men = train_data.loc[train_data.Sex == 'male']["Survived"]
rate_men = sum(men)/len(men)print("% of men who survived:", rate_men)

# 學習第一個機器學習模型隨機森林來預測乘客的獲救可能
from sklearn.ensemble import RandomForestClassifiery = train_data["Survived"]# 指定相關的特性列
features = ["Pclass", "Sex", "SibSp", "Parch"]
# 將features轉換為啞變量
X = pd.get_dummies(train_data[features])
X_test = pd.get_dummies(test_data[features])model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)
predictions = model.predict(X_test)output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions})
output.to_csv('submission.csv', index=False)
print(output.head(10))
print("Your submission was successfully saved!")

# 上面部分是根據實例kaggle上面的例子，下面我們再對數據做一些探索
# 需求:引入seaborn來研究已知存活的數據中存活比例
# 結論:在891名乘客中，其中存活的比例為36.38%，溺水的比例為61.62%
import seaborn as sns
import matplotlib.pyplot as plt
sns.set()
sns.set_style('ticks')
train_data['Survived'].value_counts().plot.pie(labels = ['downed','survived'],
explode=(0,0.05),shadow = True,autopct = '%.2f%%',fontsize=15)
plt.show()

#年齡分布情況
# 需求:
# 1、年齡的分布情況
# 2、男性和女性的存活情況
# 3、大人和小孩的存活情況# 結論
# 年齡分布呈現右偏，大部分數據集中在20歲到40歲之間，最小年齡是0.42，最大年齡是80fig,ax = plt.subplots(1,2,figsize=(15,7))
age = train_data[train_data['Age'].notnull()]
age['Age'].hist(bins=50,histtype='bar',edgecolor='k',ax=ax[0])age['Age'].plot.box(showfliers=False, color = {'boxes':'DarkGreen', 'whiskers':'DarkOrange', 'medians':'DarkBlue', 'caps':'Gray'},grid=True,ax=ax[1])
pd.DataFrame(age['Age'].describe()).transpose()

# 需求:按照存活狀態分布的年齡情況
# 結論:幸存者的年齡整體比溺水的年齡小，幸存者數據有一個明顯的異常值，80歲的幸存者，需要檢查一下。import numpy as npplt.figure(figsize=(15, 3))
#顯示漢字
plt.rcParams['font.sans-serif'] = ['SimHei']sns.boxplot(y = 'Survived', x = 'Age', data = train_data,palette=["#3f3e6fd1", "#85c6a9"], fliersize = 0, orient = 'h')
#orient："v"|"h" 用于控制圖像使水平還是豎直顯示
#fliersize：異常值大小sns.stripplot(y = 'Survived', x = 'Age', data = train_data,linewidth = 0.6, palette=["#3f3e6fd1", "#85c6a9"], orient = 'h')plt.yticks( np.arange(2), ['drowned', 'survived'],fontsize= 15)
plt.title('乘客的年齡分布情況',fontsize= 15)
plt.ylabel('存活狀態')
plt.tight_layout()pd.DataFrame(train_data.groupby('Survived').Age.describe())

# 需求:由于有一個異常數據，這里簡單修正數據
# 結論:異常值的影響不大，結論仍然是年齡偏小的獲救概率較大
train_data.loc[train_data['Age']==80,'Age'] = 48
train_data[train_data['Name']=='Barkworth, Mr. Algernon Henry Wilson']pd.DataFrame(train_data.groupby('Survived').Age.describe())

#男性和女性存活情況
s_sex = train_data[train_data['Survived']==1][['Sex','Survived']].groupby('Sex').count()s_sex.plot.bar(rot=0)print(
'女性存活率為%0.2f%%,男性存活率為%0.2f%%'
%(s_sex.loc['female']/s_sex.sum()*100,s_sex.loc['male']/s_sex.sum()*100))

# 按照不同船艙等級劃分： 船艙等級越高，存活者年齡越大，船艙等級1存活年齡集中在20-40歲，船艙等級2/3中有較多低齡乘客存活
# 按照性別劃分 ： 男性女性存活者年齡主要分布在20-40歲，且均有較多低齡乘客，其中女性存活更多
# 按照不同船艙等級看存活的男女比例： 1、3等艙存活的男性大部分為20到50，2等艙幸存男性年齡偏低
# 年齡與存活的關系
age = train_data[train_data['Age'].notnull()]
s_age = age[age['Survived']==1]fig,ax = plt.subplots(1,3,figsize=(15,5))sns.violinplot(x='Pclass',y='Age',hue='Survived',data = age,split=True,ax=ax[0],grid=True)
ax[0].set_yticks(range(0,110,10))sns.violinplot('Sex','Age',hue='Survived',data=age,split=True,ax=ax[1])
ax[1].set_yticks(range(0,110,10))sns.violinplot('Pclass','Age',hue='Sex',data=s_age,split=True,ax=ax[2])
ax[2].set_yticks(range(0,110,10))plt.tight_layout()

age = train_data[train_data['Age'].notnull()]
age['age_int']=age['Age'].astype(int)
a = age[['Survived','age_int']].groupby('age_int',as_index=False).mean()
#計算均值相當于計算存活率plt.figure(figsize=(15,4))
sns.barplot(x ='age_int',y='Survived',data=a, palette = 'BrBG')

# 結合 SibSp、Parch字段，研究親人多少與存活的關系
# 要求：
# 1、有無兄弟姐妹/父母子女和存活與否的關系
# 2、親戚多少與存活與否的關系#計算家庭大小
train_data['family_size']=train_data['SibSp']+train_data['Parch']+1
train_data['family_size'].value_counts()

# 家庭大小與存活的關系
# 有兩個大小分別為8和11的大家族，其訓練數據集中的所有成員均被淹死。
# 大多數乘客獨自旅行，生存率不是很高。
# 在船上有4位家庭成員的人群中，幸存的乘客比例最大。fig = plt.figure(figsize=(12,5))ax1 = fig.add_subplot(121)ax = sns.countplot(train_data['family_size'])
labels = (train_data['family_size'].value_counts())
for i, v in enumerate(labels):ax.text(i, v+6, str(v), horizontalalignment = 'center', size = 10, color = 'black')
plt.ylabel('乘客數')  
plt.title('按照家庭數量分布的乘客情況')ax2 = fig.add_subplot(122)a = train_data.groupby('family_size')['Survived'].value_counts(normalize=True).unstack()
a.plot(kind='bar',stacked='True',color=["#3f3e6fd1", "#85c6a9"],rot=0,ax =ax2)
plt.legend(( 'Drowned', 'Survived'), loc=(1.04,0))
plt.title('按照家庭數量分布的存活情況')
plt.tight_layout()

# 結合票的費用情況，研究票價和存活與否的關系
# 要求：
# 1、 票價分布和存活與否的關系
# 2、比較研究生還者和未生還者的票價情況# 票價分布和存活與否的關系
# 結論:生還者的平均票價要大于未生還者的平均票價fig, ax=plt.subplots(1,2,figsize=(15,4))
train_data['Fare'].hist(bins=70, ax = ax[0])
train_data.boxplot(column='Fare', by='Pclass', showfliers=False,ax = ax[1])
# 查看票價分布情況fare_not_survived = train_data['Fare'][train_data['Survived'] == 0]
fare_survived = train_data['Fare'][train_data['Survived'] == 1]
# 基于票價，篩選出生存與否的數據
average_fare = pd.DataFrame([fare_not_survived.mean(),fare_survived.mean()])
std_fare = pd.DataFrame([fare_not_survived.std(),fare_survived.std()])
average_fare.plot(yerr=std_fare,kind='bar',legend=False,figsize = (15,4),grid = True)
# 查看票價與是否生還的關系
plt.tight_layout()

# 結合出發地的情況，研究出發地點與存活的關系
#大多數乘客登上南安普敦。 南安普敦的溺水乘客比例最大。
#從瑟堡出發的乘客，其中50％以上存活（在訓練數據集中）。
#皇后鎮出發的乘客中，絕大多數是三等艙乘客。fig = plt.figure(figsize = (15,4))ax1 = fig.add_subplot(131)
palette = sns.cubehelix_palette(5, start = 2)
ax = sns.countplot(train_data['Embarked'], palette = palette, order = ['C', 'Q', 'S'], ax = ax1)
plt.title('不同港口出發的乘客分布情況')
plt.ylabel('乘客數')labels = (train_data['Embarked'].value_counts())
labels = labels.sort_index()for i, v in enumerate(labels):ax.text(i, v+10, str(v), horizontalalignment = 'center', size = 10, color = 'black')ax2 = fig.add_subplot(132)
surv_by_emb = train_data.groupby('Embarked')['Survived'].value_counts(normalize = True)
surv_by_emb = surv_by_emb.unstack().sort_index()
surv_by_emb.plot(kind='bar', stacked='True', color=["#3f3e6fd1", "#85c6a9"], ax = ax2)
plt.title('不同港口出發的乘客存活情況')
plt.legend(( 'Drowned', 'Survived'), loc=(1.04,0))
_ = plt.xticks(rotation=False)ax3 = fig.add_subplot(133)
class_by_emb = train_data.groupby('Embarked')['Pclass'].value_counts(normalize = True)
class_by_emb = class_by_emb.unstack().sort_index()
class_by_emb.plot(kind='bar', stacked='True', color = ['#eed4d0', '#cda0aa', '#a2708e'], ax = ax3)
plt.legend(('1st class', '2nd class', '3rd class'), loc=(1.04,0))
plt.title('不同港口出發的乘客的船艙等級分布')
_ = plt.xticks(rotation=False)plt.tight_layout()

總結:

我們知道泰坦尼克號上沒有足夠的船只可供所有乘客撤離。在研究了有關乘客的信息之后，我們可以對誰在沉船事故中有更好的生存機會以及對乘客的
一般觀察做出一些假設。

1、數據集中有891名乘客，其中有549名（61.6％）被淹，只有342名（38.4％）幸存。但是我們知道，救生艇（16艘木質救生艇和4輛可折疊救生艇）
可以載運總乘客的53％。

2、所有乘客的年齡從0.17年到80歲不等，平均為29.88歲。幸存乘客的平均年齡為28.23，比溺水乘客的平均年齡（僅我們知道幸存者的年齡）小2.39。
看起來年輕人有更大的生存機會。

3、船上的家庭人數似乎也對生存機會有影響：有兩個大家庭，分別為8和11，他們來自訓練數據集的所有成員都被淹死了。我們可以觀察到，擁有2人，
3人，4人家庭的幸存者所占百分比大于單身人士，然后，隨著家庭規模的增加，幸存者所占的百分比會降低。

4、泰坦尼克號的大部分乘客都是三等艙。就乘客人數而言，第二類是最小的。盡管有先前確定的先決條件（平均而言，老年人死亡的可能性更高，
并且頭等艙的平均年齡比其他艙位更高。而且，由100％頭等艙組成的A層乘客的溺水乘客的比例很高），頭等艙的幸存者人數最多，而艙內幸存者的
比例最大。

5、三等艙機票的溺水乘客人數最多。但是，大多數頭等艙的男性乘客被淹死，而女性幾乎全部幸存下來。三等艙，一半的女性得以幸存。

6、船上的男性總體上比女性多，這對每個艙位來說都是公平的，但是在三等艙中，男性的數量是女性的兩倍多。

7、幾乎有600名男性旅客沒有家庭成員，只有200名女性，但是在普通家庭和大家庭中，女性旅客略多。

8、大多數乘客（914）登上南安普敦。此外，南安普敦的溺水乘客比例最大。 270名乘客登上瑟堡，其中50％以上幸存下來（在培訓數據集中）。?
皇后鎮（Queenstown）出發的旅客有123人，其中絕大多數是三等艙旅客。

9、泰坦尼克號幸存者分析是機器學習的入門案例，我做了一點資料的查詢發現有一些是數據無法體現的，不得不說單從數據的角度還原當時情況
實在有很多不妥的地方，原因有以下幾點：

(1)三等艙乘客中相當一部分是不懂英語的，看不懂路標指示，聽不懂船員的指令。這一因素與社會地位無關。

(2)愛德華·約翰·史密斯船長在最后時刻下令“婦孺優先”，但是大副、二副對該命令的執行是不一致的，右舷大副默多克認為如果甲板上沒有
女士兒童了，只要還有空位，男性乘客也可以登艇。所以從右舷放下的九艘救生艇上都有男性乘客，救生艇的乘坐率也比較高，其中有三艘滿員。
而在左舷的二副萊托勒則把“女士和兒童優先”理解為“全船的女士和兒童都應當先于男性乘客登艇”。所以，左舷的救生艇其實是
“僅限女士和兒童”。從左舷放下的九艘救生艇中，只有三艘乘坐率略超過六成。

(3)考察頭等艙幸存男性，他們主要集中右舷最早放下的三艘救生艇中，第一艘救生艇，一半座位是空的，一半乘客是男性，主要原因是一開始多數人
都沒有認識到被認為“永不沉沒”的鐵達尼所面臨的的危險。第二艘、第三艘救生艇男性乘客也占了近三分之一。還有一個原因是，右舷的救生艇位置
距離頭等艙近。

(4)有少部分人主動放棄等艇機會，這樣行為無疑閃爍著人性光輝。

所以單從數據的角度得出的結論顯然不足以說明當時的情況。電影《薩利機長》中，計算機的模擬還原的情況是飛機完全可以不必迫降在河面，
也是數字還原結果與現實的不符。所以只知道分析數據的分析師不是好的分析師，結合對業務的理解才是關鍵，數據是輔助。