---恢復內容開始---
原kaggle比賽地址:https://www.kaggle.com/c/titanic
原kernel地址:A Data Science Framework: To Achieve 99% Accuracy
Step 4: Perform Exploratory Analysis with Statistics
使用描述性與圖表分析數據,重點在于數據可視化,突出數據類別與不同feature的關聯性
簡單的groupby()獲得不同feature對于生存率的影響
箱型圖與柱狀圖繪制。
箱型圖:plt.boxplot(),清晰表示數據的集中程度、離群點、中位數的位置。
柱狀圖plt.hist(),表示每個feature的不同值/分類的Survived數量。
seaborn 的barplot展示的是某feature的平均值,是數值變量的集中趨勢
pointplot():數值變量的中心趨勢估計,并使用誤差線提供關于該估計的不確定性的一些指示。
violinplot():小提琴圖顯示數據分布及其概率密度。
因為性別因素對是否生還造成很大影響,因此我們將性別和其他feature聯合繪圖比較,看看是否有什么新發現:
然后是其他feature的比較圖:
?不同船艙等級和性別對生還率的影響:
不同年齡的連續生還曲線:
直方圖比較性別、年齡、船艙等級:
微妙的看出低等倉與中等艙的男性大批死亡。頭等艙的女性幾乎全部生還。
pairplot()多變量圖將所有的feature交叉繪圖,隱含feature之間的關聯性。
heatmap()熱力圖,反應feature之間的關聯度:
?