文章目錄
- 🏳??🌈 1. 導入模塊
- 🏳??🌈 2. Pandas數據處理
- 2.1 讀取數據
- 2.2 查看數據信息
- 2.3 日期處理,提取年份、月份
- 2.4 經費處理
- 2.5 天數處理
- 🏳??🌈 3. Pyecharts數據可視化
- 3.1 出發日期_年份分布
- 3.2 出發日期_月份分布
- 3.3 出行天數分布
- 3.4 旅游途經點分布
- 3.5 出行團體占比
- 3.6 人均消費區間占比
- 3.7 出行類型標簽統計
- 3.8 旅游行程景點詞云
- 🏳??🌈 4. 可視化項目源碼+數據
大家好,我是 👉【Python當打之年(點擊跳轉)】
本期利用 python 分析一下「去哪網海南旅游攻略數據」 ,看看海南哪些旅游景點最受大家喜愛,哪個時間段旅游的朋友比較多,最受大家歡迎的旅行方式有哪些,以及旅行目的 等,希望對大家有所幫助,如有疑問或者需要改進的地方可以聯系小編。
涉及到的庫:
- Pandas — 數據處理
- Pyecharts — 數據可視化
🏳??🌈 1. 導入模塊
import pandas as pd
from pyecharts.charts import Line
from pyecharts.charts import Bar
from pyecharts.charts import Pie
from pyecharts.charts import Scatter
from pyecharts.charts import WordCloud
from pyecharts import options as opts
import warnings
warnings.filterwarnings('ignore')
🏳??🌈 2. Pandas數據處理
2.1 讀取數據
df = pd.read_excel("./去哪網海南攻略數據.xlsx")
2.2 查看數據信息
df.info()
2.3 日期處理,提取年份、月份
df['出發日期_年'] = [int(i.split('-')[0]) for i in df['出發日期'].tolist()]
df['出發日期_月'] = [int(i.split('-')[1]) for i in df['出發日期'].tolist()]
2.4 經費處理
fee = [int(i.replace('人均','').replace('元','')) for i in df_fee['人均消費'].tolist()]
df_fee['人均消費'] = fee
2.5 天數處理
df['天數'] = df['天數'].str[1:-1]
df['天數'] = df['天數'].astype('int')
🏳??🌈 3. Pyecharts數據可視化
3.1 出發日期_年份分布
def get_chart1():chart = (Bar().add_xaxis(x_data).add_yaxis("", y_data).set_global_opts(title_opts=opts.TitleOpts(title="1-出發日期_年",pos_top='2%',pos_left="center",),legend_opts=opts.LegendOpts(is_show=False),xaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=False)),yaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=False)),visualmap_opts=opts.VisualMapOpts(is_show=False,),))return chart
-
2014、2015、2016年的攻略數量相較于其他年份明顯較多、2017-2021年趨于平穩。
-
近三年時間大概由于時間比較近,加之疫情原因,所以攻略數量較少。
3.2 出發日期_月份分布
def get_chart2():chart = (Line().add_xaxis(x_data).add_yaxis("", y_data).set_global_opts(title_opts=opts.TitleOpts(title="2-每月攻略數量",pos_top='2%',pos_left="center",),visualmap_opts=opts.VisualMapOpts(is_show=False),legend_opts=opts.LegendOpts(is_show=False),))return chart
- 1月、12月的攻略數比較高,大概占到了總數量的20%,反而6月、7月、8月的數量相對低一些。
3.3 出行天數分布
- 從出行天數上來看,大多集中在一周(5天)左右,也有少量半個月、一個月的旅游時間。
3.4 旅游途經點分布
- 首當其沖當然是三亞(1853)啦!遠超排在第二的海口(182),基本是10倍之多,緊隨其后的是陵水(108)、萬寧(60)、文昌(46)等地。
3.5 出行團體占比
def get_chart3():chart = (Pie().add("", [list(z) for z in zip(x_data, y_data)]).set_global_opts(title_opts=opts.TitleOpts(title="5-出行團體占比",pos_top='2%',pos_left="center"),legend_opts=opts.LegendOpts(is_show=False),visualmap_opts=opts.VisualMapOpts(is_show=False,),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {d}%")))return chart
- 出行團體方面大多以好友(22%)、情侶(21%)和家庭(20%)團體居多。
3.6 人均消費區間占比
- 人均消費3000-5000元居多,占比46%,1000-3000元占比28%。
3.7 出行類型標簽統計
3.8 旅游行程景點詞云
def get_chart4():chart = (WordCloud().add("",words,word_size_range=[10,50]).set_global_opts(title_opts=opts.TitleOpts(title='8-旅游行程景點詞云',pos_top='2%',pos_left="center",),legend_opts=opts.LegendOpts(is_show=False),visualmap_opts=opts.VisualMapOpts(is_show=False),))return chart
- 亞龍灣、三亞灣、蜈支洲島、大東海、天涯海角、海棠灣等景點更受驢友的喜愛。
🏳??🌈 4. 可視化項目源碼+數據
點擊跳轉:【全部可視化項目源碼+數據】
以上就是本期為大家整理的全部內容了,趕快練習起來吧,原創不易,喜歡的朋友可以點贊、收藏也可以分享(注明出處)讓更多人知道。