选题背景
去哪儿旅行网站上有丰富的图片,旅行数据以及评论数据,用这些大量的数据来学习数据采集及可视化分析是一个不错的选择
网页分析
可以获取的数据
通过翻阅这些攻略我们可以观察到网站上展示了以下共有的数据:文章标题,作者昵称,出发日期,游玩天数,照片书,人均费用,游客人数,阅读数,点赞数,评论数,途径以及行程。
提取数据
对网页源码进行简单的分析
攻略列表存放在一个 class=“b_strategy_list” 的 ul 标签下
文章链接在 li -> h2 -> a,在 a 标签的 href 属性中
文章标题在li -> h2 -> a,在 a 标签的 Text 中
作者昵称,出发日期,游玩天数,照片数量,人均消费,游玩人数,游玩类型等信息,在 li -> p(class=“user_info”) -> span(class=“intro”) -> span。同一级有多个同名标签时,可以通过 class 名进行区分。
阅读数,点赞数,评论数 等信息,在 li -> p(class=“user_info”)
-> span(class=“nums”) -> span。
数据展示
针对以上爬取到的数据进行可视化分析
1、行程频率分析
对行程中出现的地点进行频率分析去一个地方旅行,有些景点必须要去的,对于一个陌生的城市,怎么样可以快速确定打卡景点呢?,看看这些是否有遗漏的打卡景点呢。
2、 玩法攻略
在旅行中游客最喜欢的玩法是什么呢?
逗留时长
判断一个城市对游客对心引力,游客逗留时间是最核心指标。
游客人群
可以看到近乎1/4的人会选择与自己的好友一起去旅行,且独自一人在其中的占比也是非常高的!
出游月份
费用问题
外出旅行,首先要考虑的肯定的费用问题。这里是统计人均消费的水平,可见基本人均消费控制在10000以内,且在5000以内的分布是最多的。
阅读量,平均量,点赞量,照片量