酒店评论情感分析,采集与分词篇
开篇吐槽一下下。
类似携程这种生活类网站,还有电商类网站,不是驻守被爬的城墙内就是在反爬的道路上行走。不断的更新加密,批量化的采集不断破解并升级程式,并在网络之上布施教程,小白们熬夜拼命的学习。
做一个流水线般的案例示意
采集工具:八爪鱼
采集平台:携程
采集酒店:浙江饭店
我电脑没有开位置权限,打开浏览器进入携程直接选择的杭州,本想着找一个评分以及人气不错的酒店。因为酒店的人气与评分不错的情况下,意味着除了携程网站之外的互联网世界检索相关词的概率会高上许多,并且杭州是一个旅游城市,少不了在类似搜一搜这些平台检索一些攻略教程,从而获取一些微不足道的曝光与被动搜索,我这里很多文章来源流量95%来自于被动检索,这涉及SEO以及用户需求与本文主题无关。
错误:刚开始直接找到杭州浙江饭店直接复制链接至八爪鱼采集工具
在打开网页-登录-点击评论元素-网页识别-页面翻页至尾部会自动跳转到杭州酒店列表,所以步骤不可取。
然后我去酒店翻了一下视频教程
可以从第一张图片看到
输入网址-网页识别-取消识别-登录
这里要注意一下啊,登录之后要看右边的采集流程图,再次添加一个打开网页并且把之前复制的网址重新输入一遍,在采集流程下高级选项选择载入Cookies并应用。
网页窗口鼠标拖动进度条,翻页按钮点击一下下,设置翻页按钮。
最后点击第一条酒店评论空白处,全选后保存-采集-采集数据就可以啦!
下面这张图是正在采集。
采集杭州浙江饭店携程酒店评论完成并导出表格文件中
复制了一份酒店评论到文本文档格式,保存编码为ANSI,不然ROST Content Mining System不支持。
打开ROST软件就是上图界面,功能性分析有一个分词,找到酒店评论文本格式路径打开。
这是用ROST分词,分好词的酒店文本
依旧是功能性分析,分词下面有一个词频统计,点击并通过路径打开已经分词的酒店评论文本。
这就是结果,并无什么关系对吧!
因为,我们没有设置分词,用ROST软件自带是不行的,我们需要自行设置。
看上面图-ROST软件工具-自定义文件-分词自定义图表
这个文档需要重新设置修改,完成后保存,在下次分词之前,依旧是ROST软件,工具菜单栏-自定义文件-重载自定义图表才可以生效的哟!
篇幅有限写不完,也没有太多时间。
最近有太多私+,我这边不+友的请知悉,有事留言。
༺༒༻