一、原理
以天猫为例
首先在浏览器地址栏中输入https://www.tmall.com/打开天猫商城,任意检索某一商品,以手机为例,搜索结果如下图所示:
任意点开其中的某个商品:
我们直奔主题找到红框范围内的:累计评价
到了这一步之后我们可以清楚地在网页上查看到我们需要的信息,即评论数据。那我们需要怎么抓取呢?复制粘贴吗?
二:工具
这里我们需要用到的工具是易数云的采集器。
我们可以看到采集器工具上还是蛮多免费可用的模板的,像一些房产类的模板,电商类的模板等等。淘宝商品评论我们也能在模板是找到,打开模板查看
无非就是三个循环,既链接循环、页数循环、列表循环
链接循环无非就是循环url
而页数循环无非就是点击点个元素,这里用到的xpath应该直接点击下一页的按钮就可以实现了。
最后的不固定列表循环,就要点击我们需要获取的数据源位置了,既每条评论所在的位置,这里需要留意的是不固定列表的循环xpath只能最后一个节点不同,不然工具是会报错的,自己操作一下框定的范围即可,不会的可以找一下客服。(冲个会员让他教你,或者直接给他点小钱定制)
最后就是提取我们需要的数据了,同理也是点击对应的xpath就可以导出数据了。
那么模板上没有的天猫评论呢?我们都知道,淘宝和天猫的超级防爬能力让很多采集器望而却步,估计也是因为天猫防爬的问题,采集器上没有天猫评论这个模板。所以我们化身vip直接找我们家的客服并定制了一套规则,那我们就看看金钱魔力下的规则是长什么样的吧。
好的,出现了小编无法看懂的js,果然金钱的魅力还是很大的。(我也不懂为什么不能直接用淘宝的方式去写天猫的,估计需要我家技术出来解释了)
了解更多分析及数据抓取可查看:
http://cloud.yisurvey.com:9081/html/529942a8-212c-4c85-9c92-9c56beb4a299.html?ly=csdn
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。
————————————————