火车采集器,一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。对于免费版的用户来说,用火车采集器V8版比V9版更好,一是因为V8版可存储csv文件,而V9不能;二是在多级网页信息爬取方面,V9的免费版用户体验不如V8。下面以链家网中深圳南山区二手房为例,介绍V8版的数据爬取过程。
Step1:打开火车采集器,点击新建—分组,在弹出的对话框中输入分组名“链家网”称后,点击保存。
Step2:选择“链家网”组,右键新建任务,弹出如下对话框。在任务名中输入“深圳南山区二手房”。在起始网页栏中点击添加,如图所示。
Step3:选择“批量/多页”,以链家网第二页为起始页网址,将其复制在地址格式栏中。我们可以从链家网的网页看到,随着页数的变化,只有pg后面的数字发生变化,其他不变(https://sz.lianjia.com/
ershoufang/nanshanqu/pg(*)/,)。因此,在地址格式栏中,把pg后的数字替换成(*)。为了防止链家网启动反爬程序,本次介绍只爬取两页数据。选择“等差数列”,首相为1,项数为2,公差为1。依次点击添加、完成。
Step4:在多级网址获取中,点击添加,弹出如下对话框。每个房源信息的网址中,只有中间的数字会变化,其余的均不变(https://sz.lianjia.com/ershoufang/(*).html)。因此,在必须包含的信息中,只需把html前的数字换成(*)即可,然后点击保存。
Step5:点击测试网址采集,将会对1级网页进行采集测试,采集成功后如图。
Step6:进入“第二步:采集内容规则”的编辑。点击添加,进入标签编辑界面。在标签名中先填写名称。进入链家网的二级网页,即每个房源信息的页面,包括了名称、价格、户型、面积等信息,如图所示。
接下来便是爬取相应的信息。在网页空白处单击右键,选择查看源代码,进入该网页的源代码,按Ctrl+F,将名称复制粘贴至搜索框中,以便快速找到其所在源代码的位置。下图所示便是名称的源代码
在开始字符和结束字符分别输入相应的源代码,如图所示。单击确定后,按照上述方法进行价格、户型、面积等信息的爬取。需要特别说明的是,之所以通过网页源代码爬取相关信息,而不是在每个房源信息的页面中右键单击相应的信息,然后选择审查元素,然后利用前后截取的原则爬取相应信息,是因为通过审查元素这种方式有时候无法准确爬取相应信息。例如,房源信息中显示该房子的面积为88.52平米,若选择审查元素,则对应的信息为
输入网址测试时爬取出来的结果如右图所示。
若在网页源代码中搜索88.52,则可搜索到如下信息
......
温馨提醒:
下面还有几步就快完成啦!如需查看完整内容,请成为【城市数据派会员】,点击查看
本站声明
本文仅代表作者观点,不代表城市数据派立场;
本文系作者授权城市数据派发表,未经许可,不得转载;
本网站上的所有内容均为虚拟服务,一经购买成功概不退款,请您理解。