php 58房源采集,如何用火车采集器采集二手房数据

火车采集器,一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。对于免费版的用户来说,用火车采集器V8版比V9版更好,一是因为V8版可存储csv文件,而V9不能;二是在多级网页信息爬取方面,V9的免费版用户体验不如V8。下面以链家网中深圳南山区二手房为例,介绍V8版的数据爬取过程。

Step1:打开火车采集器,点击新建—分组,在弹出的对话框中输入分组名“链家网”称后,点击保存。

801be85af82d3ce5ec0a69d6b118167a.png

4b3a107b5693a000d27eeda3ee5782eb.png

Step2:选择“链家网”组,右键新建任务,弹出如下对话框。在任务名中输入“深圳南山区二手房”。在起始网页栏中点击添加,如图所示。

0fd605ee731d6ee5a2d3eed5768a7f42.png5a8f822f378bf3eb738156d54f0b1096.png

Step3:选择“批量/多页”,以链家网第二页为起始页网址,将其复制在地址格式栏中。我们可以从链家网的网页看到,随着页数的变化,只有pg后面的数字发生变化,其他不变(https://sz.lianjia.com/

ershoufang/nanshanqu/pg(*)/,)。因此,在地址格式栏中,把pg后的数字替换成(*)。为了防止链家网启动反爬程序,本次介绍只爬取两页数据。选择“等差数列”,首相为1,项数为2,公差为1。依次点击添加、完成。

21cef888e9268242c9eb531801ed46be.png

Step4:在多级网址获取中,点击添加,弹出如下对话框。每个房源信息的网址中,只有中间的数字会变化,其余的均不变(https://sz.lianjia.com/ershoufang/(*).html)。因此,在必须包含的信息中,只需把html前的数字换成(*)即可,然后点击保存。

1d95f480ec8e4ef5d16072a81e321284.png

Step5:点击测试网址采集,将会对1级网页进行采集测试,采集成功后如图。

6b010b037f9831b1d9bb9296c63e4e0c.png

Step6:进入“第二步:采集内容规则”的编辑。点击添加,进入标签编辑界面。在标签名中先填写名称。进入链家网的二级网页,即每个房源信息的页面,包括了名称、价格、户型、面积等信息,如图所示。

6033ab809b757735316f8ee1d4639542.png

0acffc064861c7918d5cdebe506256a5.png

接下来便是爬取相应的信息。在网页空白处单击右键,选择查看源代码,进入该网页的源代码,按Ctrl+F,将名称复制粘贴至搜索框中,以便快速找到其所在源代码的位置。下图所示便是名称的源代码

e5f539b9763426d147d708f7d9a9148c.png

eccc641a95ee9a2c09ed0a68c7a60d3f.png

在开始字符和结束字符分别输入相应的源代码,如图所示。单击确定后,按照上述方法进行价格、户型、面积等信息的爬取。需要特别说明的是,之所以通过网页源代码爬取相关信息,而不是在每个房源信息的页面中右键单击相应的信息,然后选择审查元素,然后利用前后截取的原则爬取相应信息,是因为通过审查元素这种方式有时候无法准确爬取相应信息。例如,房源信息中显示该房子的面积为88.52平米,若选择审查元素,则对应的信息为

3cfdabf3ba9419e4f4fece7580535181.png

输入网址测试时爬取出来的结果如右图所示。

560ded04d1f5a0974249b85c51961f24.png

95b29a65331141cf3d3c4d310b77e3fd.png

若在网页源代码中搜索88.52,则可搜索到如下信息

b804a7c2d6bd6f27b46e6d46954b09be.png

......

温馨提醒:

下面还有几步就快完成啦!如需查看完整内容,请成为【城市数据派会员】,点击查看

本站声明

本文仅代表作者观点,不代表城市数据派立场;

本文系作者授权城市数据派发表,未经许可,不得转载;

本网站上的所有内容均为虚拟服务,一经购买成功概不退款,请您理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14719.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深圳南山学区房_查查吧学区房地图

目前,南山最顶尖的四所学校分别是南二外、南山实验(麒麟)、南外高新和南外文华。四所学校各有优势和侧重,但总体而言,南外文华和麒麟实验颓势渐显,南二外和南外高新成绩则更为出色也更有潜力。另外还有2017年成立的以国际化教学模式的深圳湾学校,口号是“三年后南山前三…

2021绵阳南山高考成绩查询,2021年绵阳南山中学升学率高不高?

【引语】选择学校的时候,家长们最为关心的应该是这所学校的升学率如何,四川初升高升学网网编为同学们梳理了2021年绵阳南山中学升学率高不高的相关信息,更多最新资讯可以关注四川初升高升学网公众号,绵阳南山中学2021升学率&#…

深圳南山区月薪2.5w的程序员的住所(如图)

努力一辈子是为了什么,好看吗?呵呵……

「问题少年」逆袭成资产350亿美元英伟达CEO!60岁黄仁勋或成大模型爆发背后最大赢家...

转载于 新智元 编辑:编辑部 【新智元导读】90年代显卡芯片的红海市场中,为什么是英伟达脱颖而出?3D、矿卡、移动构架、人工智能,老黄带着英伟达,踏准了一个个风口,笑到了最后。 上周六,仅仅在…

单卡30秒跑出虚拟3D老婆!Text to 3D生成看清毛孔细节的高精度数字人,无缝衔接Maya、Unity等制作工具...

衡宇 萧箫 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT给AI行业注入一剂鸡血,一切曾经的不敢想,都成为如今的基操。 正持续进击的Text-to-3D,就被视为继Diffusion(图像)和GPT(文字)后&#xff0…

独立开发变现周刊(第87期):靠写简历如何每年赚24万美元?

分享独立开发、产品变现相关内容,每周五发布。 目录 1、mall4cloud: 开源的微服务B2B2C电商商城系统2、restorePhotos:开源的老照片修复系统3、JSON Crack——开源、免费的JSON可视化应用程序4、靠写简历如何每年赚24万美元? 1、mall4cloud: …

网络安全意识宣贯经典案例,十部网络安全从业者必看影集

网络安全建设的核心是人员的安全意识,网络建设是技术保障,网络安全体系建设核心建设金句“三分技术,七分管理”。由此可见,人员安全意识是基础且重要的一环。在企业网络安全意识培训中也会经常用到案例引导听众兴趣,今…

普通人如何用AI更好地变现,总结了12条变现玩法

AI进军艺术设计领域,改变了设计师们传统的工作方式,尽管许多互联网公司将AI工具整合到工作流程中,提高了效率、降低了成本,但也导致一些设计师因为被AI取代而失去了就业机会。 AI已经蓬勃发展,你是否抓住了机遇&#…

2023,平面设计趋势

微信搜索 【大迁世界】, 我会第一时间和你分享前端行业趋势,学习途径等等。 本文 GitHub https://github.com/qq449245884/xiaozhi 已收录,有一线大厂面试完整考点、资料以及我的系列文章。 快来免费体验ChatGpt plus版本的,我们出的钱 体验地…

OpenAI掌门人Sam Altman:DALL·E 2 教会我的三件事!

【CSDN 编者按】OpenAI CEO Sam Altman 在近日的活动中分享了 DALLE 2 成功背后的故事,并谈到了 DALLE 2 教会他的三件事。 整理 | 禾木木 出品 | CSDN(ID:CSDNnews) 人工智能 ChatGPT 一下爆火全球,短短几天用户就突破…

阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24

这是ShowMeAI每周通讯的第3期。通讯聚焦AI领域本周热点,及其在各圈层泛起的涟漪;关注AI技术进步,并提供我们的商业洞察。欢迎关注与订阅! 本周在 CSDN 积极答题一路升到 Top2,被系统误判为 ChatGPT 机器人X﹏X 可见压力…

ChatGPT写代码、写情书、写文章、做题,智星AI小助手

ChatGPT写代码、写情书、写文章、做题,智星AI小助手,首先微信搜下智星AI小助手 正巧你想跟一个女孩子表白,却不知道如何开口,这时,它帮你 见字如面,写一封信便缓解了你的紧张情绪... 想写一封辞职信&#…

【版本更新】猿如意 1.1.0 版本发布,增加 ChatGPT 模块、圣诞主题代码片等

一. 增加 ChatGPT 模块 增加 ChatGPT 模块,每日限量发放体验券,先到先得哦 ~ 二. 效率工具增加博客助手、按键测试等 增加博客助手,可直接在猿如意快速发文章 增加按键测试工具 三. 增加圣诞代码、表白代码等 增加圣诞树代码、表白代码等 四.…

Datawhale-chatGPT开发应用指南:协助编程

结对编程,有bug可以直接问 构建测试用例 套路性代码 解决bug 另外还可以优化代码性能。 目前无法取代程序员 好的知识储备才能问出好的问题,好的问题能生成好的结果。 可以把chatGPT当作队友/老师,都可以让chatGPT对自己的代码进行纠错…

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来

论文地址:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view 项目地址:https://github.com/LAION-AI/Open-Assistant 数据集地址:https://huggingface.co/datasets/OpenAssistant/oasst1 体验地址:http…

ChatGPT初学者最佳实践

2022年11月底,ChatGPT引爆了新一轮AI的革命,也让人们意识到AI真的能够大幅度提高人们的工作效率,甚至有人担心自己的工作会因为AI不保。这种居安思危的意识是正确的,但是正如锛凿斧锯的出现,并没有让木匠这个行业消失&…

暴亏10亿美元,加密银行与背后大鱼均陷入困境,机构们还敢Web3吗?

这是白话区块链的第1843期原创 作者 | Terry出品|白话区块链(ID:hellobtc) 近日,加密友好银行集团 Silvergate Capital 披露,在 2022 年第四季度,其归属于股东的净亏损为 10 亿美元,…

2023.3.13-3.19 AI行业周刊(第141期):再回母校的心得分享

最近一直在收拾隔壁小区的房子,已经空置一年多了,打算重新收拾简装一下,然后租出去,正好可以补贴家用。 在柜子里面发现了好多15年刚毕业时的工资单,当时所在的公司,还是每个月发纸质的工资单。 虽然当时…

顶不住了!OpenAI 宣布启动漏洞赏金计划,众包给ChatGPT找bug

编|小舟 源|机器之心 OpenAI:发现模型漏洞,找我领奖。 距离 ChatGPT 发布已过去 4 个月,GPT-4 也发布近一个月。OpenAI 的这两大模型彻底改变了自然语言处理(NLP)领域的格局,甚至为…

找漏洞赚外快?给ChatGPT挑毛病,最高奖励14万

反正闲着也是闲着,不如来给ChatGPT找漏洞?毕竟,万一真的找到漏洞了还能赚一笔外快。 当地时间 4 月 11 日,OpenAI 宣布推出漏洞赏金计划。该公司将根据报告问题的严重性和影响提供现金奖励,奖励范围从 200 美元到 200…