我用python分析买房数据

首先说明,这是一篇技术文章。

明年打算买房,媳妇这段时间总去看房子,这种状态持续了两个月,最近终于消停了。现在整个市场不明朗,我们也不确定换到哪里。不如先整理点数据,至少能监控一些区域价格,有变化能及时知道。

正好可以边学Python边练手,不得不说Python确实是门不错的语言。上手速度和PHP有一拼,而且在做数据分析上有很大的优势。

一、影响因素

以前写过租房二三事,这篇文章在掘金的互动量比我所有的技术文章都高,可以看出住这个事情是大家的共同需求。想来买房、换房也是人生中比较重要的事情。其实不太期望捡便宜,但求正常价成交。下面列了一些影响放假的因素,大家买房的时候可以思考一下。

1.1学区

这个是房价最大的影响因素。以北京为例,比较好的是西城、海淀、东城。现在租住在西城边上,路两边房价差5w。

国家一直在努力想实现教育均衡,无论是东城的全区还是西城的多区划片,都是为了这一目标。我支持教育均衡,因为教育历来是重要上升通道,一旦失守,会引起很多问题。所以真要买学区房,要做好房价下降的心理准备(短时间就北京而言比较困难)。

学区这种非标品,很难说到底值多少钱,只能以市场价来判断。

现在几乎没有完全安全的方案,能够保证上好的小学同时也能上好的高中。北京现在的政策很多,幼升小有学区派位入学、片区内登录入学、多校划片入学等,小升初有直升、派位等。

大家尽量了解一下政策,同一个行政区里的不同小区情况并不相同。调研一下对应的小学和初中情况,别用能买相对好一点学区的钱买了一个一般的学区。

1.2楼层

同一个小区里,楼层对价格影响比较大。一般而言,顶楼和一层都要便宜一些,有的会便宜很多。

其中顶楼会更便宜一些,因为一楼比顶楼多一些购买人群-老人。

顶楼的问题:如果没有电梯,爬楼梯太累,而且还有漏雨、夏热冬凉等问题

底层的问题:隐私问题、下水问题、采光问题

这两者好处就是便宜,大家别用买好楼层的价格买了这些楼层

1.3房龄

北京越靠里越是老房子,俗称老破小。八几年的还可以,时间再往前的话,价格也要便宜一些,毕竟十年之后再换房,房龄太老下家都可能没法贷款,到时候需要折价很多。

要么就直接下手个老的,但是价格也要便宜,这样便宜买便宜卖,至少不会亏。

1.4朝向、户型

东西向没有南北好、尽量明厨明卫、南北通透、尽量选两边不选中间。

大家别选太奇葩的。

1.5名额占用

现在学区名额,每个房子6年能用一次,有的人孩子刚上学就想卖,这时候合适购买的人比较少,也可以聊价格

1.6安静、临街、交通

这种肯定影响价格,但我觉得更重要的是影响买不买,如果有安静的需求,再便宜也不能买。

二、数据分析

在中介APP上找不到销售记录,而且显示出的很多数据并不能提供什么分析能力。如无法分析哪些小区卖的好、不同楼层价格有什么区别、小区成交量等数量,那就只能自己做了。

我打算分如下几步来处理:

  1. 获取数据

  2. 入库

  3. 分析

  4. 服务器部署

2.1获取数据

现在搞数据还是比较麻烦的,通过一些方法总算取到这些数据,我比较关注的是房屋所在地区、小区名、户型、朝向、所在楼层、总楼层、装修情况、是否有电梯、面积、价格、房屋年份、挂牌时间。

数据如下图所示:

Image

2.2数据存储

创建MySQL数据库,将这些数据存储。房源不太多,所以足够使用了。个人也不建议搞太多数据。

CREATE TABLE `house_info` (`id` bigint(20) unsigned NOT NULL COMMENT 'ID',`title` varchar(500)  NOT NULL DEFAULT '' COMMENT '标题', `area` varchar(500)  NOT NULL DEFAULT '' COMMENT '市区',`district` varchar(500)  NOT NULL DEFAULT '' COMMENT '行政位置',`community_name` varchar(500)  NOT NULL DEFAULT '' COMMENT '小区',`room` varchar(500)  NOT NULL DEFAULT '' COMMENT '户型',`room_type` varchar(500)  NOT NULL DEFAULT '' COMMENT '朝向',`level` varchar(500)  NOT NULL DEFAULT '' COMMENT '所在楼层',`height` varchar(500)  NOT NULL DEFAULT '' COMMENT '楼层',`sub_info` varchar(500)  NOT NULL DEFAULT '' COMMENT '装修情况',`elevator` varchar(500)  NOT NULL DEFAULT '' COMMENT '电梯',`house_area` varchar(500)  NOT NULL DEFAULT '' COMMENT '面积',`price` varchar(500)  NOT NULL DEFAULT '' COMMENT '价格',`date` varchar(500)  NOT NULL DEFAULT '' COMMENT '年份',`sellTime` varchar(500)  NOT NULL DEFAULT '' COMMENT '挂牌',`create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',PRIMARY KEY (`id`),KEY `idx_update_time` (`update_time`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='house info';

2.3分析数据

有数据后,我们可以分析哪些内容呢?通过每天获取数据,我们可以默认没有更新的为房子已经出售(有可能只是下架了),这样能够判断有哪些房子已经成交,虽然有些不太准确,但应该够用了。

为了方便分析细节,设置可通过所在的行政单位、小区、楼层查看。

def main():district = ''  #行政单位community_name = ''  #小区名level = '' #高低楼层df = readFromDB()unitprice(district,community_name,level,df)numofhouse(df)numofsell(district,community_name,level,df)unitpriceofselled(district,community_name,level,df)

单位价格

通过每天上架的房屋单价判断是否有变化,下图可以看出整体比较平稳。如果为了将趋势显示的更明显,可以按照周或者月进行聚合。

Image

在售数量

这是每一个行政区里每一个小区的在售房屋数量,能看出不同的区差别还是蛮大的。有的地方几乎没有房源,有些地方则选择更多一些,意味着价格、机会也会更多一些。

Image

每天出售数量

这张图显示每天出售了多少房屋,我们能知晓这个地区的成交情况,用于判断是否急于购买,是否可以等待合适房源。

Image

售出单价

这张图显示房屋消失时的单价,定位到单个小区时,可以看出该小区售房单价情况。

当然这个数据不太准确,因为理论上真实成交价会比这个低,但是完全可以能用来监控价格了。

Image

2.4服务器

最后一步是将代码部署到服务器上,使用cron定时执行,这样就不需要每次自己执行了。

后续如果有需要,可添加监控功能,方案大家可参考SSH登录服务器发送提醒。

三、总结

做这个小工具还是挺有意思的,其实IT本来就是为了解决实际问题。另外也学习了一下Python,不错。

等事情忙完之后,把代码分享到github上。

最后

大家如果喜欢我的文章,可以关注我的公众号(程序员麻辣烫)

我的个人博客为:https://shidawuhen.github.io/

往期文章回顾:

  1. 设计模式

  2. 招聘

  3. 思考

  4. 存储

  5. 算法系列

  6. 读书笔记

  7. 小工具

  8. 架构

  9. 网络

  10. Go语言

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24133.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

波士顿房价数据集怎么不见了?

波士顿数据下载 消失的波士顿 OoO 做线性回归的同学大概率会用到一个数据集,即波士顿房价数据集,然而当你从sklearn下载该数据集时,你会惊讶地发现居然下载不了了!!!起初我以为是什么别的原因导致数据集可能…

【Python数据分析】波士顿房价分析小例子

一、导入模块 %matplotlib inline #将生成的图片嵌入网页中 import matplotlib.pyplot as plt from sklearn import datasets from sklearn.feature_selection import SelectKBest,f_regression from sklearn.linear_model import LinearRegression …

基于pyspark的波士顿房价预测案例

目录 一、问题描述: 二、机器学习预测模型概述: 三、数据获取 四、数据预处理 五、模型训练 六、模型评估 本实验包含线性回归模型、梯度上升回归、决策树、随机森林、梯度回归树五种模型的创建和比较以及加载! 一、问题描述&#xff…

python广深地区房价数据的爬取与分析

Python房产数据分析 1、数据爬取2、明确需求与目的数据预览提出问题 3.数据预处理数据清洗缺失值异常值(对连续性标签做处理)异常值(对离散标签做处理) 4、数据分析问题1、广东省房价的总体情况如何?问题2、高端小区都有哪些?问题…

ChatGPT的介绍与运用

ChatGPT的发展 ChatGPT是OpenAI团队开发的一种基于语言模型的对话系统 GPT-1: GPT(Generative Pre-trained Transformer)是OpenAI发布的第一个基于Transformer架构的语言模型。GPT-1于2018年发布,它使用了无监督学习的方法&#…

离线语音交互技术路线之语音合成(TTS)篇

在ChatGPT大行其道之际,我心血来潮想要研究研究如何实现离线语音交互,把它和ChatGPT相结合,自己尝试实现个语音助手玩玩。本篇文章主要先从整体上分析了离线语音交互的技术实现路线,以及每个环节可能用到的参考技术,然…

Linux中文显示乱码问题

终端输入命令回显的时候中文显示乱码,出现这个情况一般是由于没有安装中文语言包,或者设置的默认语言有问题导致的。 Linux系统与windows系统在编码上有显著的差别。Windows中的文件的格式默认是GBK(gb2312),而Linux系统中文件的格式默认是UT…

解决中文乱码问题大全

相信大家在开发过程中遇到很多中文乱码的问题,为此小编在这里汇集了很多不同情况下怎么解决中文乱码,希望对大家有所帮助 1、IDEA控制台输出乱码 修改idea配置文件:找到idea的安装目录,在bin目录下找到dea64.exe.vmoptions和idea.exe.vmoptions这两个文件,分别在这两个文…

解决中文乱码的方法

今天跟路飞学习爬虫时,遇到的中文乱码。他提出了一种解决方法,而我在弹幕上也看到了一种方法。 法1:在响应数据时加一句 response.encoding response.apparent_encoding 法2: #通用处理中文乱码的解决方法img_name img_name.en…

中文乱码问题整理总结

目录 1、字符编码 2、乱码产生的原因 3、乱码解决方案 3.1、解决HTML页面中的中文问题: 3.2、解决JSP页面中的中文问题 3.3、解决Servlet响应结果的中文问题 3.4解决页面数据传输的中文问题 3.5、解决HTTP(get)请求中的中文问题 3.6、解决MySQL数据库的中文…

php echo中文乱码问题

用echo输出的中文显示成乱码, 其实应该是各种服务器脚本都会遇到这个问题, 根本还是编码问题, 一般来说出于编码兼容考虑大多的页面都将页面字符集定义为utf-8 这时候要正常显示中文需要转化一下编码方式,比如 echo iconv(“…

中文出现乱码最常见的几种方式解析

1、出现古文夹杂日韩文,以GBK读取UTF-8编码 2、出现方块形,以UTF-8读取GBK 3、各种符号,以ISO8859-1方式读取UTF-8 4、拼音码,带声调的字母,以ISO8859-1方式读取GBK 5、长度为奇数时,最后的字符变成问号&am…

SEO百度搜索引擎优化30min了解网站排名

目录 seo优化 介绍seo是什么 网站更新: 网站排名在21世纪的意义: 网站为电商引流 百度算法规则 排名流程 seo策略 规则——“学会在线球里玩” 单页面收录显示 必要条件——链接数量 日志统计——及时优化seo策略 降低识别难度 收录越多排名就越大吗 …

毕设项目《基于STM32的智能乒乓球捡球小车的设计与实现》从零开始过程笔记

毕设项目《基于STM32的智能乒乓球捡球小车的设计与实现》从零开始过程笔记 小车实物 前言 本文是后来记录而写,如有不足之处,欢迎批评指正。 如果您觉得文章写得不错,欢迎一键三连。(比心 orz) 目录 毕设项目《基于S…

全面剖析OpenAI发布的GPT-4比其他GPT模型强在哪里

最强的文本生成模型GPT-4 一、什么是GPT-4二、GPT-4的能力三、和其他GPT模型比较3.1、增加了图像模态的输入3.2、可操纵性更强3.3、复杂任务处理能力大幅提升3.4、幻觉、安全等局限性的改善3.6、风险和缓解措施改善更多安全特性3.7、可预测的扩展 四、与之前 GPT 系列模型比较五…

GPT-4 官方技术报告(译)

摘要 我们报告了GPT-4的开发情况,这是一个大规模的多模态模型,可以接受图像和文本输入并产生文本输出。虽然在许多现实世界的场景中,GPT-4的能力不如人类,但在各种专业和学术基准上表现出人类水平的性能,包括在模拟的律…

重磅突发!OpenAI正式推出多模态GPT-4

大家好,今天这篇文章是我的好朋友阿法兔翻译的,她凌晨熬夜研究了一下 OpenAI 推出的 GPT-4,基本把所有发布的内容重点都读完了,分享给大家,希望能给你一些启发。 作者 | OpenAI&TheVerge&Techcrunch 翻译 &am…

Chatbox - 一款适用于 GPT-4 / GPT-3.5 (OpenAI API) 的桌面应用程序

简介 给大家推荐一款适用于 GPT-4 / GPT-3.5 (OpenAI API) 的桌面应用程 ChatBox,开源的 ChatGPT API (OpenAI API) 跨平台桌面客户端,Prompt 的调试与管理工具,也可以用作 ChatGPT Plus 平替。 下载 ► chatBox 下载安装 ⇲ 为什么不直接…

是兄弟就来找 ChatGPT 漏洞,OpenAI:最高赏金 2 万刀

这是「进击的Coder」的第 822 篇技术分享 作者:克雷西 发自 凹非寺 来源:量子位(ID:QbitAI) “ 阅读本文大概需要 5 分钟。 ” 现在,给 ChatGPT 找漏洞有钱挣了。 今天凌晨,OpenAI 宣布开启漏洞…

chatgpt赋能python:Python配色方案:让您的代码更易于阅读和管理

Python配色方案:让您的代码更易于阅读和管理 Python是一种广泛使用的编程语言,它具有简单易学、功能强大的特点。但是,当您开始编写更复杂的代码时,遇到的主题和配色问题可能会影响代码的可读性和管理能力。 为了解决这个问题&a…