北京房价预测图说

前言

曾听人说过,中国经济是房地产市场,美国经济是股票市场。中国房地产市场超过400万亿,房地产总值是美国、欧盟、日本总和,但是股市才50万亿,不到美欧日的十分之一。可见房地产对于中国来说地位尤其明显!对于我们很难在一线城市买房的年轻刚需族来说,这确是一个十分头疼的问题。于此,萌生了分析房价并预测的想法(曾经采用R做过尝试,这次将采用python)。
本次将基于北京房价作为测试数据,后期通过爬虫将抓取包括北上广深等城市的数据以供分析。

数据

感谢Qichen Qiu提供链家网2011-2017北京房价数据,感谢Jonathan Bouchet提供的思路。
本次分析基于python3,代码将稍后整理提供于github。
数据特征包含,kaggle上有具体介绍,在此暂不赘述:

url: the url which fetches the data( character )
id: the id of transaction( character )
Lng: and Lat coordinates, using the BD09 protocol. ( numerical )
Cid: community id( numerical )
tradeTime: the time of transaction( character )
DOM: active days on market.( numerical )
followers: the number of people follow the transaction.( numerical )
totalPrice: the total price( numerical )
price: the average price by square( numerical )
square: the square of house( numerical )
livingRoom: the number of living room( character )
drawingRoom: the number of drawing room( character )
kitchen: the number of kitchen( numerical )
bathroom the number of bathroom( character )
floor: the height of the house. I will turn the Chinese characters to English in the next version.( character )
buildingType: including tower( 1 ) , bungalow( 2 ),combination of plate and tower( 3 ), plate( 4 )( numerical )
constructionTime: the time of construction( numerical )
renovationCondition: including other( 1 ), rough( 2 ),Simplicity( 3 ), hardcover( 4 )( numerical )
buildingStructure: including unknow( 1 ), mixed( 2 ), brick and wood( 3 ), brick and concrete( 4 ),steel( 5 ) and steel-concrete composite ( 6 ).( numerical )
ladderRatio: the proportion between number of residents on the same floor and number of elevator of ladder. It describes how many ladders a resident have on average.( numerical )
elevator have ( 1 ) or not have elevator( 0 )( numerical )
fiveYearsProperty: if the owner have the property for less than 5 years( numerical )

EDA

了解数据以后,首先进行探索分析,查看缺失值情况:

url                       0
id                        0
Lng                       0
Lat                       0
Cid                       0
tradeTime                 0
DOM                       0
followers                 0
totalPrice                0
price                     0
square                    0
livingRoom                0
drawingRoom               0
kitchen                   0
bathRoom                  0
floor                     0
buildingType           2021
constructionTime          0
renovationCondition       0
buildingStructure         0
ladderRatio               0
elevator                 32
fiveYearsProperty        32
subway                   32
district                  0
communityAverage        463
get_floor                32
province                  0
dtype: int64

采用msno图形化查看:

msno.matrix(source_data)

缺失值
针对不同特征对缺失值进行填补处理:

test_data.fillna({'DOM': test_data['DOM'].median()}, inplace=True)
test_data['buildingType'] = [makeBuildingType(x) for x in test_data['buildingType']]
test_data = test_data[(test_data['buildingType'] != 'wrong_coded') & (test_data['buildingType'] != 'missing')]
test_data['renovationCondition'] = [makeRenovationCondition(x) for x in test_data['renovationCondition']]
test_data['buildingStructure'] = [makeBuildingStructure(x) for x in test_data['buildingStructure']]
test_data['elevator'] = ['has_elevator' if x==1 else 'no_elevator' for x in test_data['elevator']]
test_data['subway'] = ['has_subway' if x==1 else 'no_subway' for x in test_data['subway']]
test_data['fiveYearsProperty'] = ['owner_less_5y' if x==1 else 'owner_more_5y' for x in test_data['fiveYearsProperty']]
pd.to_numeric(test_data['constructionTime'], errors='coerce')
test_data = test_data[(test_data['constructionTime'] != '未知')]
# pd.value_counts(test_data['constructionTime'])
test_data['district'].astype("category")
print(pd.value_counts(test_data['district']))

结果如下:
handle_missingdata
我们来看一看房价情况:
首先总体情况:
在这里插入图片描述
再看一看2017年的情况:
在这里插入图片描述
可见房价总体满足正偏分布。
处理下数据看一看相关性:

test_data['tradeTime'] = pd.to_datetime(test_data['tradeTime'])
test_data['constructionTime'] = pd.to_numeric(test_data['constructionTime'])
test_data['livingRoom'] = pd.to_numeric(test_data['livingRoom'])
test_data['drawingRoom'] = pd.to_numeric(test_data['drawingRoom'])
test_data['bathRoom'] = pd.to_numeric(test_data['bathRoom'])
test_data['get_floor'] = pd.to_numeric(test_data['get_floor'])

在这里插入图片描述

抽部分特征看一看:
communityAverage:
在这里插入图片描述
square:
在这里插入图片描述

再看看电梯和区域:
在这里插入图片描述
在这里插入图片描述
房价真的是没有最高只有更高!一般情况下,尽量分区域进行分析会更直观也更准确。比如海淀和通州就会差别较大。
在这里插入图片描述
包括卧室,浴室等特征基本上都与总价成正相关,不过还有单价或总价为0的需要考虑是缺失还是已售/待定等情况,这些在自己抓取房价的时候要注意分析。
最后看一下均价和计数:

price_data = test_data[['price','year-month']]
price_data.head()
price_group = price_data.groupby(['year-month']).agg(['mean','count'])
price_group.head()

在这里插入图片描述
2017年中旬出现拐点,点的大小代表该价格计数。
到这里已经很想加上2018年的数据看看了!

回归

试试多元线性回归:
用2017年以前的数据进行训练,预测2017的价格。
训练模型:

x_train = temp_train.drop(['tradeTime','totalPrice','floor','province'], axis=1)
y_train = temp_train[['totalPrice']]
model = LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1)
model.fit(x_train,y_train)
x_test = temp_test.drop(['tradeTime','totalPrice','floor','province'], axis=1)
y_test = temp_test[['totalPrice']]
print(model.score(x_test,y_test))

第一次拟合优度0.7971355163827527.
在这里插入图片描述
预测值普遍偏低。
后期将用更多的特征组合以及参数来进行尝试,并采用不同的方式进行预测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39648.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

苹果App Store商店中国区如何改为美国区

苹果App Store商店中国区如何改为美国区 Hello大家好!苹果外区id是每个苹果手机必不可少的啦!不是国外有多好而是国内的大部分软件都有限制,一开始我百度了一下内容太乱太杂了真的都是“bullshit”,下面直接上教程。 第一首先要一个国内的苹…

二手平台淘的明星同款穿搭?上95分看看

作为一个喜欢穿搭的潮流人士,我拥有许多明星同款,但拥有的越多,我的钱包就越扁。 但尽管是在这样的情况下,我依然不能放弃给它们(指衣服鞋子)一个家,所以我知道了95分,认识了95分&a…

《VogueMe》手写问答新鲜出炉!这字体很李易峰!

爱豆新闻讯 昨日晚间,《VogueMe》官博送上端午小福利――我们小哥哥的手写问答新鲜出炉啦!蜜蜂们纷纷表示,瞧这字体一看就知道是出自我方木哥~ 最后,期待我哥在电影《心理罪》里的表现,小编表示已经迫不及待想见方木了…

pythonif语句怎么换行输入_李沁和李易峰演的电视剧叫什么名字

第一现纠在出掌握证据录音录像历印病常会存复纷后、封时间,的维权意强患方来越由于识越。 每月李女养费0元付抚士支,女由达成高先协议最终养:长双方生抚。他又女儿带着悄悄亲子做了鉴定,为了打消的疑自己虑,对恩高先妻…

有时间BB,不如想想怎么让别人闭嘴吧

1. 经过上次「SKR!虎扑66万JRS大战3300万吴亦凡护卫队,别逼我拿Python」一事,我发现观众里有很多JRs,「这就是灌篮」一定不陌生。 我不是做广告,所以对该节目的评论暂时不讨论,今天要说的是球场外的另一件事…

看了这篇文,开始佩服蔡徐坤了

文/北妈 阅读本文需要 2.6分钟 一 每天群里还在说cxk这个关键字,显然现在cxk的人气和梗,已经是全民级别的了。 看到cxk三个字就忍不住很欢乐,并不是黑他, 如果读者里有坤粉,千万不要误会,我们并没有真心要…

致敬云南滑翔机

今天晚上,看了期待已久的篮球节目, 我要打篮球,11点左右,感觉特别困,已经快睡着了,准备关掉电视的时候看到林书豪的图片,林书豪头上有一个标题《我要打篮球》,这个不就是《这&#x…

陈伟霆,赵丽颖,李易峰,青云志,分析。

作者:韩梦飞沙 QQ:313134555 陈伟霆(William Chan),1985年11月21日出生于中国香港,华语影视男演员、主持人、歌手 2003年因参加全球华人新秀香港区选拔赛而进入演艺圈[1-2] ;2006年成为Sun Boy’z组合一员…

pyhton爬取:爬取爱豆(李易峰)微博评论,看看爱豆粉丝的关注点在哪(附源码)

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本片文章来自腾讯云, 作者:孤独的明月 今日目标:微博 以李易峰的微博为例: https://weibo.com/liyifen…

杨幂 刘恺威公布离婚 目测李易峰将再一次卷入风暴中心!

杨幂 刘恺威终于确认离婚了。嘉行传媒发布消息,宣称杨幂 刘恺威协议离婚。这几年真真假假关于两人离婚的消息,算是每个月都有冒泡。实在是听的耳朵都起茧了。 其实不关心他们两个,可是李易峰却是喜欢的。2014年,杨幂和李易峰主演的…

pyhton爬取爱豆(李易峰)微博评论(附源码)

今日目标:微博 以李易峰的微博为例: https://weibo.com/liyifeng2007?is_all1然后进入评论页面,进入XHR查找真是地址: https://weibo.com/aj/v6/comment/big?ajwvr6&id4353796790279702&fromsingleWeiBo很明显&#xff…

猎聘品牌升级李易峰为代言人 官网启用双拼域名liepin.com

2020年受疫情影响,“金三银四求职季”不如往年风光,如果说起求职软件,大家首先想到的会是谁? 1月18日消息,猎聘开启品牌升级序幕,发布了全新品牌logo,同时公布了当红明星李易峰成为新的品牌代言人。作为新…

pyhton爬取爱豆(李易峰)微博评论

今日目标:微博,以李易峰的微博为例: https://weibo.com/liyifeng2007?is_all1然后进入评论页面,进入XHR查找真是地址: https://weibo.com/aj/v6/comment/big?ajwvr6&id4353796790279702&fromsingleWeiBo很…

李易峰个人简历模板

李易峰 性别:男出生年份:1987QQ:123456民族:汉族婚姻状况:未婚身高:181 cm体重:60 kg演艺经历 2007年李易峰参加《加油!好男儿》获得总决赛第八名以及最具亲和力奖,从而进…

Linux 服务器新建子账户

Linux 服务器新建子账户 以下内容部分为chatgpt的回答 新建子账户 在Linux服务器中,可以使用以下步骤来创建新的用户账户: 打开终端,并使用root用户或拥有sudo权限的用户登录。使用以下命令创建新的用户账户。请将**newuser**替换为您想要…

纺织服装行业通过GRS认证增加产品竞争力

1、GRS再生认证的推出 目前,回收纺织品的项目包括利用棉织品回收再生棉,利用羊手制品回收再生手,利用尼龙制品回收再生尼龙,利用聚酯瓶(PET瓶)回收再生聚酯纤维等。由于利用回收再生棉、毛、尼龙、聚酯等纤维织成的各 类面料价格高…

女性服装数据分析(电商数据)版本1

女性服装数据分析(电商数据)版本1 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns color sns.color_palette()data pd.read_csv(Womens_Clothing.csv) # 查看数据结构 dataUnnamed: 0Clothing IDAg…

2021年中国服装行业分析报告-产业规模现状与发展规划趋势

【报告类型】产业研究 【出版时间】即时更新(交付时间约3个工作日) 【发布机构】智研瞻产业研究院 【报告格式】PDF版 本报告介绍了服装行业相关概述、中国服装行业运行环境、分析了中国服装行业的现状、中国服装行业竞争格局、对中国服装行业做了重…

2020年中国服装行业发展现状分析,消费理念的改变促使行业转型「图」

一、概述 1、定义 服装,是衣服鞋装饰品等的总称,多指衣服。在国家标准中对服装的定义为:缝制,穿于人体起保护和装饰作用的产品,又称衣服。服装在人类社会发展的早期就已出现,当时古人将一些材料做成粗陋的…

2020年中国服装行业数据中台研究报告

简介:36kr研究院全新出炉《2020年中国服装行业数据中台研究报告》显示:数据中台赋能企业数字化转型,成为降本增效新引擎。 -更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 和关注官方微信公总号(文末扫…