Python某地区二手房房价数据分析

房价数据分析

数据简单清洗

data.csv
在这里插入图片描述

数据显示

# 导入模块
import pandas as pd  # 导入数据统计模块
import matplotlib  # 导入图表模块
import matplotlib.pyplot as plt  # 导入绘图模块# 避免中文乱码
matplotlib.rcParams['font.sans-serif'] = ['SimHei']  # 设置字体为SimHei显示中文
matplotlib.rcParams['axes.unicode_minus'] = False  # 设置正常显示字符,使用rc配置文件来自定义
# 简单清洗
data = pd.read_csv('data.csv')  # 读取csv数据
del data['Unnamed: 0']  # 将索引列删除
data.dropna(axis=0, how='any', inplace=True)  # 删除data数据中的所有空值
data['单价'] = data['单价'].map(lambda d: d.replace('元/平米', ''))  # 将单价“元/平米”去掉
data['单价'] = data['单价'].astype(float)  # 将房子单价转换为浮点类型,float(data['',单价])data['总价'] = data['总价'].map(lambda d: d.replace('万', ''))  # 将总价“万”去掉
data['总价'] = data['总价'].astype(float)  # 将房子总价转换为浮点类型,float(data['',单价])data['建筑面积'] = data['建筑面积'].map(lambda p: p.replace('平米', ''))  # 将建筑面积“平米去掉”
data['建筑面积'] = data['建筑面积'].astype(float)  # 将将建筑面积转换为浮点类型

在这里插入图片描述

各区均价分析

# 获取各区二手房均价分析,根据需求,,进一步处理数据,如果要写相应算法,需要根据算法所需求的数据处理
def get_average_price():group = data.groupby('区域')  # 将房子区域分组average_price_group = group['单价'].mean()  # 计算每个区域的均价,average_price_group字典x = average_price_group.index  # 区域y = average_price_group.values.astype(int)  # 区域对应的均价a =['t':'123'] a.keys()return x, y  # 返回区域与对应的均价,region二关 average_price均价# 显示均价条形图
def average_price_bar(x, y, title):plt.figure()  # 图形画布plt.bar(x, y, alpha=0.8)  # 绘制条形图plt.xlabel("区域")  # 区域文字plt.ylabel("均价")  # 均价文字plt.title(title)  # 表标题文字# 为每一个图形加数值标签for x, y in enumerate(y):plt.text(x, y + 100, y, ha='center')plt.show()if __name__ == '__main__':x, y = get_average_price()title = '各区均价分析'average_price_bar(x, y, title)

运行如图
在这里插入图片描述

全市二手房装修程度分析

# 获取各区二手房均价分析,根据需求,,进一步处理数据,如果要写相应算法,需要根据算法所需求的数据处理
def get_decorate_sum():group = data.groupby('装修')  # 将房子区域分组# decorate_sum_group = group['装修'].count()  # 计算每个区域的均价,average_price_group字典decorate_sum_group = group.size()  # 计算每个区域的均价,average_price_group字典x = decorate_sum_group.index  # 区域y = decorate_sum_group.values.astype(int)  # 区域对应的均价a =['t':'123'] a.keys()return x, y  # 返回区域与对应的均价,region二关 average_price均价# 显示均价条形图
def average_price_bar(x, y, title):plt.figure()  # 图形画布plt.bar(x, y, alpha=0.8)  # 绘制条形图plt.xlabel("装修类型")  # 区域文字plt.ylabel("数量")  # 均价文字plt.title(title)  # 表标题文字# 为每一个图形加数值标签for x, y in enumerate(y):plt.text(x, y + 100, y, ha='center')plt.show()if __name__ == '__main__':x, y = get_decorate_sum()title = '全市二手房装修程度分析'average_price_bar(x, y, title)

在这里插入图片描述

各区二手房数量所占比比例

# 获取各区二手房各区比例数量,进一步处理数据,如果要写相应算法,需要根据算法所需求的数据处理
def get_proportional_quantity():area = data['区域'].groupby(data['区域']).count()  # 将房子区域分组比例数量areaName = (area).index.values  # 将房子区域分组比例取名return area, areaName# 显示均价条形图
def proportional_quantity_pie(area, areaName, title):plt.figure()  # 图形画布plt.pie(area, labels=areaName, labeldistance=1.1, autopct='%.1f%%',shadow=True, startangle=90, pctdistance=0.7)plt.title(title, fontsize=24)  # 表标题文字plt.legend(bbox_to_anchor=(-0.1, 1))  # 作者标题plt.show()if __name__ == '__main__':# 对应x,yarea, areaName = get_proportional_quantity()title = '各区二手房数量所占比比例'proportional_quantity_pie(area, areaName, title)

在这里插入图片描述

热门户型均价分析

# 获取各区热门户型分析,根据需求,,进一步处理数据,如果要写相应算法,需要根据算法所需求的数据处理
def get_hot_portal():# 另外一种方法获取并取值"""group = data.groupby('户型').size  # 将房子区域分组sort_data = group.sort_values(ascending=False)  # 将户型分组数量进行降序five_data = sort_data.head()  # 提取前5组户型数据house_type_mean = data.groupby('户型')['单价'].mean().astype(int)  # 计算每个户型的均价x = house_type_mean[five_data.index].index  # 户型y = house_type_mean[five_data.index].value  # 户型对应的均价"""group = data.groupby('户型')  # 将房子区域分组a = group['户型'].count().sort_values(ascending=False).head()  # 计算每个户型的均价 字典b = group['单价'].mean()[a.index]  # 区域对应的均价a =['t':'123'] a.keys()x = b.indexy = b.values.astype(int)return x, y  # 返回区域与对应的均价,region二关 average_price均价# 显示均价横条形图
def hot_portal_barh(x, y, title):plt.figure()  # 图形画布plt.barh(x, y, alpha=0.9, color='red')  # 绘制条形图plt.xlabel("均价")  # 区域文字plt.ylabel("户型")  # 均价文字plt.title(title)  # 表标题文字plt.xlim(0, 15000)  # X轴的大小# 为每一个图形加数值标签for y, x in enumerate(y):plt.text(x + 100, y, str(x) + '元', ha='left')plt.show()if __name__ == '__main__':x, y = get_hot_portal()title = '热门户型均价分析'hot_portal_barh(x, y, title)

前面三个图较简单,最后相对于前面三个较为麻烦

先获取得到热门户型前五名,通过户型得到对应的户型的平均值

在这里插入图片描述

GitHub下载地址

CrawlerPractice

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20683.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

house_price(房价预测)

最近在阅读一些AI项目,写入markdown,持续更新,算是之后也能回想起做法 项目 https://github.com/calssion/Fun_AI Kaggle--House Prices: Advanced Regression Techniques Kaggle address(网址):https://www.kaggle.com/c/house…

kaggle房价预测

通过前面的学习,实战一个房价预测项目,kaggle房价预测,该数据集涵盖了2006-2010年期间亚利桑那州埃姆斯市的房价,包含了很多特征。 导入所需的包 %matplotlib inline import pandas as pd import torch import numpy as np from…

Pandas与ChatGPT的超强结合,爆赞!

来自公众号:数据STUDIO Python Pandas是一个为Python编程提供数据操作和分析功能的开源工具包。这个库已经成为数据科学家和分析师的必备工具。它提供了一种有效的方法来管理结构化数据(Series和DataFrame)。 在人工智能领域,Pandas经常用于机器学习和深…

一个浏览器插件畅享Chat GPT,还有更多实用小组件、高清壁纸

即使chatGPT已经火爆了一段时间了,但它仍然是目前备受关注的话题。而在国内使用需要一定的成本,许多人甚至根本找不到注册的办法,因此也衍生了不少代注册服务。但其实国内也有不少可以体验和chatGPT几乎同样服务的办法,这篇文章就…

docker一键部署网址导航+博客+管理系统(强势开源)

花森门户 码云仓库地址:https://gitee.com/HuaSenJioJio/huasenjio-compose Github仓库地址:https://github.com/huasenjio/huasenjio-compose 📌 关于 花森系列网站增添新作品,(huasenjio-compose)官方仓…

【LLMs】关于LLMs的语义搜索

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

AI_Papers:第一期

2023.02.06—2023.02.12 文摘词云 Top Papers Subjects: cs.CL 1.Multimodal Chain-of-Thought Reasoning in Language Models 标题:语言模型中的多模式思维链推理 作者:Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Sm…

基于ChatGPT用AI实现自然对话

1.概述 ChatGPT是当前自然语言处理领域的重要进展之一,通过预训练和微调的方式,ChatGPT可以生成高质量的文本,可应用于多种场景,如智能客服、聊天机器人、语音助手等。本文将详细介绍ChatGPT的原理、实战演练和流程图&#xff0c…

怎样用一周时间研究 ChatGPT

我是怎样用一周时间研究 ChatGPT 的? 上周大概开了 20 多个会,其中有一些是见了觉得今年可能会比较活跃出手的机构,其余见的绝大多数是和 ChatGPT 相关。 我后面就以 ChatGPT 为例,讲下我是如何快速一周 cover 一个赛道的&#x…

走进机器学习

作者简介:本人是一名大二学生,就读于人工智能专业,学习过c,c,java,python,Mysql等编程知识,现在致力于学习人工智能方面的知识,感谢CSDN让我们相遇,我也会致力…

Spring 20年:缔造Java领域神话,近90% Java程序员形影不离

题图 | Image by Freepik 摘要:在编程世界,代码耦合性高、复杂性大的问题一直折磨着所有开发人员。为了解决这个问题,程序员前仆后继开发出了各种框架。但是没有一个特别能打、且让大部分程序员拍手称快的框架诞生。直到有一位年轻但经验丰富…

程序员的三大优点:懒惰、急躁和傲慢

1987 年的今天,Perl 1.0 发布。 今天是 Perl 语言诞生 35 周年。 忽略一下这张图的时间 Perl 语言发明人 Larry Wall 是一位传奇的黑客、一个风趣幽默的人。他的传世名言—— 程序员的三大优点是:懒惰、急躁和傲慢。 在编程圈子的普及程度大概仅次于——…

Qt6教程之三(19) Git版本管理工具

一 Git简介 Git的由来 是一个开源的分布式版本控制系统 ,用于有效、高速的处理从很小到非常大的项目版本管理。 Git 最初是由Linus Torvalds设计开发的,用于管理Linux内核开发。 GitHub是一个基于Git的远程文件托管平台(同GitCafe、BitBucket和GitLab等…

Android中如何使用GPS

Android中如何使用GPS获取位置信息?一个小Demo如下 GPS简介 Gobal Positioning System,全球定位系统,是美国在20世纪70年代研制的一种以人造地球卫星为基础的高精度无线电导航的定位系统,它在全球任何地方以及近地空间都能够提供…

【万字长文】深度解析 Transformer 和注意力机制(含完整代码实现)

深度解析 Transformer 和注意力机制 在《图解NLP模型发展:从RNN到Transformer》一文中,我介绍了 NLP 模型的发展演化历程,并用直观图解的方式为大家展现了各技术的架构和不足。有读者反馈图解方式虽然直观,但深度不足。考虑到 Tra…

全球首位 AI 律师出庭,花 100 万美元找“传话筒”!网友:头脑正常的人谁会同意?...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在 ChatGPT 的热潮下,近来在国内外科技网站上,各类 AI 话题几乎成为了“热搜常驻户”,其中不乏一些看起来极具噱头的新闻: 本周,AI 公司 Do…

Edge浏览器的美化

用了扩展软件后的Edged的界面为 非常方便 ,同时它还可以添加一些你需要用用到的app,无需下载。 它侧栏还有程序员选择,我们在这里可以直接进入CSDN。 废话不多说直接上教程: 1.打开Edge找到扩展选项,点击管理扩展。 …

这才是我想要是游览器——打造最强Microsoft edge+ChatGPT

这也许是你的Microsoft edge界面: 而这时我的edge游览器界面: 对比一下,第一个是默认的游览器界面,第二个是升级后的游览器界面。 是不是感觉第一个比较土呢第二个更高大上一些呢 其实相差巨大的主页,其实只是一个插…

TR外汇黑平台资金盘深度揭秘,谨防上当受骗,迟早会跑路

本人是有着13年外汇经验的外汇人,行业的大小事情,各级的产业链也基本都接触过,算是一个很资深的行业人士了,这么多年可以说是从刀光剑影中走过来,想想也很不容易了。本人vx:yunshao886 本篇所讲内容&#…

玩转 ChatGPT,看这条就够了,Prompt 最全中文合集

Prompt 最全中文合集 玩转 ChatGPT,看这条就够了! 🚀 简化流程:ChatGPT Shortcut 提供了快捷指令表,可以快速筛选和搜索适用于不同场景的提示词,帮助用户简化使用流程。 💻 提高生产力&#…