python数据分析-房价数据集聚类分析

一、研究背景和意义

随着房地产市场的快速发展,房价数据成为了人们关注的焦点。了解房价的分布特征、影响因素以及不同区域之间的差异对于购房者、房地产开发商、政府部门等都具有重要的意义。通过对房价数据的聚类分析,可以深入了解房价的内在结构和规律,为相关决策提供科学依据。

研究意义:

  1. 为购房者提供参考:通过聚类分析,可以将房价数据分为不同的类别,购房者可以根据自己的需求和预算选择适合的房源。
  2. 帮助房地产开发商制定营销策略:了解不同区域的房价特征和需求,可以帮助房地产开发商制定更有针对性的营销策略,提高销售效率。
  3. 为政府部门提供决策支持:政府部门可以通过房价数据的聚类分析,了解房地产市场的发展趋势和存在的问题,制定相应的政策措施,促进房地产市场的健康发展。
  4. 推动房地产市场的研究:房价数据的聚类分析是房地产市场研究的重要内容之一,通过对房价数据的深入分析,可以推动房地产市场的研究不断深入。

二、实证分析

首先导入数据集基本的包

数据和代码

import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt

然后读取数据集和展示

# 读取文件
file_path = 'df_cleaned2.csv'
data = pd.read_csv(file_path, encoding='utf-8')# 展示数据的前几行以了解结构
print(data.head())

随后查看数据类型

 

接下来查看缺失值的情况

# 查看缺失值情况
missing_values = data.isnull().sum()
missing_values

 

# 绘制缺失值情况的柱状图
# 绘制缺失值情况的柱状图
plt.bar(missing_values.index, missing_values.values, color=['black' if value == 0 else 'white' for value in missing_values.values])
plt.xlabel("变量")
plt.ylabel("缺失值数量")
plt.title("数据集缺失值情况")
plt.xticks(rotation=90)
plt.show()

从上面的结果和可视化可以发现该数据集没有缺失值,接下来进行统计学描述性分析

# 描述性分析
data.describe()

接下来进行特征可视化,首先进行房价直方图可视化

import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi']  #中文
plt.rcParams['axes.unicode_minus'] = False   #负号
# 可视化
# 绘制总价的直方图
plt.hist(data["总价"], bins=20,color='pink')
plt.xlabel("总价")
plt.ylabel("频数")
plt.title("总价分布直方图")
plt.show()

 

 

接下来进行区域分析 

# 区域分析
data["区域位置"] = data["区域位置"].astype("category")
data.boxplot(column="总价", by="区域位置",boxprops={'color':'blue'})
plt.xlabel("区域")
plt.ylabel("总价")
plt.title("不同区域的总价箱线图")
plt.show()

 

# 绘制不同户型的平均总价柱状图

data.groupby("户型结构")["总价"].mean().plot(kind="bar",color='orange')
plt.xlabel("户型")
plt.ylabel("平均总价")
plt.title("不同户型的平均总价柱状图")
plt.show()

接下来计算特征直接的相关系数

correlation_matrix = data.corr()
correlation_matrix

 

热力图:

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm")
plt.title("相关系数热力图")
plt.show()

接下来进行聚类分析,首先进行特征选择,选择特征:关注度、总价、卫生间数量、建筑面积,然后标准化特征

随后使用手肘方法和轮廓系数确定最佳 K 值

sse = {}
silhouette_scores = {}
for k in range(2, 11):  # 从 2 开始,因为轮廓系数至少需要 2 个簇kmeans = KMeans(n_clusters=k, random_state=42).fit(scaled_selected_features)sse[k] = kmeans.inertia_silhouette_scores[k] = silhouette_score(scaled_selected_features, kmeans.labels_)
# 绘制手肘图
plt.figure(figsize=(10, 6))
plt.subplot(2, 1, 1)
plt.plot(list(sse.keys()), list(sse.values()), marker='o')
plt.xlabel("Number of Clusters (K)")
plt.ylabel("SSE (Sum of Squared Errors)")
plt.title("Elbow Method for Determining Optimal K Value")
plt.grid(True)

接下来使用 PCA 进行降维以便于可视化

pca = PCA(n_components=2)  # 降至 2 维
pca_result = pca.fit_transform(scaled_selected_features)# 可视化聚类结果
plt.figure(figsize=(10, 6))
plt.scatter(pca_result[:, 0], pca_result[:, 1], c=labels, cmap='viridis', marker='o')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title(f'K-means Clustering with K={k} (PCA Reduced)')
plt.grid(True)
plt.show()

随后得出聚类中心

 

接下来根据聚类中心画出雷达图

# 标签,用于表示不同的聚类中心
labels = ['Cluster 1', 'Cluster 2', 'Cluster 3', 'Cluster 4']# 特征数
num_features = len(centers[0])
angles = np.linspace(0, 2 * np.pi, num_features, endpoint=False).tolist()# 将第一个特征点重复以闭合雷达图
centers = np.concatenate((centers, centers[:,[0]]), axis=1)
angles += angles[:1]fig, ax = plt.subplots(figsize=(8, 8), subplot_kw=dict(polar=True))
ax.set_theta_offset(np.pi / 2)
ax.set_theta_direction(-1)# 绘制雷达图
for i in range(len(centers)):ax.plot(angles, centers[i], linewidth=2, label=labels[i])ax.fill(angles, centers[i], alpha=0.25)# 添加标题和图例
plt.title('Radar Chart of Clusters')
plt.legend(loc='upper right', bbox_to_anchor=(1.1, 1.1))plt.show()

接下来可视化主成分

# 可视化主成分 1 的载荷
plt.figure(figsize=(8, 4))
colors = ['red', 'green', 'blue', 'yellow', 'purple', 'orange', 'pink', 'brown', 'gray', 'cyan']
plt.bar(pca_loadings_df.columns, pca_loadings_df.loc['PC1'], color=colors)
plt.xlabel('Features')
plt.ylabel('Loadings for PC1')
plt.title('PCA Loadings for Principal Component 1')
plt.show()# 可视化主成分 2 的载荷
plt.figure(figsize=(8, 4))
plt.bar(pca_loadings_df.columns, pca_loadings_df.loc['PC2'], color=colors)
plt.xlabel('Features')
plt.ylabel('Loadings for PC2')
plt.title('PCA Loadings for Principal Component 2')
plt.show()

 

 三、小结

本研究通过对房价数据的聚类分析,将房价数据分为了不同的类别,发现了房价的分布特征和规律。通过特征选择和标准化处理,提高了聚类分析的准确性和可靠性。使用手肘方法和轮廓系数确定了最佳的 K 值,为聚类分析提供了科学依据。通过 PCA 进行降维,可视化了主成分,进一步深入了解了房价数据的内在结构。本研究的结果对于购房者、房地产开发商、政府部门等都具有重要的参考价值,可以为相关决策提供科学依据。

创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/349791.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算机毕业设计】258基于微信小程序的课堂点名系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

代码签名证书如何选择

代码签名证书分为OV代码签名证书和EV代码签名证书。 OV代码签名证书在申请时只需要验证申请主体的真实性,部署安装后可以保护代码的完整性,防止代码被篡改,携带不良信息。 EV代码签名证书是OV代码签名证书的升级版,对代码的保护…

轮到国产游戏统治Steam榜单

6月10日晚8点,《黑神话:悟空》实体版正式开启全款预售,预售开启不到5分钟,所有产品即宣告售罄。 Steam上,《黑神话:悟空》持续占据着热销榜榜首的位置。 但在《黑神话:悟空》傲人的光环下,还有一款国产游戏取得出色的成绩。 6月10日&#…

Nacos启动报错

报错日志: Caused by: java.lang.NullPointerException at com.mysql.jdbc.ConnectionImpl.getServerCharset(ConnectionImpl.java:2983) at com.mysql.jdbc.MysqlIO.sendConnectionAttributes(MysqlIO.java:1873) at com.mysql.jdbc.Mysql…

vue+elementUI实现在表格中添加输入框并校验的功能

背景: vue2elmui 需求: 需要在一个table中添加若干个输入框,并且在提交时需要添加校验 思路: 当需要校验的时候可以考虑添加form表单来触发校验,因此需要在table外面套一层form表单,表单的属性就是ref…

el-cascader 支持多层级,多选(可自定义限制数量),保留最后一级

多功能的 el-cascader 序言:最近遇到一个需求关于级联的,有点东西,这里是要获取某个产品类型下的产品,会存在产品类型和产品在同一级的情况,但是产品类型不能勾选; 情况1(二级菜单是产品&…

Java 开发实例:Spring Boot+AOP+注解+Redis防重复提交(防抖)

文章目录 1. 环境准备2. 引入依赖3. 配置Redis4. 创建防重复提交注解5. 实现AOP切面6. 创建示例Controller7. 测试8. 进一步优化8.1 自定义异常处理8.2 提升Redis的健壮性 9. 总结 🎉欢迎来到Java学习路线专栏~探索Java中的静态变量与实例变量 ☆* o(≧▽≦)o *☆嗨…

HCIA14 DHCP 实验

动态主机配置协议 DHCP(Dynamic Host Configuration Protocol)由 RFC 2131 定义,采用客户端/服务器通信模式,由客户端(DHCP Client)向服务器(DHCP Server)提出配置申请,服…

boss直聘鸿蒙版 来了 我不允许你不会

前言: 之前写过一个demo 但是那个是本地数据 现在我改成网络的 接口是我本地服务的 就想着分享给大家 作者:徐庆 团队:坚果派 公众号:“大前端之旅” 润开鸿生态技术专家,华为HDE,CSDN博客专家,CSDN超级个体,CSDN特邀嘉宾,InfoQ签约作者,OpenHarmony布道师,电子发…

最新(2024年)安装gdal库方法

方法一:直接 conda install gdal 方法二:https://github.com/cgohlke/geospatial-wheels/releases/tag/v2024.2.18 这个链接里下载whl文件

怎么取消Intellij IDEA中的项目和Git仓库的关联

这篇文章分享一种最简单的方法,取消已经开启代码控制的项目与git代码仓库的关联。 打开项目的位置,然后点击文件管理器上方的查看选项卡,勾选【隐藏的项目】。 删除.git文件夹 然后可以看到项目的文件夹下显示了一个隐藏的.git文件夹&#x…

嵌入式linux中内存管理基本原理

各位开发者,大家好,今天主要给大家分享一下,如何使用linux系统中的内存管理。 前面我们学习了很多Linux内存方面的知识,比如:虚拟地址空间,进程空间,内存映射,页表机制等,我们学了这么多知识,似乎对Linux内存似懂非懂,为什么会出现这样的问题?原因在于我们缺…

图文RAG组件:360LayoutAnalysis中文论文及研报图像分析

AI应用开发相关目录 本专栏包括AI应用开发相关内容分享,包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧 适用于具备一定算法及Python使用基础的人群 AI应用开发流程概…

JavaSE---类和对象(上)

1. 面向对象的初步认知 1.1 什么是面向对象 Java是一门纯面向对象的语言(Object Oriented Program,简称OOP),在面向对象的世界里,一切皆为对象。 面向对象是解决问题的一种思想,主要依靠对象之间的交互完成一件事情。用面向对象…

【MySQL】(基础篇十一) —— 分组数据

分组数据 本文介绍如何分组数据,以便能汇总表内容的子集。这涉及两个新SELECT语句子句,分别是GROUP BY子句和HAVING子句。 数据分组 经过上一节的学习,我们可以使用聚集函数查找到某个个工种拥有的员工数量(count函数&#xff…

Linux文件系统讲解!

一、Linux文件系统历史 1、在早期的时候Linux各种不同发行版拥有自己各自自定义的文件系统层级结构。 2、当我用Red hat转向玩Debian时,我进入/etc我都是懵的。 3、后来Linux社区做了一个标准、FHS(文件系统标准层次结构)。来帮助Linux系统的…

Android 13 高通设备热点低功耗模式(2)

前言 之前写过一篇文章:高通热点被IOS设备识别为低数据模式,该功能仿照小米的低数据模式写的,散发的热点可以达到被IOS和小米设备识别为低数据模式。但是发现IOS设备如果后台无任何网络请求的时候,息屏的状态下过一会,会自动断开热点的连接。 分析 抓取设备的热点相关的…

C++笔记:模板

模板 为什么要学习模板编程 在学习模板之前,一定要有算法及数据结构的基础,以及重载,封装,多态,继承的基础知识,不然会出现看不懂,或者学会了没办法使用。 为什么C会有模板,来看下面…

【iOS】YYModel源码阅读笔记

文章目录 前言一、JSON转换库对比二、YYModel性能优化三、YYModel的使用四、架构分析YYClassInfo 剖析 五、流程剖析转换前准备工作 – 将JSON统一成NSDictionary将NSDictionary 转换为Model对象提取Model信息使用NSDictionary的数据填充Model 总结 前言 先前写了JSONModel的源…

CVE-2024-23692:Rejetto HFS 2.x 远程代码执行漏洞[附POC]

文章目录 CVE-2024-23692:Rejetto HFS 2.x 远程代码执行漏洞[附POC]0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现 0x06 修复建议 CVE-2024-23692:Rejetto HFS 2.x 远程代码执行漏洞[附POC] 0x01 前言 …