Python数据分析案例03——天气K均值聚类分析

聚类常用的算法肯定是K均值聚类了,本次案例采用陕西的十个地区的天气数据,构建特征,进行聚类分析。

首先数据都装在‘天气数据’这个文件夹里面,如图:

打开其中一个excel,长这个样子

 

 下面开始数据处理


数据预处理 

导入包

import os
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd
import datetime as dt
import re
#from sklearn.preprocessing import MinMaxScaler
%matplotlib inlinepd.options.display.float_format = '{:,.4f}'.format
np.set_printoptions(precision=4)
plt.rcParams ['font.sans-serif'] ='SimHei'               #显示中文
plt.rcParams ['axes.unicode_minus']=False               #显示负号

获取文件和地区名称

file_name=os.listdir(f'./天气数据')
print(file_name)
region_name=[i[:2] for i in file_name]
region_name

 定义一些函数,用来处理数据

def date_transform(x) :a= x.split(' ')[0]a = pd.to_datetime(a, format='%Y-%m-%d')return a
def C_check(C):a=C.split('℃')return int(a[0])
def tianqi_check1(txt):if '转' in txt:a=re.findall('\w{1,5}转',txt)a=a[0].split('转')a=a[0]elif '~' in txt:a=re.findall('\w{1,5}~',txt)a=a[0].split('~')a=a[0]else:a=txtreturn a
def tianqi_check2(txt):if '到' in txt:a=re.findall('到\w{1,5}',txt)a=a[0].split('到')a=a[1]else:a=txtreturn a
df_最高气温=pd.DataFrame()
df_最低气温=pd.DataFrame()
df_天气=pd.DataFrame()
dic_天气={'晴':0,'晴到多云':0.5,'晴间多云':0.5,'局部多云':0.5,'多云':1,'少云':1.5,'阴':2,'阴天':2,'雾':2.5,'霾':2.5,'小雨':3,'雨':3,'阴到小雨':2.5,'小到中雨':3.5,'小雨到中雨':3.5,'阵雨':3.5,'中雨':4,'小雨到大雨':4,'雷阵雨':4,'雷雨':4,'中到大雨':4.5,'大雨':5,'大到暴雨':5.5,'暴雨':6,'暴风雨':6.5,'小雪':7,'雨夹雪 ':7,'雪':7,'中雪':8,'大雪':9,'浮尘':2.5,'扬沙':2.5,'风':2.5}

开始读取和处理

for i,f in enumerate(file_name):#print(i)file_path = f'./天气数据/{f}'data=pd.read_excel(file_path,usecols=['日期','最高气温','最低气温','天气'])data['日期']=data['日期'].apply(date_transform)data['最高气温']=data['最高气温'].apply(C_check)data['最低气温']=data['最低气温'].apply(C_check)data['天气']=data['天气'].astype(str).apply(tianqi_check1)data['天气']=data['天气'].astype(str).apply(tianqi_check2)data.loc[:,'天气']=data['天气'].map(dic_天气)data['天气'].fillna(data['天气'].mean)data=data.set_index('日期').resample('M').mean()#print(len(data))df_最高气温[region_name[i]]=data['最高气温']df_最低气温[region_name[i]]=data['最低气温']df_天气[region_name[i]]=data['天气']

最后是形成了三个数据框,最高温和最低温,还有天气情况(比如下雨还是晴天等等),天气情况我用map进行了映射,都变成了数值型变量。


描述性统计

df_最高气温.plot(title='各地区每月最高温变化图',figsize=(14,5),xlabel='日期',ylabel='最高温')

 

df_最低气温.plot(title='各地区每月最低温变化图',figsize=(14,5),xlabel='日期',ylabel='最低温')

 

df_天气.plot(title='各地区每月天气变化图',figsize=(14,5),xlabel='日期',ylabel='天气')

 都具有很明显的周期性,天气因为是自己映射的数值型数据,所以有点杂乱。

然后画出最高温的箱线图:

column = df_最高气温.columns.tolist() # 列表头
fig = plt.figure(figsize=(20, 8), dpi=128)  # 指定绘图对象宽度和高度
for i in range(len(column)):plt.subplot(2,5, i + 1)  # 2行5列子图sns.boxplot(data=df_最高气温[column[i]], orient="v",width=0.5)  # 箱式图plt.ylabel(column[i], fontsize=16)plt.title(f'{region_name[i]}每月最高温箱线图',fontsize=16)
plt.tight_layout()
plt.show()

 

 最低温和天气也是一样画,数据框名称改一下就行。

下面画出最低温的核密度图(同理最高温和天气也是一样的)

fig = plt.figure(figsize=(20, 8), dpi=128)  # 指定绘图对象宽度和高度
for i in range(len(column)):plt.subplot(2,5, i + 1)  # 2行5列子图ax = sns.kdeplot(data=df_最低气温[column[i]],color='blue',shade= True)plt.ylabel(column[i], fontsize=16)plt.title(f'{region_name[i]}每月最低温核密度图',fontsize=16)
plt.tight_layout()
plt.show()

 画出天气的相关性热力图

fig = plt.figure(figsize=(8, 8), dpi=128) 
corr= sns.heatmap(df_天气[column].corr(),annot=True,square=True)

最高温和最低温也是一样,改一下数据框名称就行。可以看到哪些地区的天气相关性高


 K均值聚类

因为本次构建了三个特征,可以进行三次K均值聚类,我们可以比较一下聚类的结果,首先使用最高温进行聚类:

最高温的聚类

from sklearn.cluster import KMeans 
kmeans_model = KMeans(n_clusters=3, random_state=123, n_init=20)
kmeans_model.fit(df_最高气温.T)
kmeans_model.inertia_   #组内平方和# kmeans_cc=kmeans_model.cluster_centers_   # 聚类中心
# kmeans_cckmeans_labels = kmeans_model.labels_   # 样本的类别标签
kmeans_labels pd.Series(kmeans_labels).value_counts()   # 统计不同类别样本的数目

 映射一下类别的数值

dic_rusult={}
for i in range(10):dic_rusult[df_最高气温.T.index[i]]=kmeans_labels[i]
dic_rusult

 统计一下,打印结果

第一类地区=[]
第二类地区=[]
第三类地区=[]
for k,v in dic_rusult.items():if v==0:第一类地区.append(k)elif v==1:第二类地区.append(k)elif v==2:第三类地区.append(k)
print(f'从最高气温来看的聚类的结果,将地区分为三个地区,\n第一个地区为:{第一类地区},\n第二个地区为:{第二类地区},\n第三个地区为:{第三类地区}')

 可以去地图上看看,聚类的结果还是很有道理的,聚类出来的地区都是挨得很近的地方。


最低温度K均值聚类

kmeans_model = KMeans(n_clusters=3, random_state=123, n_init=20)
kmeans_model.fit(df_最低气温.T)kmeans_labels = kmeans_model.labels_   # 样本的类别标签
kmeans_labels pd.Series(kmeans_labels).value_counts()   # 统计不同类别样本的数目dic_rusult2={}
for i in range(10):dic_rusult2[df_最低气温.T.index[i]]=kmeans_labels[i]
dic_rusult2第一类地区=[]
第二类地区=[]
第三类地区=[]
for k,v in dic_rusult2.items():if v==2:第一类地区.append(k)elif v==1:第二类地区.append(k)elif v==0:第三类地区.append(k)
print(f'从最低气温来看的聚类的结果,将地区分为三个地区,\n第一个地区为:{第一类地区},\n第二个地区为:{第二类地区},\n第三个地区为:{第三类地区}')

 和最高温的聚类结果差不多

第一个地区对应的关中

第二个地区对应的陕北

第三个地区对应的陕南


天气K均值聚类

kmeans_model = KMeans(n_clusters=3, random_state=123, n_init=20)
kmeans_model.fit(df_天气.T)
kmeans_labels = kmeans_model.labels_   # 样本的类别标签
pd.Series(kmeans_labels).value_counts()   # 统计不同类别样本的数目 
dic_rusult3={}
for i in range(10):dic_rusult3[df_天气.T.index[i]]=kmeans_labels[i]
dic_rusult3
第一类地区=[]
第二类地区=[]
第三类地区=[]
for k,v in dic_rusult3.items():if v==1:第一类地区.append(k)elif v==2:第二类地区.append(k)elif v==0:第三类地区.append(k)
print(f'从天气来看的聚类的结果,将地区分为三个地区,\n第一个地区为:{第一类地区},\n第二个地区为:{第二类地区},\n第三个地区为:{第三类地区}')

 天气的效果和气温差不多。

第一个地区对应的关中

第二个地区对应的陕北

第三个地区对应的陕南

说明地理位置近的地区的天气更加相似(算法说的)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/84315.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Django实现音乐网站 ⑼

使用Python Django框架制作一个音乐网站, 本篇主要是后台对专辑、首页轮播图原有功能的基础上进行部分功能实现和显示优化。 目录 专辑功能优化 新增编辑 专辑语种改为下拉选项 添加单曲优化显示 新增单曲多选 更新歌手专辑数、专辑单曲数 获取歌手专辑数 保…

07-2_Qt 5.9 C++开发指南_二进制文件读写(stm和dat格式)

文章目录 1. 实例功能概述2. Qt预定义编码文件的读写2.1 保存为stm文件2.2 stm文件格式2.3 读取stm文件 3. 标准编码文件的读写3.1 保存为dat文件3.2 dat文件格式3.3 读取dat文件 4. 框架及源码4.1 可视化UI设计4.2 mainwindow.cpp 1. 实例功能概述 除了文本文件之外&#xff…

MGRE综合

实验 一、实验思路 1.先按照上图配置IP地址及环回 2.写缺省使公网可通 3.让R1、R4、R5每台路由器均成为中心站点形成全连网状结构拓扑 4.让R1成为中心站点R2R3为分支站点 5.分区域宣告ospf之后更改ospf在虚拟接口Tunnel工作方式为broadcast及让R1 当选DR 二、上虚拟机操作…

数字万用表测量基础知识--DMM的显示位数

概览 DMM(即数字万用表)是一种电气测试和测量仪器,可测量直流和交流信号的电压、电流和电阻。本文介绍如何正确使用和理解数字万用表(DMM)。 DMM的显示位数 数字万用表(DMM)可用于进行各种测量。在选择DMM或理解所使用的DMM时,首…

改进的麻雀算法优化最大相关峭度解卷积(SCSSA-MCKD),实现早期微弱故障诊断,MATLAB代码实现

01 引言 由于一些设备的早期故障产生的冲击十分微弱,易被系统噪声干扰,如何有效地对设备的原始故障信号进行降噪并增强信号中微弱冲击成分,是进行该类部件早期故障诊断的关键。 最大相关峭度解卷积(MCKD)通过解卷积运算…

Kotlin读写分离CopyOnWriteArrayList

Kotlin读写分离CopyOnWriteArrayList 基于读写分离思想Copy-On-Write(COW)设计的线程安全ArrayList变体,读读共享、写写互斥、读写互斥、写读互斥。读时直接读,不用加锁同步,线程安全。写/删/修改数据时复制一个副本,在新的List副…

【AI理论学习】手把手推导扩散模型:Diffusion Models(DDPM)

手把手推导扩散模型:Diffusion Models(DDPM) DDPM理论回顾前置知识过程详解Forward ProcessReverse Process DDPM算法伪代码训练部分采样部分 总结一下 参考链接 在这篇博客文章中,我们将深入研究 去噪扩散概率模型(也称为 DDPM&…

Linux Linux系统文件类型与文件权限

一、文件类型 (1)在windows系统中文件类型以文件的后缀名来区分,在Linux系统中文件类型不以后缀名来区分。注意编写c代码时必须写后缀名.c,不然C编译器不会编译该文件。 (2)在Linux系统中以文件的标志来区…

如何用SOLIDWORKS Simulation 避免共振现象

零件都有它的固有振动频率,称之为共振频率。当零部件的固有频率和激励频率相近时,对零部件的破坏是非常严重的,这就是我们说的共振。频率分析是设计师日常工作常见的设计验证。 今天给大家分享的是Simulation的频率分析操作方法: …

Linux配置QT Creator环境:ubuntu中安装QT Creator环境

一、前景 目前市面上很多公司使用QT Creator进行界面开发,基本都会选择在Linux环境进行,优点不仅是市场所需,更是方便后期代码的移植,相较于Windows系统,Linux系统移植性非常好。故此篇文章,介绍如何在Linu…

【深度学习注意力机制系列】—— CBAM注意力机制(附pytorch实现)

CBAM(Convolutional Block Attention Module)是一种用于增强卷积神经网络(CNN)性能的注意力机制模块。它由Sanghyun Woo等人在2018年的论文[1807.06521] CBAM: Convolutional Block Attention Module (arxiv.org)中提出。CBAM的主…

在工作中使用ChatGPT需要担心泄密问题吗?

​OpenAI的ChatGPT可以通过自动简化繁琐的任务,针对挑战性问题的提供创造性的解决方案来提高员工的生产力。但随着这项技术被整合到人力资源平台和其他工作场所中,它给各个企业带来了巨大的挑战。苹果、Spotify、Verizon和三星等大公司已禁止或限制员工在…

CC++内存管理

欢迎来到Cefler的博客😁 🕌博客主页:那个传说中的man的主页 🏠个人专栏:题目解析 🌎推荐文章:题目大解析2 目录 👉🏻c内存管理方式new/delete 操作内置类型new和delete操…

Java开发要学哪些知识点?建议收藏

随着信息技术的快速发展,Java语言技能成为了企业招聘市场上最受欢迎的技能之一。在这样的市场需求下,Java开发也成为了很多人想要掌握的基本技能之一。那么,我们在学习Java开发时,应当掌握哪些知识点呢?下面,小编将为…

htmlCSS-----案例展示

目录 前言 作品效果 html代码 CSS代码 图片资源 前言 在学习html过程中我们要试着去写写一些案例,通过这些案例让我们更加熟悉代码以及丰富我们的经验,下面是我个人写的一个案例,代码和图片也给出了大家,你们可以参考参考。…

(贪心) 剑指 Offer 14- I. 剪绳子 ——【Leetcode每日一题】

❓剑指 Offer 14- I. 剪绳子 难度:中等 给你一根长度为 n 的绳子,请把绳子剪成整数长度的 m 段(m、n都是整数,n > 1 并且 m > 1),每段绳子的长度记为 k[0],k[1]...k[m-1] 。请问 k[0]*k[1]*...*k[m…

IDEA的实用快捷键大全

目录 1.常规快捷键 1.1通用类 1.2注释类 1.3操作类 1.4展开与关闭 2.智能补全类快捷键 3.程序结构类快捷键 4.统一操作快捷键 1.常规快捷键 1.1通用类 像 Ctrl C 复制, Ctrl V 粘贴, Ctrl S保存文件, Ctrl X剪切,这种…

使用XMLHttpRequest实现文件异步下载

1、问题描述 我想通过异步的方式实现下载文化&#xff0c;请求为post请求。一开始我打算用ajax。 $.ajax({type:post,contentType:application/json,url:http://xxx/downloadExcel,data:{data:JSON.stringify(<%oJsonResponse.JSONoutput()%>)},}).success(function(dat…

Spring Cloud Gateway过滤器GlobalFilter详解

一、过滤器的场景 在springCloud架构中&#xff0c;网关是必不可少的组件&#xff0c;它用于服务路由的转发。对客户端进行屏蔽微服务的具体细节&#xff0c;客户端只需要和网关进行交互。所以网关顾名思义&#xff0c;就是网络的一个关卡。它就是一座城的城门守卫。所以这个守…

Spring(11) Bean的生命周期

目录 一、简介二、Bean的流程1.BeanDefinition2.Bean 的生命周期 三、代码验证1.User 实体类2.MyBeanPostProcessor 后置处理器3.SpringConfig 扫描包配置4.UserTest 测试类5.测试结果6.模拟AOP增强 三、总结 一、简介 首先&#xff0c;为什么要学习 Spring 中 Bean 的生命周期…