【Python】家庭用电数据的时序分析

Household Electricity Consumption | Kaggle

目录

数据简介

探索分析

数据清洗

用电占比

趋势分析

序列分解

周期分析

周期分解

分析小结


数据简介

240000-household-electricity-consumption-records数据集包含了一个家庭6个月的用电数据,收集于2007年1月至2007年6月。这些数据包括全球有功功率、全球无功功率、电压、全球强度、分项计量1(厨房)、分项计量2(洗衣房)和分项计量3(电热水器和空调)等信息。该数据集共有260,640个测量值。

列名说明
Date日期
Time时间
Globalactivepower该家庭所消耗的总有功功率(千瓦)
Globalreactivepower该家庭消耗的总无功功率(千瓦)
Voltage向家庭输送电力的电压(伏特)
Global_intensity输送到家庭的平均电流强度(安培)
Submetering1厨房消耗的有功功率(千瓦)
Submetering2洗衣房所消耗的有功功率(千瓦)
Submetering3电热水器和空调所消耗的有功功率(千瓦)

有功功率:对外做功,保持用电设备正常运行的电功率。

无功功率:不对外做功,形成和维持设备磁场的电功率。 

探索分析

导入数据集并读取头部

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data_path = "./household_power_consumption.csv"
df = pd.read_csv(data_path,index_col='index')
df.head()

 列名替换为中文  

df.rename(columns={'Date': '日期','Time': '时间','Global_active_power': '有功功率','Global_reactive_power': '无功功率','Voltage': '电压','Global_intensity': '电流','Sub_metering_1': '厨房的有功功率','Sub_metering_2': '洗衣房的有功功率','Sub_metering_3': '电热水器和空调的有功功率',},inplace=1)
# 再次预览前5行数据
df.head()  

查看数据信息

df.info()

 查看数据类型

df.dtypes

 

在Python中,object 是所有类的基类(或称为“超类”),这意味着所有的数据类型(如整数、浮点数、列表、字典等)以及用户自定义的类都是 object 类的直接或间接子类。因此,当在Python中创建一个变量或对象时,它本质上都是 object 类型的一个实例,尽管它的具体类型(如 intlistdict 等)会提供额外的属性和方法。

数据清洗

查看数据是否重复,0即为没有重复

df.duplicated().sum()

 

处理异常值,同一替换为空值NAN

df = df.replace('?',np.NAN)

将除日期、时间、电热水器和空调的有功功率之外的数据替换为数值型 

for i in list(df.columns)[2:-1]:df[i] = df[i].astype(float)

查看替换结果 

df.dtypes

 

对缺失值进行插值处理,插值是一种通过已知数据点来估计未知数据点的方法,常用于填补数据中的缺失值。

df = df.interpolate()

将日期、时间结合作为数据索引

# 替换日期列数据形式
df['日期'] = df['日期'].str.replace('/07','/2007')
# 将日期、时间转换为str类型
df['日期'] = df['日期'].astype(str)
df['时间'] = df['时间'].astype(str)
# 重构index数据为包含年月日时分秒的完整时间
df.index = pd.to_datetime(df['日期']+ ' ' + df['时间'],format='%d/%m/%Y %H:%M:%S')
df=df.drop(['日期','时间'],axis=1)
df.head()

计算有功功率总和,作为新列 

df['有功功率总和'] = df['有功功率']+df['厨房的有功功率']+df['洗衣房的有功功率']+df['电热水器和空调的有功功率']
df.head()

按照小时对数据进行重采样

df_h = df.resample('H').sum()
df_h.head()

 按照天数对数据进行重采样

df_d = df.resample('D').sum()
df_d.head()

用电占比

分析不同类型的家庭用电量与总用电量的占比关系

from pyecharts.charts import *
import pyecharts.options as opts
# 不同类型用电量在总用电量中的占比
c = (Pie(init_opts=opts.InitOpts(theme='chalk')).add("用电量", [['厨房用电量',df['厨房的有功功率'].sum()],['洗衣房用电量',df['洗衣房的有功功率'].sum()],['电热水器和空调的用电量',df['电热水器和空调的有功功率'].sum()],['其他电器用电量',df['有功功率'].sum()]]).set_global_opts(title_opts=opts.TitleOpts(title="不同类型用电量占比",pos_right='center'),legend_opts=opts.LegendOpts(pos_top="5%")).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {d}%"))
)
c.render_notebook()

由可视化图像容易发现,电热水器和空调的用电量占比最高,近60%的功率都是电热水器和空调消耗的,而洗衣房、厨房和其他电器的用电量相差不大。

趋势分析

通过时间序列可视化方法,对家庭用电量变化进行趋势分析

plt.figure( figsize=(15,10) )
plt.subplot(321)
plt.title('Total Power')
plt.plot(df_d['有功功率总和'])
plt.subplot(322)
plt.title('Kitchen Power')
plt.plot(df_d['厨房的有功功率'])
plt.subplot(323)
plt.title('Laundry Power')
plt.plot(df_d['洗衣房的有功功率'])
plt.subplot(324)
plt.title('Conditioner Power')
plt.plot(df_d['电热水器和空调的有功功率'])
plt.subplot(313)
plt.title('Power Compare')
plt.plot(df_d['有功功率总和'],label='Total Power')
plt.plot(df_d['厨房的有功功率'],label='Kitchen Power')
plt.plot(df_d['洗衣房的有功功率'],label='Laundry Power')
plt.plot(df_d['电热水器和空调的有功功率'],label='Conditioner Power')
plt.legend()

可视化结果可见,在二月末至三月初期间,用电量呈现相对较低的态势。然而,随后洗衣房的用电量出现显著增长。然而,到了四月末,总用电量却意外地降至最低点。从整体趋势来看,时间序列信息显得较为纷乱,缺乏清晰的规律性。为了深入洞察这些数据背后的模式与趋势,考虑通过序列分解来进行数据挖掘,以期能够提炼出更为明确、有意义的用电行为特征。

序列分解

考虑周末的用电特殊性,对序列以七天为周期的方式进行分解,通过seasonal_decompose函数将时序数据中的趋势特征、周期特征和残差项分解出来,并进行趋势可视化

from statsmodels.tsa.seasonal import seasonal_decompose
total_decomposition_d = seasonal_decompose(df_d['有功功率总和'],period=7)
kitchen_decomposition_d = seasonal_decompose(df_d['厨房的有功功率'],period=7)
laundry_decomposition_d = seasonal_decompose(df_d['洗衣房的有功功率'],period=7)
conditioner_decomposition_d = seasonal_decompose(df_d['电热水器和空调的有功功率'],period=7)

对七天为周期的时间趋势可视化 

plt.figure( figsize=(15,10) )
plt.subplot(321)
plt.title('Total Power')
plt.plot(total_decomposition_d.trend)
plt.subplot(322)
plt.title('Kitchen Power')
plt.plot(kitchen_decomposition_d.trend)
plt.subplot(323)
plt.title('Laundry Power')
plt.plot(laundry_decomposition_d.trend)
plt.subplot(324)
plt.title('Conditioner Power')
plt.plot(conditioner_decomposition_d.trend)
plt.subplot(313)
plt.title('Power Compare')
plt.plot(total_decomposition_d.trend,label='Total Power')
plt.plot(kitchen_decomposition_d.trend,label='Kitchen Power')
plt.plot(laundry_decomposition_d.trend,label='Laundry Power')
plt.plot(conditioner_decomposition_d.trend,label='Conditioner Power')
plt.legend()

趋势分析结果说明,电热水器与空调的电能消耗模式与总体电能消耗量的时间序列图表展现出高度的相似性,这一结果与用电占比分析结论不谋而合,进一步印证了电热水器和空调设备对家庭总电能消耗具有显著影响。此外,通过对上述图表的细致分析,我们能够更加明确地识别出各类家用电器能耗的峰值与谷值时段:具体而言,在每年三月末至四月初期间,该户家庭的总电能消耗量达到了年度最高峰值;相比之下,二月末则记录下了全年最低的电能消耗谷值;值得注意的是,在四月的中上旬以及四月末,还分别出现了两个较为明显的电能消耗低谷时段。

周期分析

通常而言,用电量数据预期会展现出一定的周期性规律,但根据目前提供的时序图像分析,这种周期性特征并不显著。为了更清晰地识别潜在的周期模式,计划将分解序列过程中提取的周期特征进行可视化处理。通过直观展示这些周期特征,希望能够更准确地把握用电量数据中的周期性变化规律,从而为后续的分析和决策提供有力支持。

plt.figure( figsize=(15,10) )
plt.subplot(321)
plt.title('Total Power')
plt.plot(total_decomposition_d.seasonal[:7])
plt.subplot(322)
plt.title('Kitchen Power')
plt.plot(kitchen_decomposition_d.seasonal[:7])
plt.subplot(323)
plt.title('Laundry Power')
plt.plot(laundry_decomposition_d.seasonal[:7])
plt.subplot(324)
plt.title('Conditioner Power')
plt.plot(conditioner_decomposition_d.seasonal[:7])
plt.subplot(313)
plt.title('Power Compare')
plt.plot(total_decomposition_d.seasonal[:7],label='Total Power')
plt.plot(kitchen_decomposition_d.seasonal[:7],label='Kitchen Power')
plt.plot(laundry_decomposition_d.seasonal[:7],label='Laundry Power')
plt.plot(conditioner_decomposition_d.seasonal[:7],label='Conditioner Power')
plt.legend()

由可视化结果,从图表中可以明显观察到,周日(以2007年1月1日为周一作为参照)是一周中总用电量达到峰值的日子,紧随其后的是周六和周三,显示出相对较高的用电需求。相比之下,周二和周五则呈现出较低的总用电量水平,成为一周中用电较少的两天。这一趋势揭示了居民用电行为的周期性特征,可能与不同日间的活动模式及生活习惯紧密相关。

周期分解

以24小时为周期对用电量序列进行分解

total_decomposition_h = seasonal_decompose(df_h['有功功率总和'],period=24)
kitchen_decomposition_h = seasonal_decompose(df_h['厨房的有功功率'],period=24)
laundry_decomposition_h = seasonal_decompose(df_h['洗衣房的有功功率'],period=24)
conditioner_decomposition_h = seasonal_decompose(df_h['电热水器和空调的有功功率'],period=24)
plt.figure( figsize=(15,10) )
plt.subplot(321)
plt.title('Total Power')
plt.plot(range(1,25),total_decomposition_h.seasonal[:24])
plt.subplot(322)
plt.title('Kitchen Power')
plt.plot(range(1,25),kitchen_decomposition_h.seasonal[:24])
plt.subplot(323)
plt.title('Laundry Power')
plt.plot(range(1,25),laundry_decomposition_h.seasonal[:24])
plt.subplot(324)
plt.title('Conditioner Power')
plt.plot(range(1,25),conditioner_decomposition_h.seasonal[:24])
plt.subplot(313)
plt.title('Power Compare')
plt.plot(range(1,25),total_decomposition_h.seasonal[:24],label='Total Power')
plt.plot(range(1,25),kitchen_decomposition_h.seasonal[:24],label='Kitchen Power')
plt.plot(range(1,25),laundry_decomposition_h.seasonal[:24],label='Laundry Power')
plt.plot(range(1,25),conditioner_decomposition_h.seasonal[:24],label='Conditioner Power')
plt.legend()

从图表分析中可以看出,该家庭在一天之内存在明显的用电高峰时段。具体而言,晚上8点至10点期间是用电量最大的时段,反映了家庭成员在此时间段内的高强度用电活动。紧接着的是上午9点至10点,也呈现出较高的用电量。相反,在后半夜的4点至6点之间,用电量降至最低,显示出这一时段内家庭活动的减少。

进一步观察各类电器的使用模式,厨房电器和洗衣房电器在晚上8点至10点达到了使用的高峰期,这可能与晚餐准备、清洁衣物等晚间家务活动相关。而电热水器和空调则在上午8点至10点迎来了使用的高峰,可能是为了应对早晨洗漱和准备工作的需求,随后在晚上8点至10点再次迎来一个使用高峰,这可能是由于家庭成员在晚间回归后,对热水和舒适温度的需求增加。

分析小结

这份用电量数据中家庭电力消耗模式呈现出以下几个显著且系统的特征。

高能耗设备占比:电热水器与空调作为家庭中的主要高能耗设备,其电力消耗合计占据了家庭总用电量的近60%,这充分表明这两类设备在家庭能源使用中的主导地位。

季节性用电波动:在家庭用电量的季节性变化上,我们观察到三月末至四月初期间,家庭总用电量达到年度峰值,而二月末则呈现出全年最低谷。此外,四月中上旬及四月末还出现了两个较为显著的用电低谷期,这些变化揭示了季节性因素及外部条件对家庭用电量的显著影响。

周用电模式:就周用电模式而言,周日成为一周中家庭总用电量最大的日子,其次是周六和周三,这反映了周末及部分工作日晚间家庭活动的增加对用电量的积极影响。而周二和周五则表现为一周中的用电低谷日,表明这些日子内家庭活动相对较少或用电行为更为节约。

日内用电高峰:在日内的用电分布上,注意到晚上8点至10点是家庭用电的显著高峰时段,这主要归因于家庭成员在此时间段内的多样化用电需求。同时,上午9点至10点也呈现出较高的用电量,这可能与早晨的洗漱、准备等活动相关。此外,后半夜4点至6点期间的用电量则降至最低,体现了家庭活动的显著减少。

设备使用时段分析:进一步细化至具体设备的使用情况,厨房电器与洗衣房电器在晚上8点至10点期间的使用率最高,这符合家庭成员晚餐准备和清洁工作的常规时间。而电热水器和空调则在上午8点至10点及晚上8点至10点两个时段内展现出较高的使用频率,这既满足了早晨洗漱的即时需求,也确保了晚间居家的舒适度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/413318.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安防监控/软硬一体/视频汇聚网关EasyCVR硬件启动崩溃是什么原因?

安防视频监控EasyCVR安防监控视频系统采用先进的网络传输技术,支持高清视频的接入和传输,能够满足大规模、高并发的远程监控需求。EasyCVR平台支持多种视频流的外部分发,如RTMP、RTSP、HTTP-FLV、WebSocket-FLV、HLS、WebRTC、WS-FMP4、HTTP-…

MySql【数据查询语言DQL】

DQL[非常重要] DQL 主要指查询语句,有查询单表数据,也有查多表数据表,单表查询 基本查询 条件查询 模糊查询 排序查询 聚合查询 去重查询 分组查询 限制查询 1、 数据准备 将发的stu.sql导入到MySql中 2、 基本查询 select 字段1,字段2,... from 表名; 查询返回的是一张…

C语言 ——— 文件读取结束的判定

目录 判定文件读取结束的方式 被错误使用的feof函数 判定文件结束的正确使用 判定文件读取结束的方式 判断文本文件是否读取结束: 利用 fgetc 判断返回值是否为 EOF 利用 fgets 判断返回值是否为 NULL 判断二进制文件是否读取结束: 利用 fread 判…

MAC环境导出项目的目录结构

一、安装Homebrew包管理工具 /bin/bash -c "$(curl -fsSL https://gitee.com/ineo6/homebrew-install/raw/master/install.sh)" 官网网址:https://brew.idayer.com/ 二、用brew包管理工具安装tree brew install tree 三、打开终端,导出项目…

axios响应

一.axios请求配置项(axios在调用时所接收的参数对象) 以下是请求时可用的配置选项,只有url是必须的,如果没有指定method,请求将默认使用get方法 { // url 是用于请求的服务器 URL url: "/user", // method 是创建请…

【三维重建】三角网格中轴骨架线提取

三维网格中轴线提取 方法介绍实现提取 三维网格中轴线提取是计算机图形学和三维建模领域中的一个重要技术,它对于理解三维形状的拓扑结构和几何特性具有重要意义。 方法介绍 以下是几种常见的三维网格中轴线提取方法: 基于距离变换的方法 基本原理&…

大数据计算-SQL优化手段(CBO)-以Flink为例

文章目录 背景理论知识示例结果展示结果解释 背景 大数据计算中,SQL生成的执行计划第一轮会经过固定规则的优化,第二轮会根据原计划,生成多条结合成本的的执行计划,根据cost 进行排序,选出最优的执行计划。 理论知识…

【大数据算法】时间亚线性算法之:时间亚线性判定算法概述。

时间亚线性判定算法概述 1、引言2、空间亚线性算法2.1 定义2.2 实现方式2.3 应用场景2.3.1 大数据分析2.3.2 流数据处理2.3.3 近似计算2.3.4 稀疏数据操作 2.4 代码示例 3、总结 1、引言 小屌丝:鱼哥,最近看新闻没啊? 小鱼:我天天…

Upload-labs靶场通过攻略

pass-01 1.写一个一句话木马 2.上传php文件 当我们上传php文件时 提示文件类型不正确 3.修改php后缀 通过修改php后缀为jpg 抓包再次修改成php文件 4.查看是否上传成功 页面显示图片 表示上传成功 pass-02 1.上传一个php文件 页面显示文件类型不正确 2.抓包修改 可以看…

【化学方程式配平 / 3】

题目 代码 #include <bits/stdc.h> using namespace std; const double eps 1e-8; unordered_map<string, int> e; int eidx, midx; //eidx 元素数&#xff0c; midx 物质数 double matrix[45][45]; int q; bool check_alpha(char c) {if(c > a && c …

Android APK打包脚本

build.gradle版本 同目录创建config.gradle文件写入需要的信息入 config.gradle文件内容 ext { /*** 自定义APP运行环境* dev: 开发* test: 测试* pro: 生产*/ env "pro" /*** 动态参数配置&#xff0c;根据自己需要添加参数* APP_ID: 包名* VERSION_CODE: 版本号…

【TDesign】如何修改CSS变量

Tdesign的组件想通过style定义样式没效果, 可以通过组件api文档修改, 组件提供了下列 CSS 变量&#xff0c;可用于自定义样式。 比如Cell, https://tdesign.tencent.com/miniprogram/components/cell?tabapi 提供了&#xff1a; –td-cell-left-icon-color 图标颜色 –td-cell…

yolo训练策略--使用 Python 和 OpenCV 进行图像亮度增强与批量文件复制

简介 在计算机视觉和深度学习项目中&#xff0c;数据增强是一种常用的技术&#xff0c;通过对原始图像进行多种变换&#xff0c;可以增加数据集的多样性&#xff0c;从而提高模型的泛化能力。本文将介绍如何使用 Python 和 OpenCV 实现图像的亮度增强&#xff0c;并将增强后的…

Golang | Leetcode Golang题解之第383题赎金信

题目&#xff1a; 题解&#xff1a; func canConstruct(ransomNote, magazine string) bool {if len(ransomNote) > len(magazine) {return false}cnt : [26]int{}for _, ch : range magazine {cnt[ch-a]}for _, ch : range ransomNote {cnt[ch-a]--if cnt[ch-a] < 0 {r…

Vue(八) localStorage、组件的自定义事件、Todo案例修改

文章目录 一、浏览器本地存储1. 相关API2. Todo案例中的应用 二、组件的自定义事件1. 回顾props传值方式2. 绑定自定义事件&#xff08;1&#xff09;方式一&#xff1a;v-on或&#xff08;2&#xff09;方式二&#xff1a; ref 3. 解绑自定义事件4. 注意点总结 三、Todo案例采…

算法复盘——LeetCode hot100:哈希

文章目录 哈希表哈希表的基本概念哈希表的使用1. 插入操作2. 查找操作3. 删除操作 哈希表的优点和缺点1.两数之和复盘 242.有效的字母异位词复盘 49.字母异位词分组复盘 128. 最长连续序列复盘HashSet 哈希表 先来搞清楚什么是哈希表吧~ 概念不清楚方法不清楚怎么做题捏 哈希表…

c++习题28-计算2的N次方

目录 一&#xff0c;题目 二&#xff0c;思路 三&#xff0c;代码 一&#xff0c;题目 描述 任意给定一个正整数N(N<100)&#xff0c;计算2的n次方的值。 输入描述 输入一个正整数N。 输出描述 输出2的N次方的值。 用例输入 1 5 用例输出 1 32 二&#xff0…

【王树森】Transformer模型(2/2): 从Attention层到Transformer网络(个人向笔记)

Single Head Self-Attention 上节课讲到的属于单头注意力&#xff1a; Multi-Head Self-Attention 使用 l l l 个单头注意力层堆叠成一个多头注意力层&#xff0c;注意它们之间不共享参数一个单头注意力有 3 个参数矩阵&#xff0c;所以多头注意力有 3 l 3l 3l 个参数矩阵…

docker文档

一、docker概述 1、java项目通过docker打包成镜像&#xff08;包含了所有的环境&#xff09;放到docker仓库中&#xff0c;只需要下载发布的镜像直接运行即可&#xff1b; 2、虚拟机技术的缺点&#xff1a; 资源占用多、冗余步骤多、启动很慢 容器化技术&#xff1a; 比较do…

色彩与笔触的交响:广州米塔在线科教技术有限公司揭秘PS绘画秘籍!

在数字艺术的广阔天地里,PS无疑是一颗璀璨的明星&#xff0c;它不仅在图像处理领域独领风骚&#xff0c;更以其强大的功能成为了众多艺术家和设计师进行数字绘画的首选工具。广州米塔在线科教技术有限公司&#xff0c;作为致力于艺术教育与技术分享的平台&#xff0c;深知掌握P…