政安晨:【深度学习处理实践】(三)—— 处理时间序列的数据准备

在深度学习中,对时间序列的处理主要涉及到以下几个方面

  1. 序列建模:深度学习可以用于对时间序列进行建模。常用的模型包括循环神经网络(Recurrent Neural Networks, RNN)和长短期记忆网络(Long Short-Term Memory, LSTM)。这些模型可以在输入序列的基础上进行学习,捕捉序列中的时间关系和时序模式。

  2. 序列预测:深度学习也可以用于时间序列的预测。通过对历史数据进行建模,可以利用深度学习模型来预测未来的数值或趋势。常用的模型包括循环神经网络(RNN)和卷积神经网络(Convolutional Neural Networks, CNN)。

  3. 应用领域:深度学习在时间序列的处理中被广泛应用于各个领域。例如,金融领域中可以利用深度学习模型来预测股票价格;气象领域中可以利用深度学习模型来预测天气变化;语音识别领域中可以利用深度学习模型来识别语音信号中的文字内容。

总的来说,深度学习在时间序列的处理中能够利用神经网络的强大表达能力,通过学习历史数据的模式和规律,来进行序列的建模和预测。这使得深度学习成为处理时间序列数据的一种强大工具。

政安晨的个人主页政安晨

欢迎 👍点赞✍评论⭐收藏

收录专栏政安晨的机器学习笔记

希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正!

不同类型的时间序列任务

时间序列(timeseries)是指定期测量获得的任意数据比如每日股价、城市每小时耗电量或商店每周销售额

无论是自然现象(如地震活动、鱼类种群的演变或某地天气)还是人类活动模式(如网站访问者、国家GDP或信用卡交易),时间序列都无处不在。

与前面遇到的数据类型不同,处理时间序列需要了解系统的动力学(dynamics),包括系统的周期性循环、系统随时间如何变化、系统的周期规律与突然激增等。

目前,最常见的时间序列任务是预测:预测序列接下来会发生什么

比如提前几小时预测用电量,以便于预计需求;

提前几个月预测收入,以便于制订预算计划;

提前几天预测天气,以便于规划日程。预测是本章的重点内容。

但实际上,你还可以对时间序列做很多其他事情。

分类为时间序列分配一个或多个分类标签。例如,已知一名网站访问者的活动时间序列,判断该访问者是机器人还是人类。

事件检测识别连续数据流中特定预期事件的发生。一个特别有用的应用是“热词检测”,模型监控音频流并检测像“Ok Google”或“Hey Alexa”这样的话。

异常检测检测连续数据流中出现的异常情况。

公司网络出现异常活动?可能是有攻击者。

生产线出现异常读数?是时候让人去查看一下了。

异常检测通常是通过无监督学习实现的,因为你通常不知道要检测哪种异常,所以无法针对特定的异常示例进行训练。

处理时间序列时你会遇到许多特定领域的数据表示方法。例如,你可能听说过傅里叶变换,它是指将一系列值表示为不同频率的波的叠加。对那些以周期和振荡为主要特征的数据(如声音、摩天大楼的振动或人的脑电波)进行预处理时,傅里叶变换可以发挥很大作用。对于深度学习而言,傅里叶分析(或相关的梅尔频率分析)与其他特定领域的表示可以用来做特征工程。这是一种在训练模型之前准备数据的方式,以便让模型更容易运行。然而,这篇文章不会介绍这些技术,而是将重点放在构建模型上。

咱们这篇文章将介绍循环神经网络(recurrent neural network,RNN)及如何将其应用于时间序列预测。

温度预测示例

咱们这篇文章所有代码示例都针对同一个问题:已知每小时测量的气压、湿度等数据的时间序列(数据由屋顶的一组传感器记录),预测24小时之后的温度。你会发现,这是一个相当有挑战性的问题。

利用这个温度预测任务,我们会展示时间序列数据与之前见过的各类数据集在本质上有哪些不同。你会发现,密集连接网络和卷积神经网络并不适合处理这种数据集,而另一种机器学习技术——循环神经网络——在这类问题上大放异彩。

我们将使用一个天气时间序列数据集,它由德国耶拿的马克斯•普朗克生物地球化学研究所的气象站记录。在这个数据集中,每10分钟记录14个物理量(如温度、气压、湿度、风向等),其中包含多年的记录。原始数据可追溯至2003年,但本例仅使用2009年~2016年的数据。

咱们在Jupyter中下载这个数据集并解压:

!wget https://s3.amazonaws.com/keras-datasets/jena_climate_2009_2016.csv.zip
!unzip jena_climate_2009_2016.csv.zip

解压数据:

接下来咱们查看数据:

查看耶拿天气数据集

import os
fname = os.path.join("jena_climate_2009_2016.csv")with open(fname) as f:data = f.read()lines = data.split("\n")
header = lines[0].split(",")
lines = lines[1:]
print(header)
print(len(lines))

演绎执行如下:

从输出可以看出,共有420 451行数据(每行数据是一个时间步,记录了1个日期和14个与天气有关的值),输出还包含以上表头

接下来,我们将所有420 451行数据转换为NumPy数组,代码如下所示:一个数组包含温度(单位为摄氏度),另一个数组包含其他数据。我们将使用这些特征来预测温度。请注意,我们舍弃了"Date Time"(日期和时间)这一列。

解析数据

import numpy as np
temperature = np.zeros((len(lines),))
raw_data = np.zeros((len(lines), len(header) - 1))
for i, line in enumerate(lines):values = [float(x) for x in line.split(",")[1:]]# 将第1列保存在temperature数组中temperature[i] = values[1]# 将所有列(包括温度)保存在raw_data数组中raw_data[i, :] = values[:]

我们来绘制温度随时间的变化曲线(单位为摄氏度),代码如下所示。在这张图中,你可以清楚地看到温度的年度周期性变化,数据跨度为8年。

绘制温度时间序列

from matplotlib import pyplot as plt
plt.plot(range(len(temperature)), temperature)

如果您的环境中还没有matplotlib,可以参考我的这篇文章安装:

政安晨:在Jupyter中【示例演绎】Matplotlib的官方指南(一){Pyplot tutorial}icon-default.png?t=N7T8https://blog.csdn.net/snowdenkeke/article/details/136096870执行如下:

上面这个是数据集整个时间范围内的温度(℃)。

现在,我们来绘制前10天温度数据的曲线,代码如下所示。由于每10分钟记录一次数据,因此每天有144个数据点(24×6=144)。

绘制前10天的温度时间序列

plt.plot(range(1440), temperature[:1440])

从上图中可以看到每天的周期性变化,尤其是最后4天特别明显。另外请注意,这10天一定是来自于寒冷的冬季月份。

始终在数据中寻找周期性

在多个时间尺度上的周期性,是时间序列数据非常重要且常见的属性。

无论是天气、商场停车位使用率、网站流量、杂货店销售额,还是健身追踪器记录的步数,你都会看到每日周期性和年度周期性(人类生成的数据通常还有每周的周期性)。

探索数据时,一定要注意寻找这些模式。

对于这个数据集,如果你想根据前几个月的数据来预测下个月的平均温度,那么问题很简单,因为数据具有可靠的年度周期性。但如果查看几天的数据,那么你会发现温度看起来要混乱得多。以天作为观察尺度,这个时间序列是可预测的吗?我们来寻找这个问题的答案。

在后续所有实验中,我们将前50%的数据用于训练,随后的25%用于验证,最后的25%用于测试,代码如下所示。处理时间序列数据时,有一点很重要验证数据和测试数据应该比训练数据更靠后,因为你是要根据过去预测未来,而不是反过来,所以验证/测试划分应该反映这一点。如果将时间轴反转,有些问题就会变得简单得多。

(这段代码是计算用于训练、验证和测试的样本数

num_train_samples = int(0.5 * len(raw_data))
num_val_samples = int(0.25 * len(raw_data))
num_test_samples = len(raw_data) - num_train_samples - num_val_samples
print("num_train_samples:", num_train_samples)
print("num_val_samples:", num_val_samples)
print("num_test_samples:", num_test_samples)

执行如下:

准备数据

这个问题的确切表述如下:每小时采样一次数据,给定前5天的数据,我们能否预测24小时之后的温度?

我们对数据进行预处理,将其转换为神经网络可以处理的格式。这很简单。因为数据已经是数值型的,所以不需要做向量化。但数据中的每个时间序列位于不同的范围,比如气压大约在1000毫巴(mbar)1,而水汽浓度(H2OC)大约为3毫摩尔/摩尔(mmol/mol)。我们将对每个时间序列分别做规范化,使其处于相近的范围,并且都取较小的值,代码如下所示:我们使用前210 225个时间步作为训练数据,所以只计算这部分数据的均值和标准差。

(如下代码为数据规范化

mean = raw_data[:num_train_samples].mean(axis=0)
raw_data -= mean
std = raw_data[:num_train_samples].std(axis=0)
raw_data /= std

接下来我们创建一个Dataset对象,它可以生成过去5天的数据批量,以及24小时之后的目标温度。由于数据集中的样本是高度冗余的(对于样本N和样本N+1,二者的大部分时间步是相同的),因此显式地保存每个样本将浪费资源。相反,我们将实时生成样本,仅保存最初的数组raw_data和temperature。

我们可以轻松地编写一个Python生成器来完成这项工作,但也可以直接利用Keras内置的数据集函数(timeseries_dataset_from_array()),从而减少工作量。一般来说,你可以将这个函数用于任意类型的时间序列预测任务。

理解timeseries_dataset_from_array()

为了理解timeseries_dataset_from_array()的作用,我们来看一个简单的例子。这个例子的大致思想是:给定一个由时间序列数据组成的数组(data参数),timeseries_dataset_from_array()可以给出从原始时间序列中提取的窗口(我们称之为“序列”)。

举个例子,对于data = [0, 1, 2, 3, 4, 5, 6]和sequence_length = 3,timeseries_dataset_from_array()将生成以下样本:[0, 1, 2], [1, 2, 3], [2, 3, 4], [3, 4,5], [4, 5, 6]。

你还可以向timeseries_dataset_from_array()传入targets参数(一个数组)。targets数组的第一个元素应该对应data数组生成的第一个序列的预期目标。因此,做时间序列预测时,targets应该是与data大致相同的数组,并偏移一段时间。

例如,对于data = [0, 1, 2, 3, 4, 5, 6, ...]和sequence_length = 3,你可以传入targets = [3,4, 5, 6, ...],创建一个数据集并预测时间序列的下一份数据。我们来试一下。

import numpy as np
from tensorflow import keras# 生成一个从0到9的有序整数数组
int_sequence = np.arange(10)
dummy_dataset = keras.utils.timeseries_dataset_from_array(# 序列将从[0, 1, 2, 3, 4, 5, 6]中抽样data=int_sequence[:-3],# 对于以data[N]开头的序列,其目标是data[N+3]targets=int_sequence[3:],# 序列长度是3个时间步sequence_length=3,# 序列批量大小为2batch_size=2,
)for inputs, targets in dummy_dataset:for i in range(inputs.shape[0]):print([int(x) for x in inputs[i]], int(targets[i]))

代码运行如下:

我们将使用timeseries_dataset_from_array()来创建3个数据集,分别用于训练、验证和测试,代码如下所示:

我们将使用以下参数值。

sampling_rate = 6:观测数据的采样频率是每小时一个数据点,也就是说,每6个数据点保留一个。

sequence_length = 120:给定过去5天(120小时)的观测数据。

delay = sampling_rate * (sequence_length + 24- 1):序列的目标是序列结束24小时之后的温度。创建训练数据集时,我们传入start_index = 0和end_index = num_train_samples,只使用前50%的数据。对于验证数据集,我们传入start_index =num_train_samples和end_index =num_train_samples + num_val_samples,使用接下来25%的数据。最后对于测试数据集,我们传入start_index =num_train_samples + num_val_samples,使用剩余数据。

创建3个数据集,分别用于训练、验证和测试:

sampling_rate = 6
sequence_length = 120
delay = sampling_rate * (sequence_length + 24 - 1)
batch_size = 256train_dataset = keras.utils.timeseries_dataset_from_array(raw_data[:-delay],targets=temperature[delay:],sampling_rate=sampling_rate,sequence_length=sequence_length,shuffle=True,batch_size=batch_size,start_index=0,end_index=num_train_samples)val_dataset = keras.utils.timeseries_dataset_from_array(raw_data[:-delay],targets=temperature[delay:],sampling_rate=sampling_rate,sequence_length=sequence_length,shuffle=True,batch_size=batch_size,start_index=num_train_samples,end_index=num_train_samples + num_val_samples)test_dataset = keras.utils.timeseries_dataset_from_array(raw_data[:-delay],targets=temperature[delay:],sampling_rate=sampling_rate,sequence_length=sequence_length,shuffle=True,batch_size=batch_size,start_index=num_train_samples + num_val_samples)

每个数据集都会生成一个元组(samples, targets),其中samples是包含256个样本的批量,每个样本包含连续120小时的输入数据;targets是包含相应的256个目标温度的数组。请注意,因为样本已被随机打乱,所以一批数据中的两个连续序列(如samples[0]和samples[1])不一定在时间上接近。我们来查看数据集的输出,如下代码所示:

查看一个数据集的输出

for samples, targets in train_dataset:print("samples shape:", samples.shape)print("targets shape:", targets.shape)break

演绎如下:


咱们先告一段落,下篇文章继续。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/271963.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【框架设计】MVC、MVP、MVVM对比图

1. MVC(Model-View-Controller) 2. MVP(Model-View-Presenter) 3. MVVM(Model-View-ViewModel)

ChatGPT Plus 支付出现「您的银行卡被拒绝/your card has been declined」怎么办?

ChatGPT Plus 支付出现「您的银行卡被拒绝/your card has been declined」怎么办? 在订阅 ChatGPT Plus 或者 OpenAI API 时,有时候会出现已下报错 : Your card has been declined. 您的银行卡被拒绝 出现这种错误,有以下几个解…

创邻科技获评环紫金港创新生态圈智源创新企业

3月1日,由杭州城西科创大走廊管理委员会指导,中共杭州市西湖区委员会、西湖区人民政府主办的“环紫金港创新生态圈”行动推进大会暨2024年紫金港科技城经济高质量发展大会在杭州举办。凭借重要的生态位置和创新业务成果,创邻科技受邀参会并被…

瑞芯微 | I2S-音频基础分享

1. 音频常用术语 名称含义ADC(Analog to Digit Conversion)模拟信号转换为数字信号AEC(Acoustic Echo Cancellor)回声消除AGC(Automatic Gain Control)自动增益补偿,调整MIC收音量ALSA&#xf…

深入探索Transformer时代下的NLP革新

《基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处理》主要聚焦于如何使用Python编程语言以及深度学习框架如PyTorch和TensorFlow来构建、训练和调整用于自然语言处理任务的深度神经网络架构,特别是以Transformer为核心模型的架构。 书中详细介绍了Transf…

07.axios封装实例

一.简易axios封装-获取省份列表 1. 需求:基于 Promise 和 XHR 封装 myAxios 函数,获取省份列表展示到页面 2. 核心语法: function myAxios(config) {return new Promise((resolve, reject) > {// XHR 请求// 调用成功/失败的处理程序}) …

【嵌入式高级C语言】9:万能型链表懒人手册

文章目录 序言单向不循环链表拼图框架搭建 - Necessary功能拼图块1 创建链表头信息结构体 - Necessary2 链表头部插入 - Optional3 链表的遍历 - Optional4 链表的销毁 - Necessary5 链表头信息结构体销毁 - Necessary6 获取链表中节点的个数 - Optional7 链表尾部插入 - Optio…

git克隆过程报错

设置 git config 来强制 git 使用 HTTP 1.1 git config --global http.version HTTP/1.1想将其设置回 HTTP2,你可以这样做 git config --global http.version HTTP/2

飞驰云联CEO朱旭光荣获“科技领军人才”称号

2024年2月29日,苏州工业园区“优化营商环境暨作风效能建设大会”成功举办,会上公布了2023年度苏州工业园区第十七届第一批金鸡湖科技领军人才名单,Ftrans飞驰云联创始人兼CEO朱旭光先生凭借在数据安全以及文件交换领域取得的突出成果&#xf…

Feign实现微服务间远程调用续;基于Redis实现消息队列用于延迟任务的处理,Redis分布式锁的实现;(黑马头条Day05)

目录 延迟任务和定时任务 使用Redis设计延迟队列原理 点评项目中选用list和zset两种数据结构进行实现 如何缓解Redis内存的压力同时保证Redis中任务能够被正确消费不丢失 系统流程设计 使用Feign实现微服务间的任务消费以及文章自动审核 系统微服务功能介绍 提交文章-&g…

【k8s管理--两种方式安装prometheus】

1、k8s的监控方案 1.1 Heapster Heapster是容器集群监控和性能分忻工具,天然的支持Kubernetes和CoreOS。 Kubernetes有个出名的监控agent–cAdvisor。在每个kubernetes Node上都会运行cAdvisor,它会收集本机以及容器的监控数(cpu,memory,filesystem,ne…

【.NET Core】深入理解IO - FileSteam流

【.NET Core】深入理解IO - FileSteam流 文章目录 【.NET Core】深入理解IO - FileSteam流一、IO流概述二、文件流FileStream2.1 FileStream概述2.2 FileStream检测流位置更改2.3 FileStream构造函数2.4 FileStream常用属性2.5 FileStream.Read方法2.6 FileStream.Write方法2.7…

尚硅谷JavaScript高级学习笔记

01 准备 JavaScript中函数是对象。我们后续描述构造函数的内存模型时,会将构造函数称为构造函数对象。 02 数据类型 typeof 运算符来查看值的类型,它返回的是类型的字符串值 会做数据转换 03 相关问题 04数据_变量_内存 05相关问题1 06相关问题2 …

植物病虫害:YOLO玉米病虫害识别数据集

玉米病虫害识别数据集:玉米枯萎病,玉米灰斑病,玉米锈病叶,粘虫幼虫,玉米条斑病,黄二化螟,黄二化螟幼虫7类,yolo标注完整,3900多张图像,全部原始数据&#xff…

学习人工智能:吴恩达《AI for everyone》2019 第4周:歧视,攻击,发展中国家,就业

吴恩达 Andrew Ng, 斯坦福大学前教授,Google Brain项目发起人、领导者。 Coursera 的联合创始人和联合主席,在 Coursera 上有十万用户的《机器学习》课程;斯坦福大学计算机科学前教授。百度前副总裁、前首席科学家;谷…

WPF 消息提示 类似toast方式

WPF里面的消息提示一般都是MessageBox.Show(),这种样式不是很好看,所以就想办法重新搞了一个类似弹出消息的功能。原理很简单,就是弹出一个新窗体,然后等几秒窗体自动关闭。 先上效果图: 新建一个MsgHelper.cs类&…

Linux文件与文件系统的压缩

文章目录 Linux文件与文件系统的压缩Linux系统常见的压缩命令gzip,zcat/zmore/zless/zgrepbzip2,bzcat/bzmore/bzless/bzgreppxz,xzcat/xzmore/xzless/xzgrepgzip,bzip2,xz压缩时间对比打包命令:tar打包命令…

window vscode安装node.js

window vscode安装node.js 官网下好vscode 和nodejs 选.msi的安装 点这个安装 下载完 继续安装 完毕后倒杯水喝个茶等2分钟 重启VScode 或者在cmd 运行 npm -v node -v 显示版本号则成功

Prompt进阶系列1:LangGPT(从编程语言反思LLM的结构化可复用提示设计框架)

Prompt进阶系列1:LangGPT(从编程语言反思LLM的结构化可复用提示设计框架) 大语言模型 (Large Language Models, LLMs) 在不同领域都表现出了优异的性能。然而,对于非AI专家来说,制定高质量的提示来引导 LLMs 是目前AI应用领域的一项重要挑战。现有的提示…

Flink 物理执行图

文章目录 物理执行图一、Task二、ResultPartition三、ResultSubpartition四、InputGate五、InputChannel 物理执行图 JobManager根据ExecutionGraph对作业进行调度,并在各个TaskManager上部署任务。这些任务在TaskManager上的实际执行过程就形成了物理执行图。物理…