【论文阅读笔记】TS2Vec: Towards Universal Representation of Time Series

【论文阅读笔记】TS2Vec: Towards Universal Representation of Time Series

摘要

  • 这段文字介绍了一个名为TS2Vec的通用框架,用于学习时间序列数据的表示,可以在任意语义层次上进行。与现有方法不同,TS2Vec通过对增强的上下文视图进行层次化的对比学习,这使得每个时间戳都能获得一种稳健的上下文表示。此外,为了获取时间序列中任意子序列的表示,我们可以简单地对相应时间戳的表示进行聚合。

  • 为了评估时间序列表示的质量,研究者进行了广泛的时间序列分类任务实验。结果显示,TS2Vec在125个UCR数据集和29个UEA数据集上,相较于现有的无监督时间序列表示方法取得了显著的提升。学到的时间戳级别表示也在时间序列预测和异常检测任务中获得了优越的成绩。一个在学习到的表示基础上训练的线性回归模型,其性能超过了之前时间序列预测的最好结果。进一步地,研究者展示了一种简单的方法,用于将学习到的表示应用于无监督异常检测,并在文献中设定了新的最佳结果。此外,相关源代码已经公开在GitHub上供大家使用。

Introduction

  • 时间序列的重要性:时间序列数据在多个领域内扮演着核心角色,能够帮助进行预测和模型构建。

  • 现有研究的局限:许多研究专注于学习整体的实例级表示,这对于聚类和分类等任务非常有效。然而,对于需要细粒度表示的任务,如时间序列预测和异常检测,这些表示可能不够充分。

  • 对比损失的使用:最近的研究开始使用对比损失来学习时间序列的内在结构,但现有方法仍然存在限制,例如不能区分不同粒度的多尺度上下文信息。

  • 多尺度特征的重要性:尺度不变的信息是时间序列任务成功的关键,但少数现有方法考虑到了这一点。多尺度特征能提供不同层次的语义,并改善学到的表示的泛化能力。

  • 领域偏差的问题:现有无监督时间序列表示方法多受计算机视觉和自然语言处理领域的启发,这些领域的假设(如变换不变性)可能不适用于时间序列建模。

  • TS2Vec框架的贡献:为了解决这些问题,提出了TS2Vec框架,它利用层次化对比学习在不同时间维度上区分正负样本,通过对应时间戳的最大池化来获取任意子序列的整体表示,从而能在多个分辨率捕捉时间数据的上下文信息,并生成任何粒度的细粒度表示。此外,TS2Vec的对比目标基于增强的上下文视图,以确保相同子序列在不同上下文中的表示一致性

论文的主要贡献

  • 提出TS2VEC框架:作者提出了一个统一的框架,TS2VEC,用于学习时间序列任意子序列的上下文表示,覆盖各种语义,这是首次提出的一种通用的表示方法,适用于时间序列领域的所有任务,包括但是不限于分类,预测和异常检测
  • 创新设计:
    • 层次化的对比方法:为了捕获多尺度的上下文信息,TS2VEC采用一个实力层面和时间维度上的层次化对比方法,这种方法有助于更准确地反映时间序列数据的内在结构和动态变化
    • 上下文一致性的正样本选择:和TS2VEC提出上下文一致性的概念来选择正样本,这对于具有多样分布和尺度的时间序列数据来说更合适,通过实验证明,该方法对于具有缺失值的时间序列具有较高的鲁棒性,而且通过剖析研究验证了层次化对比和上下文一致性的有效性
    • TS2Vec在三个基准时间序列任务(分类、预测和异常检测)上超越了现有的最佳方法。例如,在125个UCR数据集上平均提高了2.4%的准确率,在29个UEA数据集上提高了3.0%

Method

定义

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

模型架构

  • 架构概述:TS2Vec框架的核心是通过编码器从输入时间序列中提取表示,该过程涉及时间对比损失和实例对比损失的联合优化。整体目标是通过层次化框架在多个尺度上求和总损失,以增强不同子序列间的一致性
  • 编码器组成:
    • 输入投影层:这是一个全连接层,负责将观测到的每一个时间戳xi,t的数据映射到高维潜在向量Zi,t
    • 时间戳掩蔽模块:该模块再随机选择的时间戳处掩蔽潜在向量,生成增强的上下文视图,选择掩蔽潜在向量而不是原始值是因为时间需里的值范围可能是无界的,难以为原始数据找到一个特殊的标记
    • 扩张卷积神经网络:包括是个残差块,每一个快包含两层一维卷积层,具有扩张参数,扩张卷积通过增加感受野来加强对不同领域的表达能力
  • 操作机制:通过这些组件,TS2VEC能够处理和分析输入时间序列,抽取每一个时间戳处的上下文表示,

正样本对构建

  • 正样本对的构建:
    • 子序列一致性:鼓励时间序列的表示和采样子序列的表示更接近
    • 时间一致性:通过选择相邻段作为正样本来强制表示的局部平滑性
    • 变换一致性:通过对输入序列应用不同的变换,来促使模型学习到不变性表示
    • 子序列一致性存在水平位移时受到影响
    • 时间一致性在出现异常时导致假的正样本的问题
  • 上下文一致性策略
    • 将两个增强上下文中相同时间戳的视为正样本,通过使用时间戳掩蔽和随机裁剪来生成上下文
    • 优势:掩蔽和裁剪不会改变时间序列的幅度,这对时间序列分析比较重要,这些分析通过强制每一个时间戳在不同上下文中重建自己,一高学习表示的鲁棒性
    • 在训练阶段,随机掩蔽实例的时间戳来产生新的上下文视图。具体而言,掩蔽在输入投影层后得到的潜在向量,使用二元掩码(从伯努利分布中独立采样,p=0.5)沿时间轴进行。
    • 随机裁剪:同样在训练阶段使用,随机选择两个重叠的时间段,确保在重叠部分的上下文表示一致。随机裁剪有助于学习位置不敏感的表示,避免表示塌陷
  • 上下文一致性策略为时间序列的对比学习提供了一种有效的正样本对构建方式,有助于提升模型的泛化能力和鲁棒性

层次换对比损失的计算过程

  • 层次换对比损失旨在使得编码器能够在多种尺度上学习表示

  • 层次化对比损失的计算过程

    • 初始化损失:计算输入r和参考输入r0之间的对比损失Ldual(r,r0)
    • 迭代最大池化:
      • 在时间轴上对r和ro进行最大池化,使用的核大小是2,这一步骤逐渐降低时间序列的时间维度,从而在更高的语义层次上对时间序列进行编码
      • 在每一次池化过后,重新计算这两个池化之后的表示之间的对比损失,并且累加到总存世Lhier
      • 归一化损失:完成所有池化步骤之后,将累计的损失除以池化次数d,以得到平均化的层次对比损失
  • 对比其他工作:

    • 与T-Loss比较:仅仅在实例层面执行对比,没有考虑时间戳层面的对比
    • 与TS-TCC对比:TS-TCC仅仅在时间戳层面上执行对比,没有涵盖更高的语义层次
    • 与TNC比较:TNC鼓励在特定粒度层面上的时间局部平滑性,但是没有想TS2VEC封装不同层次的表示
  • 通过结合实例级和时间级的对比损失,TS2Vec的模型能够更好地编码时间序列的分布,这在所有的粒度层面上进行

两种对比损失

  • 时间对比损失

    • 专注于时间序列的同一个时间戳上面,从两个不同的视角的表示作为正样本,而不同的时间戳的表示作为负样本
      外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
  • 实例对比损失

    • 实例对比损失在时间戳t上面,将来自同一时间序列的不同实例的表示作为负样本

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 综合这两种损失,时间对比损失帮助模型学习时间动态,而实例对比损失帮助模型区分不同实例之间的差异

实验

分类

  • 数据集:使用UCR归档(128个单变量数据集)和UEA归档(30个多变量数据集)进行评估。
  • 对比方法:TS2Vec与其他几种无监督时间序列表示学习方法进行比较,包括T-Loss、TS-TCC、TST和TNC
  • 性能提升:TS2Vec在UCR和UEA数据集上都显示出了显著的改进。具体来说,在125个UCR数据集上平均提高了2.4%的分类准确率,在29个UEA数据集上提高了3.0%。
  • 统计测试:通过使用Nemenyi测试的Critical Difference图来展示不同分类器在所有数据集上的平均排名情况,验证了TS2Vec在平均排名上显著优于其他方法。
  • 训练时间:在NVIDIA GeForce RTX 3090 GPU上,TS2Vec显示出了所有方法中最短的训练时间。这得益于其在一个批次内跨不同粒度应用对比损失,大大提高了表示学习的效率

时间预测

  • 数据集和比较模型:TS2Vec的性能与现有的SOTA方法在四个公开数据集上进行了比较,包括三个ETT数据集和Electricity数据集。比较的模型包括Informer, LogTrans, LSTnet, TCN(适用于单变量和多变量设置),N-BEATS(仅单变量设置),以及StemGNN(仅多变量设置)。
  • 评估指标:使用均方误差(MSE)和平均绝对误差(MAE)来评估预测性能。详细的预测结果(单变量和多变量预测的MSE和MAE)由于篇幅限制在附录中报告
  • 性能提升:TS2Vec在多数情况下建立了新的SOTA,平均MSE在单变量设置下降了32.6%,在多变量设置下降了28.2%。
    表示的通用性:学习到的表示只需为每个数据集学习一次,便可以直接应用于不同的预测范围 H,这通过线性回归模型实现,展示了学习表示的通用性。
  • 效率对比:在使用NVIDIA GeForce RTX 3090 GPU时,TS2Vec的训练和推断时间与Informer进行了比较。TS2Vec在训练阶段包括两个步骤:学习时间序列表示和为每个 训练一个线性回归器。推断阶段也包括两个步骤:对应时间戳的表示推断和通过训练好的线性回归器进行预测。TS2Vec的表示模型只需训练一次即可适用于不同的预测范围,无论是在训练还是推断阶段,TS2Vec都展示了优于Informer的效率。

检测

  • 在异常检测任务中,目标是判断时间序列中最后一个点xt是否为异常
  • TS2Vec通过比较掩蔽与未掩蔽输入得到的表示之间的差异来定义异常得分
  • 具体操作是:对于一个输入序列,TS2VEC会进行两次前向传播:第一次掩蔽最后一个观测值xt,第二次不进行掩蔽
  • 实验设置:每个时间序列样本按时间顺序分为两半,前半部分用于无监督训练,后半部分用于评估。
  • 性能比较:在正常设置中,TS2Vec在Yahoo数据集上的F1得分提高了18.2%,在KPI数据集上提高了5.5%。在冷启动设置中,F1得分在Yahoo数据集上提高了19.7%,在KPI数据集上提高了1.0%

消融实验

  • 验证不同组件的有效性进行的实验设计和结果

    • 不包含时间对比损失
    • 不包含实例对比损失
    • 不包含层次对比
    • 不适用随机裁剪
    • 不适用时间戳掩蔽
    • 不包含输入投影曾
  • 比较正样本对选择策略

    • 时间一致性:将一定距离内的时间戳作为正样本
    • 子序列一致性:随机选取同一时间序列的两个子序列作为正样本
  • 实验中还尝试将数据增强技术(如抖动、缩放和置换)应用于输入时间序列的不同视图。这些增强假设时间序列数据遵循某些不变性,但在多样化且不断变化的时间序列分布中,这种假设并不成立,因此增加这些增强后观察到性能下降。

  • 最后,为了验证模型架构的选择,研究者将扩张卷积神经网络(Dilated CNN)替换为LSTM和Transformer(参数大小相当)。结果显示,无论是LSTM还是Transformer,准确率都显著下降,证明了扩张CNN是处理时间序列的有效架构选择

缺失数据的鲁棒性

  • 时间戳掩蔽:这一策略使得网络能够在不完整的上下文中推断出表示,相当于在训练过程中模拟了缺失数据的情况,从而增强了模型对实际缺失情况的适应性。
  • 层次对比:此策略引入了长距离信息,帮助模型在周围信息不完整的情况下预测缺失的时间戳,这对于处理大量缺失值至关重要

总结

  • 层次化对比学习:TS2Vec采用层次化对比学习方法,能够在不同的尺度上捕捉和学习时间序列的关键特征,这种方法通过处理增强的上下文视图来学习尺度不变的表示。
  • 时间序列分类:通过将时间序列映射到有意义的空间中,TS2Vec改进了时间序列数据的分类准确性。
  • 时间序列预测:TS2Vec提供了有效的表示,这些表示有助于预测未来的时间序列值。
  • 异常检测:框架能够识别时间序列中的异常点,这对于许多实际应用如故障检测非常重要。
  • 数据的不完整性:在处理不完整数据时,TS2Vec展示了稳定的性能,其中层次化对比损失和时间戳掩蔽是保持性能的关键因素
  • 表示的可视化:通过可视化学习到的表示,验证了TS2Vec捕捉时间序列动态的能力。这种可视化有助于更好地理解模型如何处理和解释时间数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/318312.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis 实战1

SDS Redis 只会使用 C 字符串作为字面量, 在大多数情况下, Redis 使用 SDS (Simple Dynamic String,简单动态字符串)作为字符串表示。 比起 C 字符串, SDS 具有以下优点: 常数复杂度获取字符串…

每日一题(力扣213):打家劫舍2--dp+分治

与打家劫舍1不同的是它最后一个和第一个会相邻,事实上,从结果思考,最后只会有三种:1 第一家不被抢 最后一家被抢 2 第一家被抢 最后一家不被抢 3 第一和最后一家都不被抢 。那么,根据打家劫舍1中的算法 我们能算出在i…

Vmware虚拟机瘦身及Samba服务不可用问题解决

虚拟机磁盘空间膨胀是一个令人头疼的问题,特别是对许多搞开发的小伙伴。无论是做后台服务、嵌入式还是Android开发,都面临着这个难题。首先,操作系统本身就已占用不少空间,更新安装包,再下载一些开源软件,剩…

解码Starknet Verifier:深入逆向工程之旅

1. 引言 Sandstorm为: 能提交独立proof给StarkWare的Ethereum Verifier,的首个开源的STARK prover。 开源代码见: https://github.com/andrewmilson/sandstorm(Rust) L2Beat 提供了以太坊上Starknet的合约架构图&…

Docker私有仓库搭建

下载离线镜像 检查Docker环境 docker versionDocker Hub 中registry 最新版本为 2.8.3,详见 registry . https://hub.docker.com/_/registry/tags 下载镜像 docker pull registry:2.8.3离线导出,方便在无法联网的设备上安装 docker image save regi…

【QT学习】12.UDP协议,广播,组播

一。Udp详细解释 UDP(User Datagram Protocol)是一种无连接的传输层协议,它提供了一种简单的、不可靠的数据传输服务。与TCP相比,UDP不提供可靠性、流量控制、拥塞控制和错误恢复等功能,但由于其简单性和低开销&#x…

单片机编程实例400例大全(100-200)

今天继续分享单片机编程实例第100-200例。 今天的实例会比前面100复杂一些,我大概看了下,很多都具备实际产品的参考价值。 今天继续分享单片机编程实例第100-200例。 今天的实例会比前面100复杂一些,我大概看了下,很多都具备实际…

【Java】HOT100 贪心算法

目录 理论基础 一、简单贪心 LeetCode455:分发饼干 二、中等贪心 2.1 序列问题 LeetCode376:摆动序列 2.2 贪心股票问题 LeetCode121:买卖股票的最佳时机 LeetCode121:买卖股票的最佳时机ii 2.3 两个维度权衡问题 LeetCode135&…

GPT是什么?直观解释Transformer | 深度学习第5章 【3Blue1Brown 官方双语】

【官方双语】GPT是什么?直观解释Transformer | 深度学习第5章 0:00 - 预测,采样,重复:预训练/生成式/Transformer模型 3:03 - Transformer 的内部结构 6:36 - 本期总述 7:20 - 深度学习的大框架 12:27 - GPT的第一层:…

NIO(非阻塞I/O)和IO(阻塞I/O)详解

文章目录 一、NIO(Non-blocking I/O,非阻塞I/O)1、Channel(通道)与Buffer(缓冲区)1.1、使用ByteBuffer读取文件1.2、ByteBuffer 方法1.2、ByteBuffer 结构1.3、字符串与 ByteBuffer 互转1.4 Sca…

Github查找代码项目高级语法(含科研项目查找案例)

基础搜索语法 1.搜索名字 in:name XXX 2.搜索描述 in:description XXX 3.搜索readme in:readme XXX 4.根据stars stars:>2000 5.根据fork fork:>3000 6.仓库大小搜索 size:>5000 [注意: 该处单位大小为 k] 7.根据更新时间 …

Spark01 —— Spark基础

文章目录 Spark01 —— Spark基础一、为什么选择Spark?1.1 MapReduce编程模型的局限性1.2 Spark与MR的区别1.3 版本1.4 优势1.5 Spark其他知识1、多种运行模式2、技术栈3、spark-shell:Spark自带的交互式工具4、Spark服务 二、Spark的基础配置三、Spark实…

Github 2024-05-03 Java开源项目日报 Top9

根据Github Trendings的统计,今日(2024-05-03统计)共有9个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Java项目9Kotlin项目1C++项目1libGDX: 跨平台Java游戏开发框架 创建周期:4284 天开发语言:Java, C++协议类型:Apache License 2.0Star数量:2…

【深度学习基础(2)】深度学习之前:机器学习简史

文章目录 一. 深度学习的起源1. 概率建模--机器学习分类器2. 早期神经网络--反向传播算法的转折3. 核方法 -- 忽略神经网络4. 决策树、随机森林和梯度提升机5. 神经网络替代svm与决策树 二. 深度学习与机器学习有何不同 可以这样说,当前工业界所使用的大部分机器学习…

【树 图论 阶乘 组合 深度优先搜索】1916. 统计为蚁群构筑房间的不同顺序

本文设计知识点 树 图论 阶乘 组合 深度优先搜索 图论知识汇总 LeetCoce1916. 统计为蚁群构筑房间的不同顺序 你是一只蚂蚁,负责为蚁群构筑 n 间编号从 0 到 n-1 的新房间。给你一个 下标从 0 开始 且长度为 n 的整数数组 prevRoom 作为扩建计划。其中&#xff0…

区块链 | IPFS:CID

🦊原文:Anatomy of a CID 🦊写在前面:本文属于搬运博客,自己留存学习。 1 CID 在分布式网络中与其他节点交换数据时,我们依赖于内容寻址(而不是中心化网络的位置寻址)来安全地定位…

第8章 软件工程

一、软件工程概述 (一)软件危机 1、含义:落后的软件生产方式无法满足迅速增长的计算机软件需求,从而导致软件开发与维护过程中出现一系列严重问题的现象。 2、解决方案:引入软件工程的思想。 (二&#x…

【MySQL | 第十篇】重新认识MySQL索引匹配过程

文章目录 10.重新认识MySQL索引匹配过程10.1匹配规则10.2举例&#xff1a;联合索引遇到范围查询&#xff08;>、<、between、like&#xff09;10.2.1例子一&#xff1a;>10.2.2例子二&#xff1a;>10.2.3例子三&#xff1a;between10.2.4例子四&#xff1a;like 10…

一对一WebRTC视频通话系列(一)—— 创建页面并显示摄像头画面

本系列博客主要记录WebRtc实现过程中的一些重点&#xff0c;代码全部进行了注释&#xff0c;便于理解WebRTC整体实现。 一、创建html页面 简单添加input、button、video控件的布局。 <html><head><title>WebRTC demo</title></head><h1>…

机器学习之基于Tensorflow(LSTM)进行多变量时间序列预测股价

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 项目简介&#xff1a;机器学习之基于TensorFlow&#xff08;LSTM&#xff09;进行多变量时间序列预测股价 一、项目…