时序论文31|NIPS24自注意力机制真的对时序预测任务有效吗?

图片

论文标题:Are Self-Attentions Effective for Time Series Forecasting?

论文链接:https://arxiv.org/pdf/2409.18696

代码链接:https://github.com/dongbeank/CATS

前言

本文将重点转向探究自注意力机制在其中的有效性,提出仅含交叉注意力的CATS架构。

当前时间序列预测还是以Transformer为backbone的模型占据主导,但其有效性一直存争议,比如各类线性模型Dlinear、FITS等表现都比很多Transformer架构好。那么问题到底出在哪?其实一个关键问题是评估 Transformer 中哪些元素对于时间序列建模是必要的,哪些是不必要的。

Dlinear也提到了这个问题,但他们的分析仅限于用线性层替代注意力层。但是, Transformer架构时间信息丢失的问题(即自注意力机制的置换不变性和反序特性)主要是由自注意力机制的使用导致的,那么作者想到先讨论和评估自注意力机制是否对时序预测有正面作用。

本文工作

本文提出了仅含交叉注意力的时间序列 Transformer(CATS)这一新颖预测架构,通过去除自注意力机制并挖掘交叉注意力潜力简化原始架构,将未来预测范围相关参数设为查询项、过去时间序列数据作键值对以增强参数共享与长时预测性能,实验表明其对长输入序列均方误差最低、参数更少,还能借特定预测范围注意力图清晰呈现预测推导过程,且在多时间序列数据集上较之前的 Transformer 模型性能更优、参数和内存消耗更低。

01 为什要去除自注意力机制

这一部分,作者基于PatchTST的三组模型实验来进行论证:一是原始的 PatchTST,它采用长度为 16、步长为 8 的重叠块(图 a);二是经过修改的 PatchTST,其使用长度为 24 的非重叠块(图 b);三是将自注意力机制替换为线性嵌入层的版本,同样采用长度为 24 的非重叠块(图 c)。这样的设置能够在控制块重叠影响的同时,分离出自注意力机制对时间信息保留的影响。

图片

其中带有线性嵌入的版本(图 c)对时间信息的捕捉最为清晰,这表明自注意力机制本身对于捕捉时间信息而言可能并非是必要的,用线性层替代自注意力机制不仅能够捕捉清晰的时间模式,另一个好处是能提升性能,尤其是在较长的预测周期。

02 重新思考Transformer设计

下图展示了现有几种建模架构。图a和图b是传统的Transformer架构,图b仅含编码器模块,结合上面的实验可以发现Transformer架构很大程度上依赖自注意力机制,而这可能会导致时间信息丢失。图c是线性模型,尽管这种做法减少了计算量,并有可能避免一些时间信息丢失的问题,但它可能难以捕捉复杂的时间依赖关系。

图片

那么读到这里,作者的意图也就很明了了:提出仅含交叉注意力的时间序列Transformer(CATS),如图d所示,去除了所有自注意力层。

03 本文模型

图片

CATS架构含三个关键组件:以未来为查询的交叉注意力机制、跨预测范围的参数共享与查询自适应掩码

通过未来作为查询的交叉注意力(Cross-Attention via Future as Query):CATS摒弃自注意力机制,聚焦交叉注意力。将未来预测范围相关参数设为查询,过去时间序列数据作键值对。如预测未来 H 步,将未来 H 步预测参数设查询 Q,输入时间序列 X 拆分成键 K 与值 V,经线性投影处理后用于交叉注意力计算。

跨预测范围的参数共享(Parameter Sharing across Horizons):为充分利用交叉注意力提升参数共享,CATS在不同预测范围共享参数。在预测未来 H 步时,对查询 Q 处理并与键 K、值 V 计算交叉注意力得分,经 softmax 与线性投影得预测值。

查询自适应掩码(Query-Adaptive Masking):这是 CATS提升性能的创新点。预测未来值时,切断输入时间序列信息,仅查询影响预测,通过掩码实现。掩码依概率 p 决定是否掩盖输入序列元素,输入序列 X 与掩码 M 逐元素相乘得新输入序列。掩码用于各层交叉注意力机制前,处理后的输入聚焦预测查询,避免干扰。

本文实验

图片


大家可以关注我【科学最top】,第一时间follow时序高水平论文解读!!!

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/490351.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ip_done

文章目录 路由结论 IP分片 数据链路层重谈Mac地址MAC帧报头局域网的通信原理MSS,以及MAC帧对上层的影响ARP协议 1.公司是不是这样呢? 类似的要给运营商交钱,构建公司的子网,具有公司级别的入口路由器 2.为什么要这样呢?? IP地…

计算机网络错题

文章目录 码分复用透明传输差错检测停止-等待协议回退N帧协议CSMA/CD协议以太网交换机Vlanip地址的无分类编制方法ip地址的应用规划ip数据包的发送和转发过程路由信息协议IPI2016201720202022 2.5信道 码分复用 透明传输 差错检测 停止-等待协议 回退N帧协议 CSMA/CD协议 以太网…

2024 年 9 月区块链游戏研报:行业回暖,Telegram 游戏引发热潮

作者:Stella L (stellafootprint.network) 数据来源:Footprint Analytics Games Research Page 9 月份,区块链游戏代币的市场总值增长了 29.2%,达到 232 亿美元,日活跃用户(DAU)数量上升了 1…

Https身份鉴权(小迪网络安全笔记~

附:完整笔记目录~ ps:本人小白,笔记均在个人理解基础上整理,若有错误欢迎指正! 5.2 Https&身份鉴权 引子:上一篇主要对Http数据包结构、内容做了介绍,本篇则聊聊Https、身份鉴权等技术。 …

ORACLE逗号分隔的字符串字段,关联表查询

使用场景如下: oracle12 以前的写法: selectt.pro_ids,wm_concat(t1.name) pro_names from info t,product t1 where instr(,||t.pro_ids|| ,,,|| t1.id|| ,) > 0 group by pro_ids oracle12 以后的写法: selectt.pro_ids,listagg(DIS…

MySQL八股文

MySQL 自己学习过程中的MySQL八股笔记。 主要来源于 小林coding 牛客MySQL面试八股文背诵版 以及b站和其他的网上资料。 MySQL是一种开放源代码的关系型数据库管理系统(RDBMS),使用最常用的数据库管理语言–结构化查询语言(SQL&…

使用echarts实现3d柱状图+折线图

以下代码有问题请直接问国内直连GPT/Claude HTML 需要注意threeDchart一定要设置宽度高度&#xff0c;不然图不显示,然后echarts版本不要太低&#xff0c;不然也不显示 <div id"threeDchart" class"threeDchart"></div>js set3DBarChart2(dat…

基地址和偏移地址的理解

在之前的一篇博客介绍了怎么找阳光地址&#xff1a;CE和Ollydbg简单介绍&#xff0c;但是那个地址在重启游戏后会变化&#xff0c;这次会讲解为什么这个阳光的地址会变化&#xff0c;以及对于变化的地址怎么处理。 推荐博客&#xff1a;CE找基址原理 1.阳光的地址为什么会变化…

C语言:详解指针最终篇(3)

一.字符指针变量 在指针的类型中我们知道有一种指针类型为字符指针char*。一般我们这样使用&#xff1a; 我们来看另一种使用方式&#xff1a; 这个常量字符串就相当于它本身首字符的地址&#xff0c;收地址加上方括号下标就可以访问该表达式中对应下标的元素。可以把该表达式…

【深度学习】 零基础介绍卷积神经网络(CNN)

零基础介绍 卷积神经网络&#xff08;CNN&#xff0c;Convolutional Neural Network&#xff09;是深度学习中的一种神经网络&#xff0c;特别擅长处理图像和视频等有空间结构的数据。 假设我们在做一个“照片分类”的任务&#xff0c;比如判断一张照片中是猫还是狗。下面用一…

Dual-Write Problem 双写问题(微服务)

原文链接https://www.confluent.io/blog/dual-write-problem/ 双写问题发生于当两个外部系统必须以原子的方式更新时。 问题 说有人到银行存了一笔钱&#xff0c;触发 DepositFunds 命令&#xff0c;DepositFunds 命令被发送到Account microservice。 Account microservice需…

ReactPress最佳实践—搭建导航网站实战

Github项目地址&#xff1a;https://github.com/fecommunity/easy-blog 欢迎Star。 近期&#xff0c;阮一峰在科技爱好者周刊第 325 期中推荐了一款开源工具——ReactPress&#xff0c;ReactPress一个基于 Next.js 的博客和 CMS 系统&#xff0c;可查看 demo站点。&#xff08;…

什么叫ip地址一样?网络ip地址一样说明什么

在探索网络世界的奥秘中&#xff0c;IP地址作为网络设备的唯一身份标识&#xff0c;其重要性不言而喻。然而&#xff0c;当我们遇到“IP地址一样”的情况时&#xff0c;不禁会产生诸多疑问&#xff1a;这究竟意味着什么&#xff1f;是否会对网络产生影响&#xff1f;虎观代理小…

C# 探险之旅:第三十二节 - 类型class之(方法重载Overloading):魔法技能的大变身!

嘿&#xff0c;各位勇敢的探险家们&#xff01;欢迎再次踏上C#的奇幻旅程。今天&#xff0c;我们要一起探索一个超级有趣的魔法技巧——方法重载&#xff08;Overloading&#xff09;&#xff01;想象一下&#xff0c;你有一个超级技能&#xff0c;但是这个技能可以根据不同的情…

kubervirt使用与运行策略

三、KubeVirt基本命令 3.1查看virtctl版本&#xff0c;说明安装成功 [rootk8s-master ~]# virtctl version 3.2创建和管理虚拟机 列出所有可用的虚拟机实例 [rootmaster ~]# kubectl get vmi -n <namespace> 参数-n用于指定命名空间 查看特定虚拟机实例的详细信息 […

[Pro Git#3] 远程仓库 | ssh key | .gitignore配置

目录 1. 分布式版本控制系统的概念 2. 实际使用中的“中央服务器” 3. 远程仓库的理解 4. 新建远程仓库 5. 克隆远程仓库 6. 设置SSH Key 实验 一、多用户协作与公钥管理 二、克隆后的本地与远程分支对应 三、向远程仓库推送 四、拉取远程仓库更新 五、配置Git忽略…

【python因果库实战2】使用银行营销数据集研究营销决策的效果2

目录 联系方式的效应 逆概率加权&#xff1a;首次尝试 联系方式的效应 我们已经完成了大部分艰苦的工作&#xff0c;即理解数据并识别处理变量和混杂因素。现在我们可以开始使用 Causal Inference 360 的工具了。 我们将首先研究联系方式 contact 的因果效应。具体来说&…

数据结构初阶---二叉树---堆

一、树 1.树的概念 树是一种非线性的数据结构&#xff0c;由n(n≥0)个有限结点组成的一个有层次关系的集合。形状类似一棵倒挂的树&#xff0c;根朝上&#xff0c;分支向下。 根结点没有前驱结点&#xff0c;可以有n(n≥0)个后继结点。 其余结点被分为M个互不相交的集合&am…

运维 mysql、redis 、RocketMQ性能排查

MySQL查看数据库连接数 1. SHOW STATUS命令-查询当前的连接数 MySQL 提供了一个 SHOW STATUS 命令&#xff0c;可以用来查看服务器的状态信息&#xff0c;包括当前的连接数。 SHOW STATUS LIKE Threads_connected;这个命令会返回当前连接到服务器的线程数&#xff0c;即当前…

.NET6 WebAPI从基础到进阶--朝夕教育

1、环境准备 1. Visual Studio 2022 2. .NET6 平台支持 3. Internet Information Services 服务器&#xff08; IIS &#xff09; 4. Linux 服务器 【 CentOS 系统】 ( 跨平台部署使用 ) 5. Linux 服务器下的 Docker 容器&#xff08; Docker 部署使用&#xff09; …