时序论文17|ICML24 SAMformer:华为新奇视角讨论Transformer时序预测时的收敛优化问题

图片

论文标题:SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention

论文链接:https://arxiv.org/abs/2402.10198

代码链接:https://github.com/romilbert/samformer

前言

这篇文章发表于ICML2024,文章要解决的问题、以及思路都很新奇,非常推荐大家阅读。基于Transformer的架构在多变量长期预测方面,仍然不如更简单的线性基线。作者首先通过一个toy线性预测问题,展示了Transformer尽管具有很高的表达能力,但无法收敛到它们的真实解,并且注意力机制是导致这种低泛化能力的原因。

基于这一洞见,提出了一个浅层轻量级Transformer模型,当使用感知锐度优化进行优化时,能够成功地逃离不良局部最小值。通过实证表明,这一结果扩展到了所有常用的现实世界多变量时间序列数据集。特别是,SAMformer超越了当前最先进的方法,并且参数数量显著减少。

本文工作

而事实上近期的研究工作在将Transformer应用于时间序列数据时,主要集中于两个方向:一是提高效率,减少注意力机制的二次计算成本;二是对时间序列进行分解,以便更准确地捕捉其内在的模式。令人意外的是,目前在多变量时间序列预测领域占据领先地位的是更为简单的基于多层感知器(MLP)的模型,其性能明显超过了基于Transformer的方法。这引发了人们对于Transformer在实际应用中价值的思考。

作者认为:这些研究并未特别针对Transformer在训练过程中的不稳定性问题,这一问题在缺乏大规模数据支持时尤为突出。而这恰是其性能落后的原因。作者目标是证明,通过消除训练过程中的不稳定性,Transformer能够在多变量长期预测任务中表现出色。

Toy experiment

图片

如上图,作者首先展示了两种模型的训练和验证的损失,其中Oracle是理论上的最优解。我们发现,transformer在训练集上几乎和理论最优解一致,这有两种可能,一是transformer效果确实好,二是过拟合。那么我们结合右图看,很明显,transformer在验证集效果不佳,存在明显的泛化能力不足问题。这一部分作者对transformer结构进行了简化,并且设计了实验,详细过程可阅读原文,最终的结论是:Transformer的泛化能力不足主要归咎于注意力模块的训练问题

图片

为了深入理解这一现象背后的原理,作者分析了不同训练阶段的注意力矩阵。可以看到,在最初的训练周期之后,注意力矩阵非常接近单位矩阵,并且在此后几乎没有变化,尤其是softmax函数放大了矩阵值之间的差异。这揭示了注意力熵崩溃的现象,也是训练Transformer困难的原因之一。作者还建立了熵崩溃与Transformer损失景观锐度(Sharpeness landscape)之间的关系。Transformer收敛到一个比随机Transformer更锐利的最小值,同时具有显著更低的熵,Transformer的失败归咎于熵崩溃和训练损失的锐度,这里我理解是transformer更容易陷入局部最优。

本文模型

图片

如图所示,SAMformer模型引入了两项关键的改进。首先采用了可逆实例归一化(Reversible Instance Normalization,RevIN)来处理输入X,因为研究表明,这种技术在处理时间序列训练和测试数据之间的偏移问题时非常有效。其次,采用了SAM(Sharpness-Aware Minimization,谷歌在另一篇论文提出的优化方法)优化算法来训练模型,使其能够收敛到更平坦的局部最小值。综合这些改进,得到了图中展示的具有单一编码器的浅层Transformer模型。

SAMformer保留D×D矩阵表示的通道注意力,这与其它模型中使用的L×L矩阵表示的空间(或时间)注意力形成对比。这种方法带来了两个显著的优势:首先,它确保了特征排列的不变性,从而消除了通常位于注意力层之前的定位编码的需求;其次,由于在大多数现实世界数据集中D ≤ L,它能够降低时间和内存的复杂度。因此,通道注意力机制能够评估每个特征在所有时间步上的综合影响。

本文实验

SAMformer在性能上实现了对现有最先进技术的显著超越。在8个数据集中,它比其最接近的竞争对手TSMixer+SAM的性能提升了5.25%,比单独的TSMixer提升了14.33%,比最佳的多变量Transformer模型FEDformer提升了12.36%。此外,与标准的Transformer模型相比,SAMformer的性能提升了16.96%。SAMformer还超越了最近推出的iTransformer,以及专门为单变量时间序列预测设计的PatchTST模型。

图片


 

大家可以关注我的公众号【科学最top】,第一时间follow时序高水平论文解读!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/442363.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络——http和web

无状态服务器——不维护客户端 怎么变成有状态连接 所以此时本地建立代理—— 若本地缓存了——但是服务器变了——怎么办?

今日指数项目day8实战补充 - 角色处理器功能实现(上)

角色处理器 2.1 分页查询当前角色信息 1)原型效果 2)接口说明 功能描述: 分页查询当前角色信息 服务路径: /api/roles 服务方法:Post请求参数格式: {"pageNum":1,"pageSize":10 }响…

Vue 项目文件大小优化

优化逻辑 任何优化需求,都有一个前提,即可衡量。 那 Vue 加载速度的优化需求,本质上是要降低加载静态资源的大小。 所以,优化前,需要有一个了解项目现状的资源加载大小情况。 主要分 3 步走: 找到方法测…

Ubuntu24.04远程开机

近来在几台机器上鼓捣linux桌面,顺便研究一下远程唤醒主机。 本篇介绍Ubuntu系统的远程唤醒,Windows系统的唤醒可搜索相关资料。 依赖 有远程唤醒功能的路由器(当前一般都带这个功能)有线连接主机(无线连接有兴趣朋友…

jmeter学习(4)提取器

同线程组https://blog.csdn.net/vikeyyyy/article/details/80437530 不同线程组 在JMeter中,正则表达式提取的参数可以跨线程组使用。 通过使用Beanshell后置处理器和属性设置函数,可以将提取的参数设置为全局变量,从而在多个线程组之间共享…

电子摄像头分割系统源码&数据集分享

电子摄像头分割系统源码&数据集分享 [yolov8-seg-C2f-DWR&yolov8-seg-C2f-ContextGuided等50全套改进创新点发刊_一键训练教程_Web前端展示] 1.研究背景与意义 项目参考ILSVRC ImageNet Large Scale Visual Recognition Challenge 项目来源AAAI Glob…

大多数人不知道的:线程池CallerRunsPolicy()拒绝策略

总所周知,java里面线程池的四个拒绝策略 AbortPolicy 丢弃并抛出RejectedExecutionException异常 DiscardPolicy 直接丢弃 DiscardOldestPolicy 直接丢弃最前面的任务,尝试执行新任务 CallerRunsPolicy 由调用线程池的线程处理任务&a…

Ascend C 自定义算子开发:高效的算子实现

Ascend C 自定义算子开发:高效的算子实现 在 Ascend C 平台上,开发自定义算子能够充分发挥硬件的性能优势,帮助开发者针对不同的应用场景进行优化。本文将以 AddCustom 算子为例,介绍 Ascend C 中自定义算子的开发流程及关键技术…

乌班图基础设施安装之Mysql8.0+Redis6.X安装

简介:云服务器基础设施安装之 Mysql8.0Redis6.X 安装 Docker安装 # 按照依赖 yum install -y yum-utils device-mapper-persistent data lvm2 Docker Mirror 从去年开始. hub.docker.com[1] 在国内的访问速度极慢. 当时大家主要还是依赖国内的一些镜像源: 如中科…

CSS圆角

在制作网页的过程中,有时我们可能需要实现圆角的效果,以前的做法是通过切图(将设计稿切成便于制作成页面的图片),使用多个背景图像来实现圆角。在 CSS3 出现之后就不需要这么麻烦了,CSS3 中提供了一系列属性…

Python 卸载所有的包

Python 卸载所有的包 引言正文 引言 可能很少有小伙伴会遇到这个问题,当我们错误安装了一些包后,由于包之间有相互关联,导致一些已经安装的包无法使用,而由于我们已经安装了很多包,它们的名字我们并不完全知道&#x…

婚宴桌号查询指南

婚宴时如何查询桌号? 在婚宴这样的大型活动中,确保每位宾客都能迅速找到自己的座位是一项重要的任务。为了让宾客们能够轻松地找到自己的桌号,享受宴会的每一刻,我们特别准备了一份详细的婚宴桌号查询教程。本教程将指导您如何通过…

SQl注入文件上传及sqli-labs第七关less-7

Sql注入文件上传 1、sql知识基础 secure_file_priv 参数 secure_file_priv 为 NULL 时,表示限制mysqld不允许导入或导出。 secure_file_priv 为 /tmp 时,表示限制mysqld只能在/tmp目录中执行导入导出,其他目录不能导出导入。 secure_fil…

深度学习:CycleGAN图像风格迁移转换

目录 基础概念 模型工作流程 循环一致性 几个基本概念 假图像(Fake Image) 重建图像(Reconstructed Image) 身份映射图像(Identity Mapping Image) CyclyGAN损失函数 对抗损失 身份鉴别损失 Cyc…

《Python 安装指南:开启编程之旅》

《Python 安装指南:开启编程之旅》 在当今数字化的时代,编程已经成为一项越来越重要的技能。而 Python 作为一种简洁、高效且功能强大的编程语言,受到了众多开发者的青睐。无论是数据科学、人工智能、Web 开发还是自动化脚本编写&#xff0c…

绕过中间商,不用 input 标签也能搞定文件选择

💰 点进来就是赚到知识点!本文带你用 JS 实现文件选择功能,点赞、收藏、评论更能促进消化吸收! 🚀 想解锁更多 Web 文件系统技能吗?快来订阅专栏「Web 玩转文件操作」! 📣 我是 Jax,…

Axure中文版:原型设计新手必备工具,轻松上手!

原型设计是每位产品经理必备的核心技能。通过原型设计,可以提前测试产品与用户之间的交互,发现潜在问题,提升设计效率,节省开发成本。对于移动应用来说,原型相当于产品的说明书,有助于设计师和工程师之间进…

广联达 Linkworks办公OA Service.asmx接口存在信息泄露漏洞

漏洞描述 广联达科技股份有限公司以建设工程领域专业应用为核心基础支撑,提供一百余款基于“端云大数据”产品/服务,提供产业大数据、产业新金融等增值服务的数字建筑平台服务商。广联达OA存在信息泄露漏洞,由于某些接口没有鉴权&#xff0c…

计算机网络:物理层 —— 信道复用技术

文章目录 信道信道复用技术信道复用技术的作用基本原理常用的信道复用技术频分复用 FDM时分复用 TDM波分复用 WDM码分复用 CDM码片向量基本原理 信道 信道是指信息传输的通道或介质。在通信中,信道扮演着传输信息的媒介的角色,将发送方发送的信号传递给…

LSTM变种模型

一、GRU 1.概念 GRU(门控循环单元,Gated Recurrent Unit)是一种循环神经网络(RNN)的变体,旨在解决标准 RNN 在处理长期依赖关系时遇到的梯度消失问题。GRU 通过引入门控机制简化了 LSTM(长短期…