论文标题:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting
开源代码:https://github.com/DAMO-DI-ML/ICML2022-FEDformer
前言
FEDformer这篇文章发表于2022年的ICML。其实如果只比较性能的话,到如今其实早已被各类新模型超越。但是考虑到FEDformer一直是时序预测的一个重要baseline。此外,论文采用的周期趋势项分解策略,通过多次分解降低了输入输出的波动,这种策略在后续很多论文被反复使用,使得Transformer能够更好地学习长时序中的依赖关系,提升了预测精度。因此,尽管论文发表时间较早,我还是将其列入到了时序必读论文。
本文工作
以往的基于Transformer的时序预测模型通过Attention机制捕捉point-wise关系,但对全局信息、如总体趋势追踪仍不完善,如图1所示预测分布和实际分布差异很大。
思路:FEDformer将傅立叶变换与基于Transformer的方法相结合。利用大多数时序在傅立叶变换中具有稀疏表示的特性,将时域信息拆解为频域信息,随机采样部分频域,然后投影回时域,降低复杂度的同时过滤掉多数噪声,使得Transformer能够更好地学习长时序中的依赖关系,从而提升预测精度。
1. FEDformer的整体架构
FEDformer的结构也采用编码-解码器结构,核心包含三个子模块,分别是:Frequency Enhanced Block (FEB, 绿色块),Frequency Enhanced Attention (FEA, 红色块),Mixture Of Expert Decomposition Blocks (MOEDecomp, 黄色块)。
-
FEB用于在频率域进行表示学习,有两个子版本:FEB-f 和 FEB-w。FEB-f 使用Fourier基进行频率分析,将信号从时间域转换到频率域。FEB-w 使用Wavelet基也是一种频率分析方法,适用于非平稳信号。
-
FEA是作者设计的一种在频率域进行注意力机制的方法。与FEB类似,FEA也有两个子版本:FEA-f 和 FEA-w,分别基于Fourier和小波变换。
-
MOEDecomp用于从输入数据中提取季节性(seasonal)和趋势(trend)模式。
整体流程:如上图所示,编码器部分输入首先经过FEB模块,同时MOEDecomp块将数据分解为趋势和周期特征,其中周期特征保留并交下层进行学习,趋势特征被丢弃。而在解码器部分,同样经过MOEDecomp,保留周期特征,并交下层学习,不同之处在于通过频域注意力机制FEA模块对编码器周期特征和解码器周期特征进行交互。
核心模块
01-Frequency Enhanced Block (FEB)
这一模块实现信号从时域到频域的相互转换,有两个版本基于傅立叶变换和小波变换。具体来说:首先,将输入从时域通过线性变换q = x·w投影到频域。然后,在投影产生的频域上进行随机采样,如下面的公式所示。由于采样得出的序列长度远低于原序列(M<<N),因此这样好处在于降低了计算复杂度。作者认为采样虽然对原信息有损失,但对最终精度影响不大。因为时序数据在频域上相对时域更加稀疏,这种情况下大多数信息是无用的,可以舍弃。最后,通过频域补全,再次将频域转回时域。
对于小波分解部分,FedFormer采用了固定的小波基分解矩阵进行分解,使用三个FEB-f模块来分别处理小波分解后得到的高频部分、低频部分和剩余部分。随后采用重建模块对数据进行融合重建。
02-Frequency Enhanced Attention (FEA)
FEA和FED模块遵循相同的处理流程:频域投影 -> 随机采样 -> 频域补全 -> 逆投影到时域,即qkv整体计算是在频域下进行,然后投影回时域。如下图所示,k和v由编码器经过多层感知机获得,q由解码器经过多层感知机获得。
-
首先,qkv经过傅立叶变换由时域转到频域并进行随机采样。
-
然后,qk相乘经过激活函数并与v相乘,计算过程与基本注意力机制一样。
-
最后,padding补齐维度,通过傅立叶逆变换,由频域转回时域。
FEA模块作者也实现了小波变换的版本,FEA-w架构保留了FEB-w的分解和重构阶段,但着重改进了分解过程。在分解阶段,采用相同的分解矩阵独立处理q、k、v信号,然后通过FEA-f进行特征提取,最后重建。
实验和总结
本文提出了一种用于长期序列预测的频率增强型Transformer模型,具有线性计算复杂度和内存成本。创新之处在于采用一种在频率上进行低秩近似的注意力机制,有效地将输入序列长度与注意力矩阵维度解耦,从而实现了线性复杂度。实验表明,与四种最先进的算法相比,该模型在六个基准数据集上实现了最佳的预测性能。
欢迎大家关注我的公众号【科学最top】,专注于时序高水平论文解读。