基于视觉智能的时间序列基础模型

GitHub链接：ViTime: A Visual Intelligence-Based Foundation Model for Time Series Forecasting

论文链接：https://github.com/IkeYang/ViTime

前言

作者是来自西安理工大学，西北工业大学，以色列理工大学以及香港城市大学的研究者。

1. 研究动机：

近年来，深度学习模型在特定数据集上表现优异，但它们往往需要大量的领域特定数据进行训练，缺乏跨域泛化能力。这一挑战促使研究人员开始探索构建基础模型（Foundation Model）的可能性，以期望通过预训练获得通用的时间序列理解能力，进而实现跨域零样本（Zero-shot）或少样本（Few-shot）学习。

然而，现有的TSF基础模型面临着两个重大挑战：

1) 数值建模的局限性：

现有的TSF模型，包括基础模型，主要关注于直接拟合数值时间序列数据。这意味着这些模型的主要信息载体是时间维度上的数值关系。然而，人类在观察和预测趋势时，往往更倾向于通过视觉表征来理解数据，而非直接处理原始数值。

研究表明，人脑在处理视觉信息方面远比处理数值数据更为高效。人脑在处理视觉信息时的效率显著高于处理数值数据，并且视觉皮层能够快速识别模式、形状和颜色，使得图像和视频的处理速度远快于文本和数字。这些发现自然而然地引发了一个假设性问题：在通往人工通用智能（AGI）的道路上，采用视觉智能方法进行时间序列建模是否会比传统的数值方法更加有效？

2) 训练数据的局限性：

目前的基础模型训练数据通常由大规模实际世界数据集构成。这引发了一个关键问题：这些大规模实际数据集是否能全面捕捉普适时间序列模式的多样性？换言之，一个真正通用的时间序列基础模型应具备何种基本能力，才能应对广泛的时间序列问题？

为了应对这些挑战，作者提出了一种创新的视觉智能基础模型 ViTime（Visual Time Foundation Model）。ViTime旨在从视觉智能的角度开创时间序列基础模型研究的新范式。此外，作者还引入了一种新颖的时间序列数据生成方法 RealTS（Real Time Series），该方法将时间序列分析的基础知识归类为"趋势"和"周期性"，并在ViTime的训练过程中合成训练数据。ViTime的核心思想是将数值时间序列转换为二值图像，从而将数值时间相关性转化为二值像素空间相关性。这种方法与人脑处理时间序列数据的方式高度契合。大量实验结果表明，当应用于各种未见过的跨域数据集时，所提出的ViTime模型能够达到最先进的零样本性能，在某些情况下甚至超越了最佳的单独训练的监督模型。更值得注意的是，只需使用10%的领域数据进行微调，ViTime就能够在性能上超越使用100%领域数据的最新监督模型。

研究方法

ViTime的研究方法包括几个关键创新，下面我们将详细介绍每个组成部分：

a) 视觉表征：

ViTime的核心创新在于将数值时间序列转换为二值图像。这一转换过程不仅仅是简单的可视化，而是将时间序列的本质特征编码到视觉空间中。如下图所示。原文包含相应的空间定义函数、映射函数以及相关定理，欢迎大家阅读。

b) 真实时间序列（RealTS）合成：

为了解决现有大规模实际数据集可能无法全面捕捉时间序列多样性的问题，作者提出了RealTS数据生成方法。RealTS的核心思想是将时间序列的基础知识分解为两个关键组成部分：趋势（Trend）和周期性（Periodicity）。其定义了多个时间序列生成模式，采用随机生成方式产生训练数据。

c) 模型架构：

ViTime的模型架构由三个主要模块组成，视觉时间分词器（Visual Time Tokenizer）、解码器（Decoder）以及Refining Module组成：

实验结果

为了更全面地评估模型的泛化能力，作者引入了重新缩放平均绝对误差（Rescale-MAE）和重新缩放均方误差（Rescale-MSE）这两个新的评估指标。这些指标通过在不同时间分辨率下重新缩放测试数据集来评估模型的性能，有效地避免了测试集泄露问题，同时也考察了模型在不同时间尺度下的适应能力。

在零样本学习任务中，ViTime展现出了令人瞩目的性能。与其他领先的模型如TimesFM（由Google Research提出的强大开源时间序列基础模型）相比，ViTime在大多数数据集和预测长度上都取得了显著优势。特别值得注意的是，在某些情况下，ViTime的零样本性能甚至超越了经过充分训练的监督学习模型。表明基于视觉智能的方法在处理时间序列数据时可能具有根本性的优势，能够捕捉到传统数值方法难以识别的模式和特征。