时间序列顶会一网打尽!时间序列基础模型的最新进展!

前言

最近时间序列基础模型领域,迎来了里程碑式的突破。

TimeGPT作为首个原生基础模型,于去年八月问世,一发布就震撼了预测领域。

众多其他基础模型也相继发布,包括但不限于:

  • TimesFM

  • MOIRAI

  • Tiny Time Mixers(TTM)

  • MOMENT

本文将深入探讨这些更新内容——包括新的基准测试和改进后的模型变体。

TimesFM——谷歌的基础模型

最新更新: 模型权重最近已在Hugging Face上公开!

谷歌凭借TimesFM这一拥有2000亿参数的基础模型,正式加入了时间序列基础模型的竞争行列。

构建大型时间序列模型的一大难题在于数据的稀缺性,找到优质且多样化的公开时间序列数据极具挑战性。

而TimesFM团队通过利用Google Trends和WikiPage浏览量等数据源,扩展了训练数据集。

最终模型在1000亿个真实世界的时间点上进行了预训练。

从架构上看,TimesFM是一款基于Transformer的模型,它利用规模优势进行时间序列预测(如图1所示):

TimesFM 架构概述

TimesFM的秘密在于它巧妙地结合了patching技术(而这对语言模型大有裨益)和生成式预训练模型中的仅解码器风格。

那么,patching技术是如何工作的呢?

就像文本模型预测下一个单词一样,时间序列基础模型则预测下一个时间点段的patching。

patching之所以有效,是因为它将一段时间点窗口视为一个标记,从而利用局部时间信息创建丰富的表示。

这有助于TimesFM更有效地捕捉时间动态,从而做出更准确的预测(如图2所示):

图2:使用TimesFM进行时间序列预测,多步预测的时间范围为30个数据点,频率为每半小时一次。

作者已经发布了针对单变量情况的模型权重和推理代码,并计划发布带有扩展API的新模型变体,以便进行微调。

现在就差公开预训练数据集了

MOIRAI——Salesforce的基础模型

**最新更新:**Salesforce已将该模型、权重、预训练数据集以及新模型变体开源!

您可以在AI Projects文件夹中找到MOIRAI的动手教程!

Salesforce发布MOIRAI的时间与TimesFM大致相同。MOIRAI因其独特的Transformer编码器架构而脱颖而出,该架构旨在处理时间序列数据的异质性和复杂性。

MOIRAI的关键特性包括:

  • 多补丁层:MOIRAI通过为每个频率学习不同的补丁大小来适应多种频率。

  • 任意变量注意力:一种优雅的注意力机制,尊重各变量之间的排列差异,并捕捉数据点之间的时间动态。

  • 参数分布混合:MOIRAI优化学习分布的混合体,而非假设单一分布。

MOIRAI 架构

与TimesFM相比,MOIRAI为时间序列引入了众多新颖特性。

它改进了传统的注意力机制(任意变量注意力),并考虑了不同的时间序列频率。

但MOIRAI(以及每个基础模型)的有效性在很大程度上取决于其预训练数据集。

MOIRAI在LOTSA数据集上进行了预训练,LOTSA是一个包含九个领域、共计270亿条观测记录的庞大数据集。(该数据集也已公开)

这一广泛的数据集结合模型的创新架构,使得MOIRAI成为理想的零样本预测器——能够迅速且准确地预测未见过的数据。

图4和图5展示了MOIRAI-large在日前能源预测任务中的表现(来自AI Projects文件夹中的MOIRAI教程):

图4:MOIRAI的次日能量预测(千瓦时),包含预测区间(图片由作者提供)。”

图5:MOIRAI-large的表现优于强大的统计模型。这些统计模型是针对每个时间序列单独训练的,而MOIRAI的预测则是零样本预测(即没有在这些数据上进行训练)。

最后,MOIRAI的一个显著优势在于其多变量预测能力,我们可以添加过去观测到的协变量或未来已知输入(如节假日)。

这使得MOIRAI特别适用于那些可以通过外部信息增强的时间序列案例(如交易、能源需求预测等)。

Tiny Time Mixers (TTM)

IBM研究团队的基础模型

**最新更新:**作者最初开源了一个快速版本TTM-Q。

几个月后,他们更新了论文,描述了具有新特性(如可解释性)的更好模型变体,并将这些变体也开源。

大家可以在AI Projects 文件夹中找到TTM-Q(零样本和微调)的动手项目!

TTM是一个独特的模型,它采用了与上述模型不同的方法:

它不是Transformer模型!

同时,TTM轻巧且性能优于其他更大的基础模型。

TTM的主要特点包括:

  • 非Transformer架构:TTM使用全连接神经网络层而非注意力机制,因此速度极快。

  • TSMixer基础架构:TTM采用IBM突破性时间序列模型TSMixer

  • 丰富的输入能力:TTM擅长处理多变量预测,能够接收额外通道、外生变量以及已知的未来输入。

  • 快速且强大:TTM-quick版本在Monash数据集的2.44亿个样本上进行了预训练,仅使用6个A100 GPU便在不到8小时内完成。

图6展示了TTM架构的顶层视图:

图6:TTM架构的顶层视图,左侧为预训练阶段,右侧为微调阶段。

TTM的运作分为两个阶段:预训练和微调

  • 预训练阶段:模型仅使用单变量时间序列进行训练,充分利用历史信息和局部季节性模式。

  • 微调阶段:模型接收多变量数据,并通过启用通道混合器过程(如图6所示)学习这些变量之间的相互依赖关系。

在微调过程中,核心层保持不变,使得整个过程轻量级。模型还可以选择性地通过激活外生变量混合器(如图7所示)来使用已知的未来协变量,以进一步提升性能。

图7:TTM-Q在温度预测任务中对CO2浓度(mmol/mol)的预测

此外,作者还创建了具有不同参数大小、上下文长度(sl)和预测长度(fl)的新模型变体:

  • **TTM-Base (TTM_B):**100万参数,sl=512,pl=64

  • **TTM-Enhanced (TTM_E):**400万参数,sl=1024,pl=128

  • **TTM-Advanced (TTM_A):**500万参数,sl=1536,pl=128

  • **Quick-TTM (TTMQ):**包含两个变体,分别对应sl/pl = (512,96)和(1024,96)。

作者展示了这些模型在基准测试中表现更佳。

在最终迭代中,作者还解决了可解释性问题,新变体能够提供特征重要性分析(如图8所示)。

总的来说,TTM是一款卓越的模型,其不依赖繁重的Transformer运算的方法为众多有趣的可能性开辟了道路。

MOMENT

**最新动态:**作者已开源了最大的变体MOMENT-large及其预训练数据集Time-Series Pile。

与以往的模型不同,MOMENT作为一款通用时间序列模型,能够胜任预测、分类、异常检测和插值等多种任务。

MOMENT在GPT4TS和TimesNet等同样面向多时间序列任务的模型基础上进行了改进。

以下是MOMENT的关键特性:

  • 基于LLM:利用T5模型来处理五种时间序列任务。

  • 轻量级执行:适合在有限资源下快速执行。

  • 零样本预测:在零样本场景下表现出色,且可通过微调进一步优化性能。

  • 采用patching技术:与上述模型类似,MOMENT将时间点子序列视为标记,从而提升推理速度。在预训练阶段,MOMENT会对时间点进行归一化处理,并将它们打包成嵌入表示。这些嵌入表示随后被处理以重建原始时间点。

因此,MOMENT的预训练过程类似于BERT的训练方式(掩码语言建模):随机遮挡输入时间序列的部分内容,并训练模型以最优方式重建它们(如图9所示)。

图9:MOMENT预训练阶段的顶层架构

使用T5编码器预训练了三个模型变体:T5-Small(4000万参数)、T5-Base(1.25亿参数)和T5-Large(3.85亿参数)。

这些变体在多样化的数据集(Time-Series Pile)上进行了预训练,使模型能够在未见过的数据上具备良好的泛化能力。

如何使用MOMENT

此外,MOMENT既可以作为零样本预测器使用,也可以通过微调来提升性能。

针对特定任务微调后的MOMENT模型系列(MOMENT-LP)在基准测试中展现出了令人鼓舞的结果,往往能够超越更大、更复杂的模型。

总结

基础NLP模型激发了人们对于大型语言模型(LLMs)在时间序列预测领域应用的浓厚兴趣。

TimeGPT自发布以来虽不足一年,但已吸引众多大型企业和研究人员投入时间与精力进行模型开发。

基础时间序列模型将对实际应用产生深远影响,时间序列数据广泛应用于零售、能源需求、经济分析以及医疗健康等多个领域。

类似GPT-4在文本处理中的广泛应用,一个基础时间序列模型也能以极高的准确性应用于各种时间序列案例。

当然,这一领域仍有巨大的提升空间,这也是本文所探讨的每个模型持续更新的原因所在。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/440459.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙next开发者第一课02.DevEcoStudio的使用-习题

【习题】DevEco Studio的使用 通过/及格分80/ 满分100 判断题 1. 如果代码中涉及到一些网络、数据库、传感器等功能的开发,均可使用预览器进行预览。F 正确(True)错误(False) 预览器不能进行传感器等特殊功能的开发,需要使用真机开发 2. module.json5文件中的…

C++ 观察者模式

观察者模式(Observer Pattern)是一种行为设计模式,用于在对象之间建立一对多的依赖关系,当一个对象的状态发生变化时,它的所有依赖对象都会得到通知并自动更新。 在观察者模式中,主题和观察者之间是松耦合…

Vue - 路由用法

前端路由就是URL中的hash与组件之间的对应关系。Vue Router是Vue的官方路由。 组成&#xff1a; VueRouter&#xff1a;路由器类&#xff0c;根据路由请求在路由视图中动态渲染选中的组件。<router-link>&#xff1a;请求链接组件&#xff0c;浏览器会解析成<a>。…

CentOS 7文件系统

从centos7开始&#xff0c;默认的文件系统从ext4变成了XFS。随着虚拟化的应用越来越广泛&#xff0c;作为虚拟化磁盘来源的大文件&#xff08;单个文件几GB级别&#xff09;越来越常见。 1.XFS组成部分&#xff1a; XFS文件系统在数据的分布上主要划分为三部分&#xff1a;数据…

(笔记)第三期书生·浦语大模型实战营(十一卷王场)–书生基础岛第5关---XTuner 微调个人小助手认知

学员闯关手册&#xff1a;https://aicarrier.feishu.cn/wiki/ZcgkwqteZi9s4ZkYr0Gcayg1n1g?open_in_browsertrue 课程视频&#xff1a;https://www.bilibili.com/video/BV1tz421B72y/ 课程文档&#xff1a; https://github.com/InternLM/Tutorial/tree/camp3/docs/L1/XTuner 关…

3. BBP系列运动控制板(飞控板)简介

3.1. 概述 Bread Board Pilot(简称BBP) 是在积累了前期 Single Pilot 及 PH7 飞控板大量设计及使用经验的基础上&#xff0c;全新基于PH47代码框架开发的高灵活性&#xff0c; 高性能&#xff0c; 超低成本的最新一代飞控板设计。 目前&#xff0c;因为其使用便捷灵活&#xf…

晶体管最佳效率区域随频率逆时针旋转原因分析

晶体管最佳效率区域随频率逆时针旋转原因分析 在功率放大器的设计时&#xff0c;晶体管最佳区域随频率逆时针旋转。但是&#xff0c;对于一般的微带电路&#xff0c;匹配阻抗区域是随着频率顺时针旋转的&#xff08;也有称这个特性是Foster特性&#xff09;&#xff0c;因此功…

基于ssm 和uniapp 开发的微信小程序的学生选课系统设计与实现

博主介绍&#xff1a;专注于Java&#xff08;springboot ssm 等开发框架&#xff09; vue .net php phython node.js uniapp 微信小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设&#xff0c;从业十五余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不…

传感器模块编程实践(二)W5500 SPI转以太网模块简介及驱动源码

文章目录 一.概要二.W5500芯片介绍W5500通讯协议介绍 三.W5500模块介绍四.W5500模块原理图五.W5500以太网模通讯实验六.CubeMX工程源代码下载七.小结 一.概要 我们介绍过单片机的以太网系统一般是由&#xff1a;单片机MACPHYRJ45。有些单片机比如STM32F407VET6芯片内部自带MAC…

事件抽取(Event Extraction, EE)

一、引言 事件抽取&#xff08;Event Extraction, EE&#xff09;是信息抽取领域中的一个重要任务&#xff0c;旨在从非结构化文本中识别和抽取事件相关的信息。事件抽取通常包括识别事件触发词、事件类型以及事件中的参与者、时间、地点等元素&#xff0c;最终将这些信息结构…

Excel中的屠龙大招

indirect的地位部分动摇&#xff0c;神坛下已初生大力骑士——“”。 (笔记模板由python脚本于2024年10月06日 18:57:11创建&#xff0c;本篇笔记适合同时喜欢python和Excel的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.org/ Free&…

支持向量机(SVM)基础教程

一、引言 支持向量机&#xff08;Support Vector Machine&#xff0c;简称SVM&#xff09;是一种高效的监督学习算法&#xff0c;广泛应用 于分类和回归分析。SVM以其强大的泛化能力、简洁的数学形式和优秀的分类效果而备受机器学 习领域的青睐。 二、SVM基本原理 2.1 最大间…

QT使用qss控制样式实现动态换肤

文章目录 设计QSS样式表动态加载QSS文件主函数调用QT提供了一种非常灵活的方式来使用QSS(Qt Style Sheet,类似于 CSS 的样式表),实现界面的动态换肤功能。QSS可以改变Qt应用程序中几乎所有可视组件的外观,包括颜色、字体、边框等。下面介绍一下如何通过QSS实现动态换肤。 设…

YOLO11改进|注意力机制篇|引入上下文锚注意力机制CAA

目录 一、【CAA】注意力机制1.1【CAA】注意力介绍1.2【CAA】核心代码 二、添加【CAA】注意力机制2.1STEP12.2STEP22.3STEP32.4STEP4 三、yaml文件与运行3.1yaml文件3.2运行成功截图 一、【CAA】注意力机制 1.1【CAA】注意力介绍 CAA注意力机制的结构图如下&#xff0c;下面根据…

51单片机的水质检测系统【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能 该系统由AT89C51/STC89C52单片机LCD1602显示模块温度传感器ph传感器浑浊度传感器蓝牙继电器LED、按键和蜂鸣器等模块构成。适用于水质监测系统&#xff0c;含检测和调整水温、浑浊度、ph等相似项目。 可实现功能: 1、LCD1602实时显示水温、水体ph和浑浊度 2、温…

PYTHON实现HTTP request的一些有用的函数

前言 我们知道&#xff0c;当需要设计一个程序和服务器进行交互时&#xff0c;往往会用到HTTP的request&#xff0c;即服务器有一个对外接口REST API&#xff0c;因此当向服务器发送符合格式要求的HTTP request时&#xff0c;服务器会给出响应&#xff0c;甚至执行一些任务。如…

18734 拓扑排序

### 思路 1. **建模问题**&#xff1a;将课程和依赖关系建模为有向图&#xff0c;其中课程是节点&#xff0c;依赖关系是有向边。 2. **选择算法**&#xff1a;使用拓扑排序算法来确定课程的学习顺序。由于需要确保输出唯一性&#xff0c;同等条件下编号小的课程排在前面&…

fastAPI教程:路由操作及HTTP请求响应

FastAPI 三、路由操作 3.1 路由装饰器 路由装饰器&#xff0c;也叫路径操作装饰器。 FastAPI提供了一系列基于HTTP请求作为方法名的装饰器给开发者用于绑定url地址提供给外界操作API接口。 HTTP方法FastAPI代码描述GETapp.get()async 方法名(): pass获取数据POSTapp.post(…

吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)2.5-2.6

目录 第四门课 卷积神经网络&#xff08;Convolutional Neural Networks&#xff09;第二周 深度卷积网络&#xff1a;实例探究&#xff08;Deep convolutional models: case studies&#xff09;2.5 网络中的网络以及 11 卷积&#xff08;Network in Network and 11 convoluti…

【AI知识点】批归一化(Batch Normalization)

批归一化&#xff08;Batch Normalization&#xff0c;BN&#xff09; 是一种用于加速神经网络训练并提高模型稳定性的方法&#xff0c;最早由 Sergey Ioffe 和 Christian Szegedy 在 2015 年提出。批归一化通过在每一层对神经网络中的激活值进行标准化&#xff0c;使得每一层的…