时序论文23|ICML24谷歌开源零样本时序大模型TimesFM

图片

论文标题:A DECODER - ONLY FOUNDATION MODEL FOR TIME - SERIES FORECASTING

论文链接:https://arxiv.org/abs/2310.10688

论文链接:https://github.com/google-research/timesfm

前言

谷歌这篇时间序列大模型很早之前就在关注,今天搜索了一下,对应的文章入选了ICML24,其开源的代码github已经有3.5K star。据论文中的描述,TimesFM模型在各种公共数据集上的即插即用零样本性能接近于每个单独数据集的最先进监督预测模型的准确性。TimesFM在参数数量(2亿)和预训练数据规模(约100B个时间点)上更为紧凑。

此外,模型基于预训练的解码器(Decoder Only),使用输入patch,利用包括真实世界和合成数据集在内的大型时间序列数据进行训练。TimesFM能够适应不同的预测历史长度、预测长度和时间粒度。模型的核心包括:1)一个大规模时间序列语料库,结合了真实数据和合成数据;2)解码器风格注意力架构。

本文模型

基本模型设计:

分块(Patching)。选择在训练期间将时间序列切分为patch。因为patch已被证明可以提高性能和推理速度。

仅解码器模型(Decoder-only model)。谷歌的架构与PatchTST的一个关键区别在于,谷歌的模型是仅解码器模式训练的。换句话说,给定一系列输入patch,模型被优化为根据所有过去的分块预测下一个分块。类似于大型语言模型(LLMs),这可以在整个上下文窗口上并行完成,并且自动使模型能够在看到不同数量的输入分块后预测未来。

更长的输出分块(Longer output patches)。有两种预测未来序列点的方式,一种是以自回归方式逐个token生成,另一种则是直接预测未来的token,而且直接预测往往比多步自回归解码更准确。但如果预测范围长度事先未知,那就没法直接预测了(也就是零样本预测的面临一个问题)。这里作者采用了一种折衷方法:直接预测和多步预测结合。

图片

如图:TimesFM输入层负责将时间序列预处理成transformer的输入token。首先将输入分解为连续不重叠的patch,每个patch通过一个残差块(本质上是一个具有跳跃连接的多层感知器)处理成大小为model_dim的向量,加上位置编码,并输入到n_l层堆叠的transformer层中。其中,SA代表自注意力(注意谷歌使用的是多头因果注意力),FFN是变换器中的全连接层。输出token随后通过一个残差块映射到大小为output_patch_len的输出,这是模型迄今为止看到的最后一个输入分块之后的预测时间窗口的预测。

其实这里还涉及到数据混合和预训练的一些技巧,限于篇幅感兴趣的可以阅读原文。

论文实验和结论

图片

图片

文中进行了对比实验和消融实验,结论是本文模型TimesFM模型在各种公共数据集上的即插即用零样本性能接近于每个单独数据集的最先进监督预测模型的准确性。

未来工作

Prompt Tuning:在大型语言模型中,提示调整技术如思维链能显著提升模型性能。然而,对于时间序列模型,这些技术的应用尚不明确。

微调研究(finetuning studies):尤其是在协变量存在的情况下,将是未来工作的重点。

其他架构(Other architectures):未来可以尝试不同的架构,如MLP结构或高效的线性状态空间模型,这样的高效线性状态空间模型也会很有趣。

可解释性(Interpretability):通过特征重要性归因方法来提高模型的可解释性,并考虑开源模型以促进透明度和进一步研究。


 大家可以关注我【科学最top】,第一时间follow时序高水平论文解读!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/476548.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【UCIE协议系列-1】

UCIE协议系列-1 1 UCIE背景1.1 UCIE产生背景1.2 UCIE主要特性 2 UCIE分层协议2.1 Protocol 层2.1.1 Mode VS protocal2.1.2 PCIe 6.02.1.2.1 Raw Mode for PCIe 6.02.1.2.2 Flit Mode: Standard 256B Flit for PCIe 6.0 2.1.3 CXL3.0 256B Flit Mode2.1.3.1 Raw Mode for CXL 2…

智能安全配电装置在高校实验室中的应用

​ 摘要:高校实验室是科研人员进行科学研究和实验的场所,通常会涉及到大量的仪器设备和电气设备。电气设备的使用不当或者维护不周可能会引发火灾事故。本文将以一起实验室电气火灾事故为例,对事故原因、危害程度以及防范措施进行分析和总结…

ESP8266 STA模式TCP客户端 电脑手机网络调试助手

1.STA模式TCP客户端和电脑网络调试助手 2.STA模式TCP客户端和手机网络调试助手

高中-信息技术科目考试-编程题

(24上)1.为了响应国家低碳的倡议,学校请你设计一个饮料瓶回收系统,根据投的饮料瓶类型和数量进行奖励。具体如下图:假设学生投瓶10个,投瓶类型定义为t(0表示塑料瓶,1表示易拉罐&…

如何将文件Copy到Docker镜像中

如何将文件Copy到Docker镜像中 一、使用Dockerfile的COPY指令二、使用Docker CP命令三、使用Docker Volume四、综合应用Docker作为一种轻量级的容器化技术,在软件开发和部署中得到了广泛应用。在使用Docker时,经常需要将本地文件或目录复制到Docker镜像中,以便在容器内部使用…

Figma入门-文字、样式、链接、动作

Figma入门-文字、样式、链接、动作 前言 在之前的工作中,大家的原型图都是使用 Axure 制作的,印象中 Figma 一直是个专业设计软件。 最近,很多产品朋友告诉我,很多原型图都开始用Figma制作了,并且很多组件都是内置的…

shell编程(8) until循环以及函数基本创建调用

声明!!! 学习视频来自B站UP主泷羽sec,如涉及侵权马上删除文章 视频链接:泷羽sec 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负 # until循环 脚本代码: i0 until [ ! $i -lt 1…

NVR管理平台EasyNVR多品牌NVR管理工具的流媒体视频融合与汇聚管理方案

随着信息技术的飞速发展,视频监控已经成为现代社会安全管理和业务运营不可或缺的一部分。无论是智慧城市、智能交通、还是大型企业、校园安防,视频监控系统的应用都日益广泛。NVR管理平台EasyNVR,作为功能强大的流媒体服务器软件,…

fastadmin实现站内通知功能

实现效果如下 application/admin/view/common/header.html <style>#notificationMenu {display: none;position: absolute;top: 40px;right: 0;background: #fff;border-radius: 6px;padding: 10px 0;width: 300px;box-shadow: 0 4px 12px rgba(0, 0, 0, 0.15);z-inde…

大语言模型---LoRA中损失值的计算

文章目录 概要损失计算流程小结 概要 Llama-7B模型的LoRA微调训练中&#xff0c;通过使用Cross-Entropy Loss来度量模型输出的预测分布和真实标签分布之间的距离&#xff0c;来衡量模型的准确性。 本文主要介绍LoRA中损失值的计算流程。 Cross-Entropy Loss作用&#xff1a;是…

【Vue】指令扩充(指令修饰符、样式绑定)

目录 指令修饰符 按键修饰符 事件修饰符 双向绑定指令修饰符 输入框 表单域 下拉框 单选按钮 复选框 样式绑定 分类 绑定class 绑定style tab页切换示例 指令修饰符 作用 借助指令修饰符&#xff0c;可以让指令的功能更强大 分类 按键修饰符&#xff1a;用来…

集成金蝶云星空数据至MySQL的完整案例解析

金蝶云星空数据集成到MySQL的技术案例分享 在企业信息化系统中&#xff0c;数据的高效流动和准确同步是确保业务连续性和决策支持的重要环节。本文将聚焦于一个具体的系统对接集成案例——金蝶云星空的数据集成到MySQL&#xff0c;方案名称为“2金蝶物料同步到商城中间表”。 …

为什么transformer的时间复杂度是N的平方,具体是里面的哪一个计算流程最占用时间

Transformer的时间复杂度为 O(N2)&#xff0c;其中 NN 是输入序列的长度。这一复杂度主要来源于自注意力机制&#xff08;self-attention mechanism&#xff09;的计算过程。 在Transformer模型中&#xff0c;自注意力机制的核心步骤是计算查询&#xff08;Query&#xff09;、…

如何在Linux上安装Canal同步工具

1. 下载安装包 所用到的安装包 canal.admin-1.1.4.tar.gz 链接&#xff1a;https://pan.baidu.com/s/1B1LxZUZsKVaHvoSx6VV3sA 提取码&#xff1a;v7ta canal.deployer-1.1.4.tar.gz 链接&#xff1a;https://pan.baidu.com/s/13RSqPinzgaaYQUyo9D8ZCQ 提取码&#xff1a;…

操作系统大会2024 | 麒麟信安根植openEuler社区,持续技术创新 共拓新应用 探索新机遇

[中国&#xff0c;北京&#xff0c;2024年11月15日] 以“以智能&#xff0c;致世界”为主题的操作系统大会2024在北京中关村国际创新中心召开&#xff0c;本次大会由openEuler社区和全球计算联盟主办&#xff0c;旨在汇聚全球产业界力量&#xff0c;推动基础软件根技术持续创新…

Wallpaper壁纸制作学习记录03

添加用户属性 Wallpaper Engine 允许用户在用户属性的帮助下进一步自定义您的壁纸。用户属性允许您为用户提供进一步调整和自定义壁纸各个方面的选项&#xff0c;包括完全隐藏壁纸中的对象。 创建可见性属性 每个元素在右上角都有一个 visibility 属性&#xff08;由眼睛图标…

杰理-gpadc

gpadc API是系统提供的用于adc采集的接口 void adc_init(); //adc功能初始化&#xff0c;一般在板级配置.c文件已经默认调用&#xff0c;用户无需再重复调用。 示例&#xff1a; static void WANG_printf(void *_arg) {//adc_init(); //板级配置中默认会调用&#xff0c;实际…

如何使用Jmeter做性能测试?

&#x1f345; 点击文末小卡片 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 今天我们来说说jmeter如何进行性能测试&#xff0c;我们都知道jmeter工具除了可以进行接口功能测试外&#xff0c;还可以进行性能测试。当项目趋于稳定&#xf…

【CSP CCF记录】201903-1第16次认证 小中大

题目 样例1输入 3 -1 2 4 样例1输出 4 2 -1 样例1解释 4 为最大值&#xff0c;2 为中位数&#xff0c;−1 为最小值。 样例2输入 4 -2 -1 3 4 样例2输出 4 1 -2 样例2解释 4 为最大值&#xff0c;(−13)21为中位数&#xff0c;−2为最小值。 思路 本题两个注意点&#xff0…

windows下,用CMake编译qt项目,出现错误By not providing “FindQt5.cmake“...

开发环境&#xff1a;windows10 qt5.14&#xff0c; 编译器msvc2017x64&#xff0c;CMake3.30&#xff1b; 现象&#xff1a; CMakeList文件里&#xff0c;如有find_package(Qt5 COMPONENTS Widgets REQUIRED) target_link_libraries(dis_lib PRIVATE Qt5::Widgets) 用CMak…