【时序大模型总结】学习记录(1)

1.TimeGPT-1

思路:在来自不同领域的大量数据上训练模型,然后对未见过的数据产生零样本的推断。
作者对TimeGPT进行了超过1000亿个数据点的训练,这些数据点都来自开源的时间序列数据。该数据集涵盖了广泛的领域,从金融、经济和天气,到网络流量、能源和销售。
在这里插入图片描述

TimeGPT 是一个基于 Transformer 的时间序列模型,具有基于 [Vaswani et al., 2017] 的自注意力机制。 TimeGPT 采用历史值窗口来生成预测,并添加本地位置编码来丰富输入。该架构由多层编码器-解码器结构组成,每层都有残差连接和层归一化。最后,线性层将解码器的输出映射到预测窗口维度。一般的直觉是,基于注意力的机制能够捕获过去事件的多样性并正确推断未来潜在的分布。

TimeGPT模型结构:

  • 架构基础:TimeGPT基于Transformer架构,使用自注意力机制,类似于在自然语言处理(NLP)中使用的模型。
  • 输入:模型接受历史值窗口作为输入,并添加局部位置编码以丰富输入信息。
    编码器-解码器结构:包含多层,每层都有残差连接和层归一化。
  • 输出:最后,一个线性层将解码器的输出映射到预测窗口维度。

损失函数和评价指标:

  • 损失函数:文章没有明确指出用于训练TimeGPT的具体损失函数,但通常时间序列预测模型会使用均方误差(MSE)或其变体作为损失函数。
  • 评价指标:
    相对平均绝对误差 (rMAE):用于衡量模型预测与实际值之间的误差,是平均绝对误差(MAE)与基线模型(如季节性天真模型)性能的比值。
    相对均方根误差 (rRMSE):与rMAE类似,但基于均方根误差(RMSE)计算。
  • 其他关键点:
    训练数据集:TimeGPT在超过1000亿数据点的公开可用时间序列数据集上进行训练,涵盖金融、经济、医疗保健、天气等多个领域。
    applicable to a dataset with n time series and a forecast horizon of h, are described in Equation 2

不确定性量化:

TimeGPT使用基于历史错误的一致性预测来估计预测区间,这有助于风险评估和决策制定。
零样本推断 (Zero-shot inference):TimeGPT能够在未经微调的情况下直接在新的预测任务上表现良好。
微调 (Fine-tuning):通过在特定任务的数据集上进一步训练,可以调整模型参数以适应新任务的需求。

https://blog.csdn.net/fengdu78/article/details/134301864

Chronos模型

注意:内容由kimi大模型生成,未做完全的校正,请辨别使用。

这篇文章介绍了一个名为Chronos的时间序列预测框架。Chronos利用了预训练的概率时间序列模型,并通过以下方式进行操作:

模型结构:

  • Chronos通过缩放和量化将时间序列值转换为固定词汇表中的离散标记(tokens)。
  • 它使用现有的基于Transformer的语言模型架构来训练这些标记化的时间序列,不需要对模型架构进行任何改变。
  • Chronos选用了T5家族的变体作为其主要架构,这些变体的参数量从20M到710M不等。

损失函数:

  • Chronos使用交叉熵损失函数来训练模型,该损失函数衡量的是量化的真实标签分布与模型预测分布之间的差异。

评价指标:

  • 文章使用了加权分位数损失(WQL)来评估概率预测的质量,这是一种与连续排序概率分数(CRPS)相关的度量,常用于评估概率预测。
  • 为了评估点预测性能,文章使用了平均绝对缩放误差(MASE),这是一种考虑了时间序列季节性的误差度量。

数据增强技术:

  • Chronos结合了数据增强策略,包括TSMixup和KernelSynth,以增强训练数据的多样性,提高模型的鲁棒性和泛化能力。
  • TSMixup通过随机采样基础时间序列,并基于它们进行凸组合来生成新的时间序列。
  • KernelSynth使用高斯过程通过随机组合核函数来生成合成时间序列。

实验结果:

  • Chronos在包含42个数据集的综合基准测试中表现出色,这些数据集既包括了训练语料库中的数据集,也包括了新的未见数据集。
  • Chronos模型在训练语料库中的数据集上显著优于其他方法,在新的未见数据集上也展现出了可比性,甚至是更好的零样本(zero-shot)性能。

结论:

  • Chronos证明了预训练的语言模型架构在时间序列预测任务上的有效性,即使是在没有特定于时间序列的设计或特征的情况下。
  • Chronos作为一个通用的时间序列模型,其准确性和相对较小的模型尺寸使其成为零样本预测应用的首选工具。
  • 通过进一步的微调,Chronos模型的性能还有望得到提升。

文章还讨论了Chronos的未来发展方向,包括扩展到多变量预测、考虑共变量的时间序列预测,以及其他时间序列分析任务。此外,文章还探讨了提高模型推理速度和处理更高频数据的可能性。最后,文章强调了高质量公共时间序列数据集的需求,以及合成数据生成方法的进步,这些对于发展和改进像Chronos这样的预训练模型至关重要。

回归函数评价指标

MSE均方误差
MSE(Mean Square Error):
在这里插入图片描述

    均方误差描述了样本真实值与预测值差方求和的平均值,在机器学习中,利用均方误差最小化优化模型的方法称为“最小二乘法”

RMSE
在这里插入图片描述

    RMSE(Root Mean Square Error)即对MSE开平方根:

MAE平均绝对误差
在这里插入图片描述
MAE(Mean Absolute Erroe)即真实值与预测值差的绝对值和求平均:

带归一化的误差求解方法
MAPE
MAPE(Mean Absolute Percentage Error):
在这里插入图片描述

    即求所有样本真实值与预测值差绝对值与真实值的比例的和求平均。

MSPE
MASE(Mean Scaled Percentage Error)平均平方百分比误差:
在这里插入图片描述
即求所有样本的真实值与预测值的差与真实值的比例求平方的和求平均。

MASE(chronos大模型中使用)
mean absolute scaled error (MASE, Hyndman & Koehler (2006))
平均绝对比例误差(Mean Absolute Scaled Error,简称MASE)是一种用于评估时间序列预测模型性能的指标。与其他误差指标不同,MASE 可以用于比较不同时间序列数据集的模型性能,因为它可以归一化误差值。
在这里插入图片描述
通常,MASE的值越小,表示预测的准确度越高。MASE的值可以为任何正实数,因此没有固定的范围或取值区间。

Mean squared scaled error (MSSE) or root mean squared scaled error (RMSSE).

sktime里有各种评价指标的实现。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考

  • Another look at measures of forecast accuracy 【推荐】
  • https://www.sktime.net/en/latest/api_reference/auto_generated/sktime.performance_metrics.forecasting.mean_squared_scaled_error.html
  • https://en.wikipedia.org/wiki/Mean_absolute_scaled_error
  • https://blog.csdn.net/weixin_43786241/article/details/109626631

TILDE-Q:让时间序列预测结果更真实的损失函数

解决问题:常用的损失函数MSE、MAE是让预测结果与每个真实值的差距最小。所以训练的模型可能无法预测出准确的形状,而只是找到一种最简单的方法让点预测结果误差最小。
下述这篇文章为了解决这个问题,文中提出了一种新的时间序列预测损失函数,能够更加关注时间序列预测结果的形状和真实序列是否匹配,弥补了MSE等点误差损失函数的缺陷。

论文标题:TILDE-Q: A TRANSFORMATION INVARIANT LOSS FUNCTION FOR TIME-SERIES FORECASTING
下载地址:https://arxiv.org/pdf/2210.15050v1.pdf
源码:https://github.com/HyunWookL/TILDE-Q (备注:没太多人使用,目前效果存疑)

https://cloud.tencent.com/developer/article/2195702

相关性度量

MSE用来评估预测值与真值间误差的绝对值,但是无法度量相关性,因此常用PCC(皮尔逊相关)计算二者相关性作为补充的评价指标。
CCC则既能够体现相关性(趋势),又能够体现误差值。

一致性相关系数Concordance Correlation Coefficient

CCC结合了MSE和PCC的特点,提供了一种可以同时度量相关性和绝对插值的指标,具体定义如下:
在这里插入图片描述
其中
ρ表示相关系数。绝对差值越小,CCC值越大,相关性越强CCC值也越大,因此该值越接近1,则算法的表现越好。

有个疑问,PCC可以作为回归的衡量指标吗?
个人思考:PCC主要是衡量两个变量之间的线性相关,如果使用这个,仅能去评价预测值和真实值的线性相关性,但无法去衡量预测值与真实值之间实际的差异还有多少,即无法学习或者衡量真实分布的量纲。
而且,PCC也不是衡量分布一致性的指标,常常衡量两个概率分布之间的差异性指标有:KL(Kullback-Leibler divergence)散度、JS(Jensen-Shannon divergence)散度、交叉熵(cross entropy)、Wasserstein距离等。

参考:
https://blog.csdn.net/Avery123123/article/details/102681688
https://en.wikipedia.org/wiki/Concordance_correlation_coefficient
https://www.cnblogs.com/duduheihei/articles/14088547.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/320736.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

17.Blender RC大佬EEVEE皮肤节点预设导入

如何添加节点预设 在底下的左下角打开Geometry Node Editor 选中正方体,点击新建 当鼠标指针在两个模块之间,是十字的样子时 可以拖出一个新的板块 然后打开文件浏览器 找到节点预设然后拖入到底下的节点编辑界面就可以了或者是blend文件&#xf…

KEIL 5.38的ARM-CM3/4 ARM汇编设计学习笔记13 - STM32的SDIO学习5 - 卡的轮询读写擦

KEIL 5.38的ARM-CM3/4 ARM汇编设计学习笔记13 - STM32的SDIO学习5 - 卡的轮询读写擦 一、前情提要二、目标三、技术方案3.1 读写擦的操作3.1.1 读卡操作3.1.2 写卡操作3.1.3 擦除操作 3.2 一些技术点3.2.1 轮询标志位的选择不唯一3.2.2 写和擦的卡状态查询3.2.3 写的速度 四、代…

Unity之ShaderGraph入门简介与配置

前言 ShaderGraph是Unity的一个可视化着色器编辑工具,它允许开发者在不编写代码的情况下创建复杂的着色器效果。ShaderGraph提供了一个直观的图形界面,用户可以通过拖拽节点并连接它们来构建自定义的着色器。用户可以在ShaderGraph中使用各种节点,如数学运算、纹理采样、颜…

SeetaFace6人脸检测C++代码实现Demo

SeetaFace6包含人脸识别的基本能力:人脸检测、关键点定位、人脸识别,同时增加了活体检测、质量评估、年龄性别估计,并且顺应实际应用需求,开放口罩检测以及口罩佩戴场景下的人脸识别模型。 官网地址:https://github.co…

【漏洞复现】用友时空KSOA linkadd接口处存在 SQL注入漏洞

免责声明:文章来源互联网收集整理,请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该…

2024高校网络安全管理运维赛wp

文章目录 misc签到钓鱼邮件识别easyshellSecretDBGatewayzipApachef for r webphpsqlMessy Mongo misc 签到 钓鱼邮件识别 两部分解base64,各一个flag 后面没有什么地方有有用信息了,根据题目钓鱼邮件,可能第三段flag就跟DMARC、DKIM 和 SP…

母婴店运用商城小程序店铺的效果是什么

母婴市场规模高,还可与不少行业无缝衔接,尤其是以90后、00后为主的年轻人,在备孕生育和婴儿护理前后等整体流程往往不惜重金且时间长,母婴用品无疑是必需品,商家需要多方面拓展全面的客户及打通场景随时消费路径。 运…

视频号好物分享副业课,视频剪辑带货玩法(12节课)

详情介绍 课程内容: 第1节-为什么要做视频号好物分享.mp4 第2节-Tok海外素材好物分享号的变现逻辑.mp4 第3节-好物分享的细分赛道.mp4 第4节-视频号使用老号还是新号,mp4 第5节-开通橱窗的条件与挂车条件.mp4 第6节-好物分享账号的搭建设置,mp4 第7节-手机版…

数据结构——图的基础知识与其表示

一:定义 由顶点的集合和边的集合组成;常以 G(V,E) 表示,G 代表图,V代表 顶点的集合,E代表边的集合; 如图: 在G1图中,有 0~4 五个顶点,有 0-1,0-2&…

【LeetCode刷题记录】105. 从前序与中序遍历序列构造二叉树 106. 从中序与后序遍历序列构造二叉树

105 从前序与中序遍历序列构造二叉树 给定两个整数数组 preorder 和 inorder ,其中 preorder 是二叉树的先序遍历, inorder 是同一棵树的中序遍历,请构造二叉树并返回其根节点。 示例 1: 输入: preorder [3,9,20,15,7], inorder [9,3,1…

Java转Kotlin

Kotlin 是一种静态编程语言 2011JetBrains开始开发Kotlin,用于多平台应用(能脱离虚拟机,直接编译成可以在win,mac,linux运行的二进制代码) 2017获得谷歌官方支持 语法简洁(减少了大量的样板代码,语法糖&…

远程代码/命令执行(RCE)

远程代码执行/远程命令执行(remote/code/execute||remote/command/execute) 类似sql注入xss等漏洞,rce也是代码注入(用户可控),注入对象为操作系统命令、后端代码,用户参 数可控,且未…

jmeter后置处理器提取到的参数因为换行符导致json解析错误

现象: {"message":"JSON parse error: Illegal unquoted character ((CTRL-CHAR, code 10)): has to be escaped using backslash to be included in string value; nested exception is com.fasterxml.jackson.databind.JsonMappingException: Ill…

hadoop学习---基于Hive的数仓搭建增量信息拉链表的实现

拉链表就是SCD2,它的优点是即满足了反应数据的历史状态,又能在最大程度上节省存储。 拉链表的实现需要在原始字段基础上增加两个新字段: start_time(表示该条记录的生命周期开始时间——周期快照时的状态)end_time(该条记录的生命周期结束时…

【Node.js工程师养成计划】之express中间件与接口规范

一、Express中间件的概念与基本应用 const express require(express)// 加一个注释,用以说明,本项目代码可以任意定制更改 const app express()const PORT process.env.PORT || 3000// // 挂载路由 // app.use(/api, router)// // 挂载统一处理服务端…

【CTF Web】XCTF GFSJ0475 get_post Writeup(HTTP协议+GET请求+POST请求)

get_post X老师告诉小宁同学HTTP通常使用两种请求方法,你知道是哪两种吗? 解法 用 Postman 发送一个 GET 请求,提交一个名为a,值为1的变量。 http://61.147.171.105:65402/?a1用 Postman 发送一个 POST 请求,提交一个名为b,值为…

C++ | Leetcode C++题解之第60题排列序列

题目&#xff1a; 题解&#xff1a; class Solution { public:string getPermutation(int n, int k) {vector<int> factorial(n);factorial[0] 1;for (int i 1; i < n; i) {factorial[i] factorial[i - 1] * i;}--k;string ans;vector<int> valid(n 1, 1);…

二叉树的中序遍历

目录 一、前言 二、中序遍历 三、递归 四、迭代 一、前言 本篇文章主要讲解二叉树的中序遍历&#xff0c;对前序遍历、后序遍历不熟悉的同学可以观看本专栏。 二、中序遍历 简单来说&#xff0c;前序遍历的遍历思想就是&#xff1a; 左子树 --->根结点 ---> 右子树。…

车牌号识别系统:PyQT5+QT Designe+crnn/PaddleOCR+YOLO+OpenCV矫正算法。

PyQT5&QT Designecrnn/PaddleOCRYOLO传统OpenCV矫正算法。可视化的车牌识别系统项目。 车牌号识别系统 项目绪论1.项目展示2.视频展示3.整体思路 一、PyQT5 和 QT Designer1.简介2.安装3.使用 二、YOLO检测算法三、OpenCV矫正算法四、crnn/PaddleOCR字符识别算法五、QT界面…

已解决 RuntimeError: No CUDA GPUs are available 亲测有效!!!

已解决 RuntimeError: No CUDA GPUs are available 亲测有效&#xff01;&#xff01;&#xff01; 亲测有效 报错问题解决思路解决方法 报错问题 RuntimeError: No CUDA GPUs are available 这个错误通常发生在尝试在没有CUDA支持的GPU或没有安装NVIDIA GPU的机器上运行基于C…