基于机器学习时序库pmdarima实现时序预测

目录

  • 一、Pmdarima实现单变量序列预测
    • 1.1 核心功能与特性
    • 1.2 技术优势对比
    • 1.3 python案例
      • 1.3.1 时间序列交叉验证
        • 1.3.1.1 滚动交叉验证
        • 1.3.1.2 滑窗交叉验证

时间序列相关参考文章
时间序列预测算法—ARIMA
基于VARMAX模型的多变量时序数据预测
基于机器学习时序库pmdarima实现时序预测
时间序列预测算法—Prophet
时间序列预测算法—LSTM
长时间序列预测算法—Informer
时间序列分类任务—tsfresh
有季节效应的非平稳序列分析
python时间序列处理
时间序列异常值检测方法
时间序列异常值处理方法

一、Pmdarima实现单变量序列预测

  pmdarima 是 Python 生态中专注于时间序列预测的高阶工具库,基于 ARIMA/SARIMA 模型框架,能够处理平稳性、季节性、周期性等问题,可以执行差分、交叉验证等运算,通过自动化建模流程降低时序分析门槛。其核心设计理念为 “自动化” 与 “兼容性”,旨在为开发者提供简洁、工业级的时序预测解决方案。
官方文档
源码仓库

1.1 核心功能与特性

  1. 自动化建模引擎
    参数自动搜索:通过 auto_arima() 函数一键完成模型参数(p, d, q 及季节性参数 P, D, Q, m)的智能搜索,无需手动调参。内置 ADF检验(Augmented Dickey-Fuller Test)自动确定差分阶数 d,解决非平稳序列问题。
    季节性处理:支持季节性差分与傅里叶项分解,自动检测季节性周期 m(如月、季度、年周期)。
  2. 工程化接口设计
    sklearn 兼容性:遵循 scikit-learn API 规范(fit()、predict()、score()),无缝接入机器学习流水线。支持 Pipeline 集成与 GridSearchCV 超参数优化。
    扩展功能:模型持久化(pickle 序列化)、置信区间计算、残差诊断(白噪声检验)。
  3. 性能优化
    并行计算:通过 n_jobs 参数启用多核并行加速模型搜索。
    大样本支持:分块(Chunking)处理超长时序数据,避免内存溢出。

1.2 技术优势对比

特性pmdarima传统 ARIMA 实现(如 statsmodels)
参数自动化✅ 全自动搜索 (p,d,q,P,D,Q,m)❌ 需手动指定所有参数
季节性支持✅ 内置季节差分与傅里叶分解⚠️ 需手动配置季节差分项
API 易用性✅ 类 sklearn 接口(fit/predict)⚠️ 需调用专用函数(如 ARIMA()
非平稳性处理✅ 自动执行ADF检验确定差分阶数d❌ 需手动运行平稳性检验
计算效率✅ 并行搜索 (n_jobs)、分块处理❌ 单线程计算为主
生产集成✅ 兼容sklearn流水线与超参数优化⚠️ 需额外封装才能接入ML系统
模型诊断✅ 内置残差检验与置信区间计算⚠️ 需调用其他工具辅助验证

1.3 python案例

  load_wineind 是pmdarima 库中经典的季节性时间序列数据集,时间范围为1980 年 1 月至 1994 年 8 月(共 176 个月度观测点),反映澳大利亚葡萄酒产业的月度销量。

import pmdarima as pm
from pmdarima import model_selection
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error
import warnings
warnings.filterwarnings("ignore")data = pm.datasets.load_wineind()
fig = plt.figure(figsize=(16,5))
plt.plot(range(data.shape[0]),data)
plt.grid()

在这里插入图片描述

#使用pm分割数据,遵循时序规则,不会打乱时间顺序
train, test = model_selection.train_test_split(data, train_size=152)
#自动化建模,只支持SARIMAX混合模型,不支持VARMAX系列模型
arima = pm.auto_arima(train, trace=True, #训练数据,是否打印训练过程error_action='ignore', #设置为'ignore'将会忽略错误并继续,其他选项包括'warn'、'raise'、'trace'等。  suppress_warnings=True, #无视警告和错误maxiter=5, #允许的最大迭代次数seasonal=True,#是否考虑季节性因素。设置为True表示模型将包含季节性成分。m=12 #季节性的周期数)

在这里插入图片描述

#预测 - n_periods向未来预测,无法对训练的时间进行预测
preds = arima.predict(n_periods=test.shape[0])
preds #按照测试集的日期进行预测

在这里插入图片描述

fig = plt.figure(figsize=(16,5))
plt.plot(range(test.shape[0]),test)
plt.plot(range(test.shape[0]),preds)
plt.grid()

在这里插入图片描述

#评估指标 - 可共用sklearn的评估指标,也可调用特定的时序指标AIC
np.sqrt(mean_squared_error(test, preds))  #rmse  输出:2550.8824550311906
arima.aic() 							  #aic 输出:2946.1506587987415
arima.summary()

在这里插入图片描述
  傻瓜式搜索合适的参数,从效率角度来说远远超过statsmodel,遗憾的是,从上述代码不难看出,pmdarima的代码思路是更靠近机器学习而不是统计学的,因此pmd.auto_arima跑出的结果往往无法满足统计学上的各类检验要求,因此泛化能力无法被保证。同时我们也很容易发现,由于数据集分割的缘故,autoarima选择出的最佳模型可能无法被复现,例如我们使用autoarima选择出的最佳模型建立模型:

model = pm.ARIMA(order=(2,1,1),seasonal_order=(1,0,1,12), max_iter=500)
model.fit(train)
np.sqrt(mean_squared_error(test, model.predict(n_periods = test.shape[0]))) #RMSE:2983.19明显高于auto_arima:2550.88的结果
model.aic() #AIC:2936.459却低于auto_arima:2946.15的结果,所以AIC并不能作为唯一标准的评估指标fig = plt.figure(figsize=(16,5))
plt.plot(range(test.shape[0]),test)
plt.plot(range(test.shape[0]),model.predict(n_periods = test.shape[0]))
plt.grid()

在这里插入图片描述

1.3.1 时间序列交叉验证

  在时序模型的选择过程中,可以借助交叉验证来帮助我们选择更好的模型。时间序列的交叉验证非常特殊,因为时间序列数据必须遵守“过去预测未来”、“训练中时间顺序不能打乱”等基本原则,因此传统机器学习中的k折交叉验证肯定无法使用。在时间序列的世界中,有以下两种常见的交叉验证方式:滚动交叉验证滑窗交叉验证

1.3.1.1 滚动交叉验证

  滚动交叉验证是一种针对时间序列数据的验证方法,其核心思想是在模型训练过程中不断扩展训练集,同时使验证集逐步向未来推进。这种方式不仅确保了模型始终遵循“用过去预测未来”的原则,还能保证训练数据与预测目标之间的时间间隔足够接近,从而提高预测的现实性和有效性。
  相比传统的“多步预测”方法,滚动交叉验证避免了“误差累积”问题。由于训练过程中始终使用真实标签进行拟合,模型不会受到前期预测误差的传递影响,因此能够更稳定地评估未来数据的预测能力。对于时间序列任务,滚动交叉验证能够更真实地模拟未来预测场景,从而提高模型的泛化性能。
在这里插入图片描述
  在pmdarima中,使用类RollingForecastCVcross_validate来实现交叉验证。

model_selection.RollingForecastCV(h=1, step=1, initial=None)

h:验证集中的样本数量,可以输入[1, n_samples]的整数。

step:训练集中每次增加的样本数量,必须为大于等于1的正整数。

initial:第一次交叉验证时的训练集样本量,如果不填写则按1/3处理。

cv = model_selection.RollingForecastCV(h=1, step=1, initial = 10)
cv_generator = cv.split(data)
next(cv_generator) #根据Initial初始训练集有10个样本,验证集遵循参数h的设置,只包含一个样本

在这里插入图片描述

next(cv_generator) #根据step的设置,训练集每次增加1个样本,验证集继续包含一个样本

在这里插入图片描述

cv = model_selection.RollingForecastCV(h=5, step=10, initial = 10)
cv_generator = cv.split(data)
next(cv_generator) #验证集包含10个样本

在这里插入图片描述

next(cv_generator) 

在这里插入图片描述
  在pmdarima中实现滚动交叉验证时,验证集实际上是可以重复的,可以在有限的数据上进行多轮验证集重合的交叉验证。

model = pm.ARIMA(order=(2,1,1),seasonal_order=(1,0,1,12),max_iter=500)
cv = model_selection.RollingForecastCV(h=24, step=12, initial=36) 
predictions = model_selection.cross_validate(model, data,cv=cv, scoring = "mean_squared_error", verbose = 2, #控制日志输出的详细程度 0:无输出1:仅显示重要信息 2:详			       细日志,显示每次滚动交叉验证的进度和结果error_score = "raise") #控制当交叉验证过程中发生错误时的行为:"raise":遇到错误时直接报错np.nan:如果遇到错误,则该次评估返回 NaN,不会影响整个交叉验证流程
predictions

在这里插入图片描述

np.sqrt(predictions["test_score"]) #rmse

在这里插入图片描述
  交叉验证的测试集中得到的RMSE大部分都大于我们之前自动化建模时得到的RMSE,并且训练数据越少时,测试集上的RMSE会越大,这可能说明在前几折交叉验证时,训练集的数据量太少,我们可以考虑增大initial当中的设置来避免这个问题。

1.3.1.2 滑窗交叉验证

  与滚动交叉验证类似,滑窗交叉验证中的验证集既可以是单一样本,也可以包含多个时间步数据。相较于滚动交叉验证,滑窗交叉验证的核心优势在于训练集大小保持恒定, 每次训练时仅使用理论上对当前验证集最有效的信息。这避免了训练集无限增长所带来的计算开销,同时确保模型始终基于最新的历史数据进行训练,提高对近期趋势的适应性。然而,这一特性也带来了潜在问题:由于训练集较小,模型需要进行 更多次训练,导致计算量大幅增加,使得交叉验证过程异常缓慢。特别是在高频时间序列或大规模数据集上,滑窗交叉验证的计算成本可能成为实际应用中的限制因素。
在这里插入图片描述
  在pmdarima当中,使用SlidingWindowForecastCV来完成滑窗交叉验证:

model_selection.SlidingWindowForecastCV(h=1, step=1, window_size=None)
h:验证集中的样本数量,可以输入[1, n_samples]的整数。

step:每次向未来滑窗的样本数量,必须为大于等于1的正整数。

window_size:滑窗的尺寸大小,如果填写None则按照样本量整除5得到的数来决定。

cv = model_selection.SlidingWindowForecastCV(h=1, step=1, window_size = 10)
cv_generator = cv.split(data)
next(cv_generator)

在这里插入图片描述

next(cv_generator) 

在这里插入图片描述

cv = model_selection.SlidingWindowForecastCV(h=5, step=10, window_size = 10)
cv_generator = cv.split(data)
next(cv_generator)

在这里插入图片描述

next(cv_generator)

在这里插入图片描述

model = pm.ARIMA(order=(2,1,1),seasonal_order=(1,0,1,12),max_iter=500)
cv = model_selection.SlidingWindowForecastCV(h=24, step=12, window_size=36) #简单粗暴
predictions = model_selection.cross_validate(model,data, cv=cv, scoring = "mean_squared_error", verbose = 2, error_score = "raise")
predictions

在这里插入图片描述

np.sqrt(predictions["test_score"])

在这里插入图片描述
  从结果来看,使用更少的训练集进行训练后,模型输出的RMSE大幅上升了,并且也没有变得更稳定,这说明当前模型下更大的训练集会更有利于模型的训练。

cv = model_selection.SlidingWindowForecastCV(h=24, step=1, window_size=132)
predictions = model_selection.cross_validate(model, data,cv=cv, scoring = "mean_squared_error", verbose = 2, error_score = "raise")
np.sqrt(predictions["test_score"])                                            

在这里插入图片描述
  此时RMSE的均值大幅下降了,但是模型还是不稳定,这说明当前时间序列各时间段上的差异较大,当前模型的拟合结果一般。虽然通过增加训练集的数据量可以让模型表现提升,但极其不稳定的结果展示当前模型的泛化能力是缺失的。当然,和使用AIC时一样,我们只能选择表现更好的时序模型(只能择优),而无法选择完美的时序模型。当我们将auto_arima选出的最佳参数放弃、而选择带有其他参数的模型,说不定得到的结果会更加不稳定。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15862.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文笔记】Are Self-Attentions Effective for Time Series Forecasting? (NeurIPS 2024)

官方代码https://github.com/dongbeank/CATS Abstract 时间序列预测在多领域极为关键,Transformer 虽推进了该领域发展,但有效性尚存争议,有研究表明简单线性模型有时表现更优。本文聚焦于自注意力机制在时间序列预测中的作用,提…

Matlab机械手碰撞检测应用

本文包含三个部分: Matlab碰撞检测的实现URDF文件的制作机械手STL文件添加夹爪 一.Matlab碰撞检测的实现 首先上代码 %% 检测在结构环境中机器人是否与物体之间发生碰撞情况,如何避免? % https://www.mathworks.com/help/robotics/ug/che…

从零开始:使用Jenkins实现高效自动化部署

在这篇文章中我们将深入探讨如何通过Jenkins构建高效的自动化部署流水线,帮助团队实现从代码提交到生产环境部署的全流程自动化。无论你是Jenkins新手还是有一定经验的开发者,这篇文章都会为你提供实用的技巧和最佳实践,助你在项目部署中走得…

鸿蒙harmony 手势密码

1.效果图 2.设置手势页面代码 /*** 手势密码设置页面*/ Entry Component struct SettingGesturePage {/*** PatternLock组件控制器*/private patternLockController: PatternLockController new PatternLockController()/*** 用来保存提示文本信息*/State message: string …

【Unity3D】UGUI的anchoredPosition锚点坐标

本文直接以实战去理解锚点坐标,围绕着将一个UI移动到另一个UI位置的需求进行说明。 (anchoredPosition)UI锚点坐标,它是UI物体的中心点坐标,以UI物体锚点为中心的坐标系得来,UI锚点坐标受锚点(Anchors Min…

Mp4视频播放机无法播放视频-批量修改视频分辨率(帧宽、帧高)

背景 家人有一台夏新多功能 视频播放器(夏新多功能 视频播放器),用来播放广场舞。下载了一些广场舞视频, 只有部分视频可以播放,其他视频均无法播放,判断应该不是帧速率和数据速率的限制, 分析可能是播放器不支持帧高度大于720的视频。由于视频文件较多,需要借助视频编…

自动化xpath定位元素(附几款浏览器xpath插件)

在 Web 自动化测试、数据采集、前端调试中,XPath 仍然是不可或缺的技能。虽然 CSS 选择器越来越强大,但面对复杂 DOM 结构时,XPath 仍然更具灵活性。因此,掌握 XPath,不仅能提高自动化测试的稳定性,还能在爬…

ASP.NET Core 如何使用 C# 向端点发出 POST 请求

使用 C#,将 JSON POST 到 REST API 端点;如何从 REST API 接收 JSON 数据。 本文需要 ASP .NET Core,并兼容 .NET Core 3.1、.NET 6和.NET 8。 要从端点获取数据,请参阅本文。 使用 . 将 JSON 数据发布到端点非常容易HttpClien…

【AI学习】关于 DeepSeek-R1的几个流程图

遇见关于DeepSeek-R1的几个流程图,清晰易懂形象直观,记录于此。 流程图一 来自文章《Understanding Reasoning LLMs》, 文章链接:https://magazine.sebastianraschka.com/p/understanding-reasoning-llms?continueFlagaf07b1a0…

CSS 实现下拉菜单效果实例解析

1. 引言 在 Web 开发过程中,下拉菜单是一种常见且十分实用的交互组件。很多前端教程都提供过简单的下拉菜单示例,本文将以一个简洁的实例为出发点,从 HTML 结构、CSS 样式以及整体交互逻辑三个层面进行详细解析,帮助大家理解纯 C…

网络安全溯源 思路 网络安全原理

网络安全背景 网络就是实现不同主机之间的通讯。网络出现之初利用TCP/IP协议簇的相关协议概念,已经满足了互连两台主机之间可以进行通讯的目的,虽然看似简简单单几句话,就描述了网络概念与网络出现的目的,但是为了真正实现两台主机…

【Windows】PowerShell 缓存区大小调节

PowerShell 缓存区大小调节 方式1 打开powershell 窗口属性调节方式2,修改 PowerShell 配置文件 方式1 打开powershell 窗口属性调节 打开 CMD(按 Win R,输入 cmd)。右键标题栏 → 选择 属性(Properties)…

GitCode 助力 Easy-Es,革新 Elasticsearch 开发体验

项目仓库(点击阅读原文链接可直达) https://gitcode.com/dromara/easy-es 项目背景:填补 Elasticsearch ORM 框架空白 在 Java 开发领域,Excel 和 Elasticsearch 的代码编写难度一直名列前茅,尤其是 Elasticsearch&a…

Vue(7)

一.Vuex (1)概述 1.是什么 vuex是一个vue的状态管理工具,状态就是数据,可以帮助管理vue通用的数据(多组件共享的数据) 2.场景 ①某个状态在很多个组件来使用(个人信息) ②多个组…

如何把邮件批量导出到本地

最近遇到邮箱满了的问题,需要把邮件批量导出到本地,然后清空邮箱。 问题是这个邮箱的官网,没有批量导出按钮,比较麻烦;总不能一封一封下载到本地,上万的。 找到了一个好用的工具,Mozilla Thun…

渗透利器工具:Burp Suite 联动 XRAY 图形化工具.(主动扫描+被动扫描)

Burp Suite 联动 XRAY 图形化工具.(主动扫描被动扫描) Burp Suite 和 Xray 联合使用,能够将 Burp 的强大流量拦截与修改功能,与 Xray 的高效漏洞检测能力相结合,实现更全面、高效的网络安全测试,同时提升漏…

如何将3DMAX中的3D文件转换为AutoCAD中的2D图形?

大家好,今天我们来探讨一下如何将3DMAX中的3D文件转换为AutoCAD中的2D图形。无论是出于设计交流、施工准备还是其他实际需求,这种转换在工程设计领域都是一项非常实用的技能。接下来,我将为大家详细介绍几种实现这一转换的方法,帮助大家轻松跨越3D与2D设计之间的鸿沟。让我…

Git 分布式版本控制工具使用教程

1.关于Git 1.1 什么是Git Git是一款免费、开源的分布式版本控制工具,由Linux创始人Linus Torvalds于2005年开发。它被设计用来处理从很小到非常大的项目,速度和效率都非常高。Git允许多个开发者几乎同时处理同一个项目而不会互相干扰,并且在…

国产编辑器EverEdit - 迷你查找

1 迷你查找 1.1 应用场景 某些场景下,用户不希望调出复杂的查找对话框,此时可以使用迷你查找窗口。 1.2 使用方法 选择主菜单查找 -> 迷你查找,或使用快捷键Ctrl Alt F,会在右上角弹出迷你查找窗口,如下图所示…

攻防世界32 very_easy_sql【SSRF/SQL时间盲注】

不太会,以后慢慢看 被骗了,看见very_easy就点进来了,结果所有sql能试的全试了一点用都没有 打开源代码发现有个use.php 好家伙,这是真的在考sql吗...... 制作gopher协议的脚本: import urllib.parsehost "12…