机器学习笔记:时间序列异常检测

1 异常类型

1.1 异常值outlier

给定输入时间序列\{x_1,\cdots,x_t\},异常值是时间戳值其中观测值x_t与该时间序列的期望值E(x_t)不同。

1.2 波动点(Change Point)

给定输入时间序列\{x_1,\cdots,x_t\},波动点是指在某个时间t,其状态在这个时间序列上表现出与t前后的值不同的特性。

1.3 断层异常(Breakout) 

时序系统中某一时刻的值比前一时刻的值陡增或者陡降很多,之后形态也发生了改变。

2 常见异常检测方法

2.1 基于统计

  • 首先建立一个数据模型。异常是那些同模型不能完美拟合的对象
    • eg,数据分布模型可以通过估计概率分布的参数来创建。如果一个对象不能很好地同该模型拟合,即如果它很可能不服从该分布,则它是一个异常

2.1.1 3σ法则

  • 假如分布满足正态分布,那么  (μ−3σ,μ+3σ)区间内的概率为99.74。
  • 所以可以认为,当数据分布区间超过这个区间时,即可认为是异常数据。

2.1.2 分位数异常检测

  • IQR是第三四分位数减去第一四分位数,大于Q3+1.5*IQR之外的数和小于Q1-1.5*IQR的值被认为是异常值。

2.1.3  Grubbs测试

  • 不断从样本中找出outlier的方法
    • 这里的outlier,是指样本中偏离平均值过远的数据
  • 算法流程

    1. 样本从小到大排序

    2. 求样本的mean和std

    3. 计算此时样本的min/max与mean的差距,距离更远的那个为可疑值

    4. 求可疑值的z-score (standard score),如果大于预先设定的Grubbs临界值,那么就是outlier;

    5. 对剩余序列不断做1~4步(每次检测一个异常点)

  • 局限性:

    1. 它的判断机制是“逐一剔除”,所以每个异常值都要单独计算整个步骤,数据量大吃不消;

    2. 需假定数据服从正态分布或近正态分布。

2.2 基于预测

  • 对于单条时序数据,根据其预测出来的时序曲线和真实的数据相比,求出每个点的残差
  • 对残差序列建模,利用KSigma或者分位数等方法便可以进行异常检测

2.3 基于距离

2.3.1 k-最近邻

  • 数据对象与最近的k个点的距离之和。
  • 很明显,与k个最近点的距离之和越小,异常分越低;与k个最近点的距离之和越大,异常分越大。
  • 设定一个距离的阈值,异常分高于这个阈值,对应的数据对象就是异常点。

2.4 基于密度的方法

2.4.1 Local Outlier Factor (LOF)

  • 给每个数据点都分配一个依赖于邻域密度的离群因子 LOF,进而判断该数据点是否为离群点
    • 好处在于可以量化每个数据点的异常程度(outlierness)
  • 数据点p的局部相对密度(局部异常因子)为点p邻域内点的平均局部可达密度跟数据 点p的局部可达密度的比值(密度越小,越可能是异常点)
      • 数据点P的局部可达密度=P最近邻的平均可达距离的倒数。距离越大,密度越小。
        • 点O的k近邻距离=第k个最近的点跟点O之间的距离。
  • 整体来说,LOF算法流程如下:

    • 对于每个数据点,计算它与其他所有点的距离,并按从近到远排序;

    • 对于每个数据点,找到它的K-Nearest-Neighbor,计算LOF得分。

2.5 基于聚类的方法

  • 小于某个最小尺寸的所有簇视为异常

2.6 基于树的方法

2.6.1 孤立森林

  •  “孤立” (isolation) 指的是 “把异常点从所有样本中孤立出来”

  • 用一个随机超平面对一个数据空间进行切割,切一次可以生成两个子空间
  • 接下来再继续随机选取超平面,来切割第一步得到的两个子空间
  • 以此循环下去,直到每子空间里面只包含一个数据点为止
  • ——>可以发现,那些密度很高的簇要被切很多次才会停止切割(每个点都单独存在于一个子空间内,才会停止切割);但那些分布稀疏的点,大都很早就停到一个子空间内了

  • 孤立森林的算法思想
    • 异常样本更容易快速落入叶子结点
    • 或者说,异常样本在决策树上,距离根节点更近

  • 随机选择m个特征,通过在所选特征的最大值和最小值之间随机选择一个值来分割数据点。
  • 观察值的划分递归地重复,直到所有的观察值被孤立。
  • 获得 t 个孤立树后,单棵树的训练就结束了。接下来就可以用生成的孤立树来评估测试数据了,即计算异常分数 s。
    • 对于每个样本 x,需要对其综合计算每棵树的结果(异常得分):
        • E(h(x))——样本在这t棵孤立树上路径长度的均值
        • c(n)——n个样本构建一个二叉搜索树BST中的末成功搜索平均路径长度
    • 异常得分越大,平均路径长度越小,越容易是孤立点

参考内容:【TS技术课堂】时间序列异常检测

时间序列异常检测综述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/237728.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jmeter如何做接口测试?

Jmeter介绍&测试准备: Jmeter介绍:Jmeter是软件行业里面比较常用的接口、性能测试工具,下面介绍下如何用Jmeter做接口测试以及如何用它连接MySQL数据库。 前期准备:测试前,需要安装好Jmeter以及jdk并配置好jdk环…

STM32 1位共阳极数码管

数码管分为共阳极和共阴极,即多个二极管的同一端接到GND/Vss(若一起接到GND,则称为共阴极。若一起接到Vss,则称为共阳极) 把数码管上的每个二极管一次标号对应a,b,c,d,e,f,g,dp。我们知道发光二极管一端正一端负&#…

学习redis有效期和数据类型

1、安装redis和连接redis 参考:ubuntu安装单个redis服务_ubuntu redis单机版安装-CSDN博客 连接redis:redis-cli.exe -h localhost -p 6379 -a 123456 2、Redis数据类型 以下操作我们在图形化界面演示。 2.1、五种常用数据类型介绍 Redis存储的是key…

小米数据恢复软件:如何从小米手机恢复已删除的数据

“买一部小米手机,送一个移动硬盘”。人们惊叹于小米手机以非常合理的价格提供的大容量。我们甚至可以把小米手机当做一个移动硬盘来使用,存储大量的照片、视频、文档等文件。但是,在我们使用手机的过程中,误删的情况时有发生&…

STM32学习笔记二十二:WS2812制作像素游戏屏-飞行射击游戏(12)总结

至此,飞行射击游戏已经基本实现该有的功能,已经比较接近早期的商业游戏了。 如果采用脚本,可以完成关卡游戏,如果不用,也可以做成无限挑战游戏。 我们汇总一下制作的过程: 1、建模UML 2、主循环处理过程…

大数据仓库开发规范示例

大数据仓库开发规范示例 一、前提概要二、数仓分层原则及定义2.1 数仓分层原则2.2 数仓分层定义 三、数仓公共开发规范3.1 分层调用规范3.2 数据类型规范3.3 数据冗余规范3.4 NULL字段处理规范3.5 公共字段规范3.6 数据表处理规范3.7 事实表划分规范 四、数仓各层开发规范4.1 分…

关于浏览器缓存的一些坑记录

1.js强制刷新浏览器缓存 网络上一搜基本都说用location.reload(true)可以强制刷新缓存,但是没人讲这个方法只准对火狐浏览器生效,火狐浏览器的确可以实现强制刷新并每次请求都是新的没有走缓存;chrome依然是走200 状态 缓存。 MDN解析: 2.m…

带你拿捏SpringBoot自动装配的核心技术?模块装配(@EnableXXX注解+@Import)+ 条件装配(@ConditionalXXX)

文章目录 Profile激活指定配置文件主配置文件中指定激活的profile命令行激活设置虚拟机参数激活 profile控制不到的地方 Spring原生的条件装配注解ConditionalConditional接口讲解案例讲解 Spring Boot封装的条件装配注解ConditionalXXX自己实现ConditionalOnBeanSpringBoot 源…

最新消息:OpenAI GPT Store 正式上线,GPTs 应用商店来了

OpenAI推出的两款新产品和服务:GPT Store和ChatGPT Team,提供了许多全新的解决方案和功能,旨在帮助用户更轻松地使用和构建GPT工具,同时也增加了公司的收入来源。GPT Store是一个全新的在线平台,允许用户创建和分享自定…

MyBatis实战指南(二):工作原理与基础使用详解

MyBatis是一个优秀的持久层框架,它支持定制化SQL、存储过程以及高级映射。那么,它是如何工作的呢?又如何进行基础的使用呢?本文将带你了解MyBatis的工作原理及基础使用。 一、MyBatis的工作原理 1.1 MyBatis的工作原理 工作原理…

论文阅读1---OpenCalib论文阅读之factory calibration模块

前言 该论文的标定间比较高端,一旦四轮定位后,可确定标定板与车辆姿态。以下为本人理解,仅供参考。 工厂标定,可理解为车辆相关的标定,不涉及传感器间标定 该标定工具不依赖opencv;产线长度一般2.5米 Fa…

Python基础知识:整理9 文件的相关操作

1 文件的打开 # open() 函数打开文件 # open(name, mode, encoding) """name: 文件名(可以包含文件所在的具体路径)mode: 文件打开模式encoding: 可选参数,表示读取文件的编码格式 """ 2 文件的读取 文…

Find My资讯|AirTag 2或推迟上市,Find My功能十分强大

苹果于 2021 年4月推出了初代 AirTag。苹果已将第二代 AirTag 的推出推迟到 2025 年,目前苹果官方并不急于推出AirTag 2的原因还有AirTag所搭载的搜寻定位功能非常的强大,在市场上几乎没有任何竞争对手可言。 AirTag使用蓝牙和苹果设备的“查找我的”网…

Redis命令 - Lists命令组常用命令

先创建一个 key 叫做 mylist,mylist存一个list。 list数据类型底层是一个链表。先进后出,后进先出。 命令中的L(Left)、R(Right)代表链表的头部L(下标0的位置)和尾部R(…

uni-app分包预下载

模块的二级页面,按模块处理成分包页面,有以下好处: 按模块管理页面,方便项目维护。减少主包体积,用到的时候再加载分包,属于性能优化解决方案。 ::: tip 温馨提示 通过 VS Code 插件 uni-create-view 可…

AI与编程学习

在C语言中,指针通常与字符数组或字符串打交道时会涉及到ASCII码的转换,而不是用于表现多位数的第一位。48这个值对应的是ASCII码表中数字字符0的编码。 如果你有一个表示多位数的字符数组,例如: c char number[] "1234&qu…

TortoiseSVN·文件锁定与清理

安装 TortoiseSVN 的时候,选择 svn 命令可用, 选择 will be intalled on local hard drive 。 在锁定的文件夹内 cmd 进入终端,输入 find . -type f -name ".svn/lock" -exec rm -f {} \; 删除所有锁定文件。进行清理操作:svn clea…

Apache ActiveMQ RCE CNVD-2023-69477 CVE-2023-46604

漏洞简介 Apache ActiveMQ官方发布新版本,修复了一个远程代码执行漏洞,攻击者可构造恶意请求通过Apache ActiveMQ的61616端口发送恶意数据导致远程代码执行,从而完全控制Apache ActiveMQ服务器。 影响版本 Apache ActiveMQ 5.18.0 before 5.1…

LeetCode刷题.15(哈希表与计数排序解决41. 缺失的第一个正数)

给你一个未排序的整数数组 nums ,请你找出其中没有出现的最小的正整数。 请你实现时间复杂度为 O(n) 并且只使用常数级别额外空间的解决方案。 示例 1: 输入:nums [1,2,0] 输出:3 示例 2: 输入:nums …

使用setdefault撰写文本索引脚本(出自Fluent Python案例)

背景介绍 由于我们主要介绍撰写脚本的方法,所以用一个简单的文本例子进行分析 a[(19,18),(20,53)] Although[(11,1),(16,1),(18,1)] ambiguity[(14,16)] 以上内容可以保存在一个txt文件中,任务是统计文件中每一个词(包括字母,数…