如何发现异常商业数据?达摩院用这套算法

简介: 作者 | 宋晓旻

1.jpg

​小叽导读:本文将集中分享阿里巴巴达摩院机器智能技术时序智能组与阿里数据团队合作成果——异常数据检测技术的演进和商业数据端的应用展示。文中提到的技术由阿里巴巴达摩院决策智能团队开发,本文由达摩院算法专家宋晓旻撰写。

阿里服务成千上万的商家和企业,日常的数据异常检测非常重要,一旦发生数据异常影响不可估量。

本篇文章介绍了阿里巴巴达摩院机器智能技术时序智能组与阿里数据团队合作成果——异常数据检测技术的演进和商业数据端的应用展示。

1、异常检测的业务

所谓异常检测就是监测并发现数据中不符合正常行为的异常模式。它已广泛用于交易监测、故障诊断、疾病检测、入侵检测、身份辨识等领域。例如商家退货比例飙升可能是竞争对手恶意刷单,网络流量的异常可能意味着受攻击主机上敏感信息的泄密,信用卡的异常消费等欺诈行为会导致巨大的经济损失。

异常检测在各个方面都对阿里的业务有巨大的帮助:

对于商业数据,它能更快的发现/溯源问题,帮助商业决策,赋能商业效益;
对于机器数据:在运维层面可以更快的发现、定位、排查问题。减少人力,提高服务质量;
对于保障数据安全:它能监控敏感数据,及时发现安全隐患。

以上提到数据主要都是随时间变化的,我们也集中力量开发时序数据分析的算法。

2、机器数据的异常检测

常见的时序异常检测模型包括统计模型、时序预测、无监督、有监督、关系型模型等。

在“异常数据检测技术"研究之前,达摩院时序智能组已经在高噪音“机器”数据的时序异常检测上积累了半年的经验,产品经过数月的迭代,算法框架和主要的部件如周期分解等都得到了打磨。其中的报警效果得到了业务方Tesla,kmon等的认可。

2.jpg

图 1. 典型机器数据的异常检测

一个典型的机器数据如上图1所示。它的噪音(起伏)较大。用户关心的往往是持续一段时间的整体变化,如图中橙色标记的点,而对于之前单个的起伏不定的单个异常不感兴趣。达摩院时序智能团队使用了Robust estimate的方法,使得算法能够区分用户感兴趣的异常和一般的噪音。

3、商业数据的异常检测

商业数据与机器数据异常检测的不同及挑战

在“异常数据检测技术"研究中,时序智能的算法遇到了新的挑战。商业数据并不能简单的复用机器数据上的算法。

首先,商业数据来源多样化,异常的定义也多样化,不可能同一组参数/算法来涵盖所有的需求。

阿里数据所研究的商业数据中常见的数据类型,包括“daily平稳”,“实时累积”,“稀疏(sparse)”,“机器数据”,“周期数据”,“非周期数据”(其它)等。

3.jpg

图 2. “Daily平稳”数据-例如GMV每日成交额
4.jpg

图 3. “实时累积”数据 - 例如pv,uv等每天清零并累积的数
5.jpg

图 4. “稀疏"(sparse)数据 - 例如app的访问量等
6.jpg

图 5. “机器数据” - 例如CPU负载,网络流量等基础设施的数据,一般抖动/噪音较大
7.jpg

图 6. “周期”数据-例如某些有周期性的交易或交通数据等

其次的挑战是:商业数据相对机器数据,虽然噪音较小,但是异常出现的更加频繁,敏感度要求非常准确。对漏报和误报的要求都很高。

最后一个挑战是,有的商业数据在一段时间内随时间单调上升(或下降),之前的算法会在持续上升(或下降)后报警。但是阿里数据的daily平稳数据要求不报警,并且要置信区间自动跟随数据的趋势上升(下降)。

我们将以上需求,归纳为技术上的挑战:

如何让数据自动分类与参数推荐;
如何保持让算法保持稳定的敏感度,不受异常的干扰;
如何让置信区间自动跟随数据的趋势;

这三个技术难题成了异常检测上线的拦路虎。

商业数据异常检测场景的成果

经过多次交流反馈,优化了之前的算法,并且解决了上一节中列出的三个拦路虎,让新的异常检测算法为新零售业务数据赋能。

我们在优化模型之前,它没有分解的能力,处理周期的能力很弱,且不能区分长期的整体变化和短期的突变。

原始数据直接用来预测会被异常所干扰,无法稳定的判断异常,并且置信区间的计算量非常大。

总之,优化前的算法的稳定性和可解释性比较差,对周期性和大促等异常的反应很不稳定,无法满足业务的需求。而研究后的新算法基于分解和统计模型,它的稳定性和可解释性很强,且对周期性的处理很完备,对各类异常的干扰很稳健。

下面列出4个在平台上收集的真实案例。它们都是在时序数据上做异常检测。蓝线是真实数据,算法计算出置信区间的上下界。黄线是上界,黑线是下界。如果真实数据在上下界之间是正常,超出了就是异常。

Daily平稳数据

亮点:自动识别为daily平稳数据,新算法检测

8.jpg

图 7.异常检测:优化前的daily平稳数据异常检测

9.jpg

图 8.异常检测:优化后的daily平稳数据

图7和图8对比了优化前后算法对于daily平稳的效果。在3月2~3日,交易量有了大幅的上升(图8中的红框),陡增了20%,这是一个异常。优化前的算法上下界不是很合理,上界随着数据向上移动,下界过于宽松。没有检测出这个异常。图8中,新算法根据数据近期的波动振幅自动调整安全区间的上下界,宽度合理,正确的识别出3月2号的这个异常。并且,之后几天的上下界一直比较平稳,没有受到这个异常的扰动。

实时累积数据

亮点:优化后算法区间灵敏度高,保障不漏报

10.jpg

图 9.异常检测:优化前的累积数据
11.jpg

图 10.异常检测:优化后的累积数据

图9中的上下界过宽,会漏掉很多异常。而图10中的上下界离真实数据非常近,保障不漏报。

机器数据

亮点:优化前算法完全不可用,优化后能自动识别高噪音数据,合理设置数据上限安全区间

12.jpg

图 11.异常检测:优化前的非周期数据
13.jpg

图 12.异常检测:优化后的非周期数据

对于机器数据,图11的上下界随着高噪音数据上下跳动,不可靠。图12中的上下界非常稳定,且不受大促(3/4)的高点影响。

稀疏数据

亮点:优化后能自动识别为稀疏、并识别数据周期,优化前算法完全不可用

14.jpg

图 13.异常检测:优化前的稀疏数据
15.jpg

图 14.异常检测:优化后的稀疏数据

图13中优化前的算法无法对稀疏数据的进行检测。图14的优化过的算法,可以提取稀疏数据中的高点,进行判断,减少了大量的误报。

商业数据异常检测的技术

数据的自动分类与参数推荐

由于涉及到接入数据类型的错综复杂,既有商业数据,也有机器数据;商业数据中也有很多种类。用户需求以及对异常的定义也不尽相同。在大规模部署的时候,不可能每一条都去人工识别和配置。

我们对数据和业务进行总结,归纳业务方的需求。总结出以下解决方案:

(1)将数据类型归纳为上节介绍过的“daily平稳”,“实时累积”,“离散数据”,“机器数据”,“周期数据”或其它等并开发出分类器,在进行检测前会自动识别数据类型。
(2)针对数据类型,自动适配不同的模型和参数。如图15所示。
(3)分解流程:去除周期/趋势等影响检验精度的分量
(4)鲁棒的统计检验:稳定,准确的判断异常。

16.png

图15.数据自动分类/参数推荐/分解/检验的流程

分类器根据数据的特征来工作。分类器会做以下操作:读取采样率,判断数据每天归零的特性,测量稀疏性,测量噪音大小,判断周期性等等。然后综合判断数据该属于那一类。在保证准确性的基础上,我们优化了分类器的速度,检测时间达到毫秒级。

保持算法保持稳定的敏感度

我们开发了基于M-estimator的方法过滤参考区间的异常,并加入了时间衰减(decay)的系数来调整权重。这保证了算法具有稳定的敏感度,不受异常的干扰。我们称之为Robust Ttest。

17.jpg

图16. 置信区间受异常影响的效果比较。从上往下:(1)没有加Robust Ttest的检测效果。(2)加入Robust Ttest,没有decay(3)加入Robust Ttest,decay=0.8 (4)加入Robust Ttest,decay=0.6

由于缺乏打标的数据作为参照,我们选择了基于统计的无监督异常检测算法,并做了假设:例如数据分布接近高斯分布,异常数据出现的频度相对于正常数据较为稀少等。当实际数据违背假设时,就需要对算法做修正。比如,当异常出现并滑动进入左窗口, 即作为参考的数据窗口,就把参考窗口中本来近似与高斯分布打破了。此时需要识别并去除异常的干扰。

对图16的详细解释如下。从上往下:(1)没有加入Robust Ttest和decay,可以看到异常右侧的置信区间被异常所干扰,上下宽度变的很大并导致漏报。(2)加入了Robust Ttest,没有decay,可以看到异常右侧的置信区间没有被异常所干扰。但是,在右侧有趋势下降时,置信区间不能很快的跟随。(3)加入了Robust Ttest,并设置decay=0.8,在右侧有趋势下降时,置信区间可以有跟随。(3)加入了Robust Ttest,并设置decay=0.6,在右侧有趋势下降时,置信区间可以很快的跟随。

置信区间能够跟随数据的趋势

为了使置信区间能够跟随数据的趋势,检测违反趋势的异常点。我们采用了基于HP filter的detrend技术,解决了这个难题。

使用了Robust Ttest和decay之后,有些数据(如图3)具有长期的趋势,置信区间依然不能及时的跟随。我们使用了基于HP filter的除趋势(trend)处理。使得置信区间能够随着长趋势上升或者下降,只检测单点的突起。

18.jpg
19.jpg

图17.过年期间daily平稳数据的异常检测,原数据为深蓝实线,上界为灰虚线,下界为淡蓝虚线,原数据超过上下界为异常(1)上图未经过去除趋势的处理, 上下界很不稳定 (2)下图经过了去除趋势的处理,上下界稳定。

4、总结

商业数据的异常出现的更加频繁,数据漏报和误报的要求都很高,数据类型也更加多样化。这些挑战,被我们在研究中一一阐明,并一一解决。

本文部分内容除引自内部文献外,部分内容引自:
Q. Wen, J. Gao, X. Song, L. Sun, H. Xu, and S. Zhu, "RobustSTL: A Robust Seasonal-Trend Decomposition Algorithm for Long Time Series," in Proc. Thirty-Third AAAI Conference on Artificial Intelligence (AAAI 2019), Honolulu, Hawaii, Jan, 2019. Link


Qingsong Wen, Jingkun Gao, Xiaomin Song, Liang Sun, Jian Tan. RobustTrend: A Huber Loss with a Combined First and Second Order Difference Regularization for Time Series Trend Filtering. Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI-19).Link.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66320.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【达摩院OpenVI】几行代码,尽享丝滑视频观感

团队模型、论文、博文、直播合集,点击此处浏览 随着网络电视、手机等新媒体领域的快速发展,用户对于观看视频质量的要求也越来越高。当前市面上所广为传播的视频帧率大多仍然处于20~30fps,已经无法满足用户对于高清、流畅的体验追…

马云爸爸成立快一年的达摩院,究竟在做什么?

去年10月份,“马云爸爸”做了一件非常惊人的事——成立阿里巴巴达摩院。 阿里之下的达摩院,来源于武侠小说,作为武学最高研究机构,达摩院代表了修为的最高境界。同样,科研也代表了精进、执着和专注的精神。 达摩院成…

计算机如何“看懂”图片?达摩院提出新的研究方法

简介: 本文的部分内容基于英文论文"Learning in the frequency domain"翻译而来,英文论文已经被计算机视觉顶级会议Computer Vision and Pattern Recognition (CVPR) 2020接收。该论文的公开链接为:https://arxiv.org/abs/…

深度解密阿里达摩院:如何让科技与商业共舞

恐怕再没有一个科研机构被赋予这么诗意的名字,达摩院。 它来源于武侠小说,作为武学最高研究机构,达摩院代表了修为的最高境界。同样,科研也需要精进、执着和专注的精神。 或许是源于对武学的痴迷,2017年10月,阿里巴巴董事局主席马云将新成立的阿里研究院命名为“达摩院…

阿里成立达摩院,三年投入超千亿

马云表示:“阿里巴巴前十年最重要的命题是活下去,内部绝对不提成立研究院。” 阿里巴巴今年18岁了,到了成立研究院的时候了。 今天上午,在2017杭州云栖大会上,阿里巴巴CTO张建锋宣布,阿里巴巴成立全球研究…

阿里达摩院发布并开源“通义”大模型,AI底座之上促场景创新

2022 WAIC带上,达摩院发布并开源“通义”大模型,在国内率先构建了AI统一底座,在业界首次实现模态表示、任务表示、模型结构的统一。 9月2日,阿里巴巴达摩院主办世界人工智能大会“大规模预训练模型”主题论坛。会上,达…

认识一下阿里的AI殿堂-达摩院

国内三大科技领头羊BAT,BT我们已经介绍过,今天随我一起揭开阿里巴巴技术背后的神秘面纱。 1 达摩院的诞生 1.1 冠名与成立 2017年10月11日,第八届云栖大会在杭州拉开了帷幕,这次大会上,马云重磅宣布成立了阿里巴巴全球研究院,取名为达摩院(DAMO),并计划3年内,对达…

图解阿里达摩院内部结构

文章来源:ATYUN AI平台 达摩院结构图 阿里达摩院5大研究领域——机器智能、数据计算、机器人、金融科技、X实验室,旗下共设14个实验室。 ——一.机器智能领域: 1.包括:语音实验室,视觉智能实验室,语言技…

达摩院的地球云计算平台AI Earth使用体验

缘起 这几天朋友圈被AI earth刷屏了,阿里达摩院推出了基于AI与云计算的地球科学计算平台AI earth。周五我便注册了账号,周六通过了审核。我开始尝试使用AI earth。 使用初体验 首先登录AI earth的官网(https://engine-aiearth.aliyun.com/…

达摩院快速动作识别TPS ECCV论文深入解读

团队模型、论文、博文、直播合集,点击此处浏览 一、论文&代码 论文:Spatiotemporal Self-attention Modeling with Temporal Patch Shift for Action Recognition 模型&代码:https://modelscope.cn/models/damo/cv_pathshift_acti…

Python动物图像分割API简单调用实例演示,阿里达摩院视觉智能开放平台使用步骤

阿里云视觉智能开放平台 - 动物分割 效果图演示平台入口创建获取密钥本地图片转 URL 与密钥测试代码调用演示语义分割知识拓展阿里云达摩院智能视觉开放平台 效果图演示 调用本地图片处理后可以直接保存到本地,右边就是分割好的效果图,可以看到分割的效…

在本地机房享受专属公共云服务,详解阿里云本地化部署服务云盒

6月30日,阿里云宣布本地化部署服务阿里云云盒Cloud Box正式上线。从即日起,用户通过阿里云官网下单即可购买。 各行业上云已成趋势,随着大数据、人工智能、物联网、5G 等技术的快速发展,大部分公司将数字化转型列为企业的优先战略…

【洞见观点】金融领域隐私计算平台间的互联互通技术实践与研究

目录 互联互通的定义 互联互通的原则 互联互通演进史 第一阶段:业务驱动不同厂商的隐私计算平台一对一对接 第二阶段:厂商自定义自己的互通规范 第三阶段:形成行业统一的标准规范 互联互通的实现路径 第一层次:管理系统互通 1)节点发现 2)资源…

港科资讯 | 香港科技大学经济学博士2023招生夏令营

为了让有志于在经济学领域继续深造的学生与我们的师生互动,感受科大校园的学习、研究和生活环境,香港科技大学(科大)商学院经济学博士项目将于今夏举办为期两天的招生夏令营,我们欢迎广大优秀学子踊跃申请。 优秀的参与…

教授专栏37 | 黄昊: 发展虚拟资产, 须监管教育并行

文 / 黄昊教授 全球第二大虚拟货币交易所FTX早前 「爆煲」 申请破产,其创办人兼行政总裁SamBankman-Fried (SBF) 辞任行政总裁。FTX于2019年成立后,先后共获10多亿美元融资,当中不乏知名机构,包括红杉资本、软银、淡马锡及贝莱德等…

FinTech活动 | “金融科技创新应用与发展”研讨会25日在金融街举办

8月25日,由北京金融街服务局、国家金融与发展实验室金融科技研究中心主办,金融科技50人论坛、神州信息协办,中国人民大学国家发展与战略研究院、中国人民大学国际货币研究所、浙江大学互联网金融研究院、中关村互联网金融研究院、深圳市金融科…

香港科技大学有什么好的专业?

香港科技大学创办于1991年10月,是一所坐落于香港清水湾半岛的公立研究型大学。大学设有4个学院:工学院、理学院、人文社会科学学院和工商管理学院,还设有2个研究院:香港科技大学公共政策和行政研究生院和香港科技大学霍英东研究院…

达观数据荣获长三角金融科技研究院和《金融电子化》2021中国金融科技领军企业

近日,由长三角金融科技研究院和《金融电子化》杂志社联合主办的“2022金融科技创新与应用外滩高峰论坛暨第二届长三角金融科技创新与应用全球大赛总决赛”中,达观数据凭借数字化信贷办公机器人项目在此次比赛中脱颖而出,荣获“2021中国金融科…

港科招生 | 香港科大DBA(工商管理博士)项目介绍和科研成果分享

香港科大DBA(工商管理博士) 项目介绍和科研成果分享 科技会减少我们对官方数据的依赖吗? 在追求卓越研究和创新思维的抱负下,香港科技大学商学院延续其 30 年的卓越历史,坚定不移地致力于学术独创性和严谨的科研项目。…

【金融科技前沿】【长文】金融监管、监管科技以及银行业监管报送概述

上周金融科技前沿课程的主题是《监管科技》,韩海燕老师从金融监管引入,介绍了我国的金融监管体系,接着进入监管科技的详细讲解。我觉得最主要的是弄清楚监管科技的定义,以及在实际的银行业应用场景中具体的运作流程是怎么样的。韩…