关于统一事件管理,一定有你想知道的(二)

本文部分内容来源于布博士----擎创科技资深产品专家

哈喽~又见面啦~ 上期内容我们说到了事件以及事件管理,戳这里一键恢复上期精彩内容:关于统一事件管理,一定有你想知道的(一)

这期主要带大家看看事件管理是怎么运用到现实生活中的,主要包括以下两个方面内容(*温馨提示:本次分享干货较多,篇幅较长,感兴趣的朋友可以先马后看,谨防丢失):

一、事件管理的应用场景

二、如何进行统一事件管理

一、事件管理的应用场景

1.智能运维 AIOps

智能事件管理整合 IT 监控工具告警信息,智能化降低 95% 告警噪音,自动化事件管理流程,加强团队协作,加速故障定位和修复,将业务影响降到最低。

2. 安全信息事件管理 SIEM

汇聚企业内、外部安全事件,通过规则引擎和事件流处理引擎,实时洞察安全风险,并利用灵活的事件处置流程,帮助团队主动应对安全事故。

3. 物联网应用 Internet of Things

将智能设备、传感器的事件信息在物联网边缘节点和核心节点实时进行汇总、加工,通过事件流式处理,捕获和发现新的数据模型,挖掘更多高价值应用场景。

4. 业务分析 Business Analysis

打通业务运营和 IT支撑的数据边界,从系统中实时获取更多的业务数据,帮助团队对影响业务的事件做出快速、正确的反应。在危机时刻,掌控混乱局面。

从以上场景中,我们不难发现统一事件管理运用的广泛性。那统一事件管理是如何运用到日常场景中的呢?我将通过以下3个不同规模的案例来说明。

案例1:单一用户服务事件

某银⾏的私⼈银⾏中⼼经理张正在尝试登录银⾏的私⼈银⾏系统,以查看他所分配到的客户名单中近期是否有拜访安排。然⽽,他的访问认证没有通过,尽管尝试了重置密码,但仍然无法登录,于是他联系了IT服务台。

IT服务台经理⼩王获取了张经理的详细信息并验证了他是否是该银⾏的私⼈银⾏中⼼经理。验证通过后,⼩王登录私⼈银⾏系统管理员模块并检查了张经理的个人资料以及相关配置。结果发现,由于调岗的原因,个⼈资料中的某些更改没有正确执⾏,导致了错误。

⼩王针对这些更改进行了触发并重新执⾏。然后张经理重新尝试登录,并成功地登录了系统。⼩王关闭了⼯作台上的事件记录,同时系统向张经理发送了满意度调查。张经理非常满意,给⼩王打了5星的好评。

⼩王继续检查私⼈银⾏系统相关的更改情况,其他⼈的更改都已经正常运⾏。⼩王确认“不需要创建⼯单”。

案例2:多⽤户服务事件

IT服务台李经理注意到最近电话数据增加,且基本上都接到了同样的事件:⼿机转账⻓时间没有响应。同时从告警操作台的值班经理处知道了某业务系统的数据库错误,他们正在处理该问题的消息。

李经理评估这是⼀个重要的服务事件,他⽴即登录ITSM系统发布了⼿机转账问题的⼀个公告,并⽴即创建了⼀个事件⼯单,要求有团队收集到的与该问题相关的事件(包括IT服务台和统⼀事件管理平台的告警⼯作台)关联起来,以便集中进⾏管理,⽽不需要浪费重复的资源分别进⾏处理。

10分钟后,李经理收到了从IT经理那⾥得到的最新消息,该系统现在恢复运⾏,因此他重新要求IT服务台的多名值班⼈员验证⼿机转账业务,确认他们已经恢复正常,并关闭了⼯单。

最后,他在ITSM系统中重新更新了公告的内容。

案例3:重⼤IT服务事件

"不好了!",NOC 值班⼯程师⼩李惊呼道。

统⼀事件管理平台的告警⼯作台发现告警⻛暴,屏幕上不断有新的告警涌现。⼤量的虚拟机出现了宕机情况,这意味着要么是核⼼交换机出现故障,要么是虚拟机管理程序出现问题。

⼩李在 ITSM 系统上登录了该事件,并将其定义为重⼤事件。他联系了云管理员和⽹络管理员并召开了会议。

作为⼀家公有云服务商,公关经理也需要参与进来,因为她需要实时了解事件的情况、严重性、影响范围等,并需要及时通知客户以应对该事件可能造成的舆论压⼒。

云管理员很快发现这是虚拟机管理程序上的⼀个错误造成的。他们⽴即电话联系了虚拟机管理程序的供应商。同时,云管理员将该事件的优先级调整为最⾼。

由于越来越多的虚拟机出现问题,电话涌⼊呼叫中⼼,CEO 也亲⾃介⼊,并亲⾃打电话给受影响的⼤客户。此时供应商还没有尽快响应该事件,但是 CTO 已经触发了应急响应,该事件在 2 ⼩时内得到解决。

接下来的⼀段时间⾥,CTO 组织进⾏了事件复盘,以查明事件的根本原因,供应商也参与其中。形成事件报告,针对报告的内容会发起⼀系列的研发、测试及变更计划,以确保此类事件不会再次发⽣。

二、如何进行统一事件管理

从3个不同规模的⽰例中可以看出,在进⾏事件或应急响应的过程中,为了满⾜客户的服务需求,IT团队将按照以下最佳实践的过程执⾏各种活动,主要包括:

1.检测事件

事件检测通常包括以下三种⽅式:

  • ⽤户报告问题,⽽服务台的值班⼈员将验证是否为事件。

  • 紧急程度,取决于对客户SLA的承诺,即恢复服务的速度。

  • 优先级,针对不同的业务或客户影响,哪些应该优先被处理。

2.记录事件

⼀般情况下,事件的记录是通过系统来完成的,这些系统提供了对历史事件的管理、总结及分析的能⼒,包括:

  • 呼叫中⼼系统:外部客户⼀般通过电话联系呼叫中⼼系统,客户服务⼈员负责在此记录客户的问题。

  • IT⼯作台:内部⽤户进⾏问题报障时通常会访问IT⼯作台。

  • 监控系统:为了⾃动化监控并发现系统的潜在问题,会对服务和相关的服务组件进⾏监控,以发现异常。

  • 统⼀事件管理平台:会统⼀收集不同监控系统产⽣的异常,并及时同步针对呼叫中⼼系统、IT⼯作台的⽤户及客户报障⾄统⼀事件管理平台,进⾏统⼀的管理。

  • ITSM系统:如果事件被确认属于重⼤事件,需要留存,则需要事后在ITSM系统中创建事件单,以备审计。

3.事件分类

在事件分类阶段,主要根据以下内容对事件进⾏分类:

  • 属于什么类型:如硬件故障、软件故障、⽹络故障或其它。

  • 影响程度及范围:如对哪些业务、客户造成了影响。

  • 紧急程度:取决于对客户SLA的承诺,即恢复服务的速度。

  • 优先级:针对不同的业务或客户影响,哪些应该优先被处理。

分类有助于:

加速对事件的识别及处置效率;有效识别谁应该对该事件负责;降低事件处置成本。

4.诊断事件

事件诊断的核⼼在于确定出了什么问题,以及针对该问题恢复正常服务的最快⽅法。

如果事件之前已经发⽣过且已经命中了事件模型,则可以由⼀线⼈员直接进⾏诊断即可。但是,对于更复杂或之前没有发⽣过的事件,则需要跨职能团队或由⼆线的专家进⾏联合调查。

5.解决事件

事件的解决是指诊断完成之后,针对该事件的解决⽅案,包括临时修复解决⽅案和永久修复解决⽅案。⼀般在应急及事件处置过程中不追求永久修复,⽽是希望在最短的时间内通过⼀系列的操作尽快恢复⽣产。主要的操作包括以下⼏种 :

  • ⾃动实施:⼀般是根据事先定义的已知事件模型,完成对事件的⾃动解决、⾃动恢复,不需要⼈⼯诊断和处置,全部有⾃动化来完成。

  • 记录下来供运维⼯程师⾃⾏解决:⼀般会根据事件模型或系统分析结果给出处置的建议,由运维⼯程师进⾏决策,并最终通过⼈⼯的操作来完成恢复过程。针对⼀些复杂场景,也可以请⽀持团或供应商来提供相应的解决⽅案,由运维⼯程师来执⾏操作过程。

6.关闭事件

⼀旦事件得到解决,就需要对该事件进⾏正式关闭。关闭需要完成以下动作:

  • 与⽤户、客户或其他管理层及利益相关者沟通,告知业务服务已经恢复正常。

  • 根据需要,更新CMDB的配置信息,例如为了恢复业务⽽增加了数据库集群的规模。

  • 更新计费,例如内外部⼈⼒的投⼊、增加新的服务器等。

7.事后复盘

事后复盘往往被许多组织所忽略,但其是进⾏知识总结、优化监控、优化事件处置、优化现有事件及应⽤流程必不可少的重要环节。

事件复盘⼀般在事件发⽣后5个⼯作⽇内完成,在这⼀环节⼀定要设置审查岗,详细审查运维⼯程师针对事件处置的总结报告,报告主要内容包括:

  • 报告⽇期

  • 报告负责⼈

  • 事件概述:通过⼀两句简短的话,简述事件以及根本原因、发⽣时间和造成的影响。如,2023.8.5⽇上午9:25,由于数据库故障,造成故障时段约20%的交易出现响应时间变⻓,影响了⽤户使⽤体验,持续时间约15分钟,严重等级为“主要”。

  • 事件详情:①详细描述发生了什么事件?②针对该问题的根本原因是什么?③针对该问题的临时解决⽅案(为了尽快恢复业务,⽽制定的快速恢复解决⽅案)?④针对该问题的永久解决方案。

  • 造成的影响:针对业务、对客户、对交易等造成的影响,严重等级。

  • 时间线:为了保障SLA,需要详细记录发现时间、通知负责⼈时间、响应时间、解决时间、关闭时间等,主要参照企业内部的相应考核标准以及对最终⽤户的承诺标准。

  • 参与⼈员(应急及事件场景不同参与⼈员会有所不同):①事件指挥官。②记录员。③联络员。④其他参与⼈:如不同领域的专家、开发或测试等。

  • 针对该事件我们是如何响应的:①做的好的地⽅:⽐如在之前的应急及事件响应过程中我们从来没有使用过的流程、⽅法、技术等,这些可以⼤⼤改善事件响应时效的。②做得不好的地⽅:⽐如在响应过程中我们发现现有的流程或⽅法针对特定的环节会造成阻⼒,需要加以改善。

  • 后续⾏动计划

完善任何必要的修复措施,以防⽌类似的问题未来再次发⽣。如:

①针对特定的指标监控太敏感了,需要在监控源做⼀些调整;由于程序的BUG引起,同⼯程研发团队⼀起制定BUG修复计划,并进⼊排期

②如果不能永久性修复,当再次发⽣类似的事件时,我们是否可以通过⾃动化⼿段快速修复。如:针对特定的告警,可以配置规则和⾃动修复脚本,当再次发⽣时,可以⾃动修复,⽽⽆需⼈⼯⼲预。

③针对现有的流程做优化,以提⾼响应的效率

好啦,以上是本次分享的全部内容了,如果还有关于统一事件管理的任何问题,欢迎评论区留言探讨~


擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

 行业龙头客户的共同选择

​了解更多运维干货与技术分享

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~ 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/93325.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++Qt动态增加垂直滚动条

本博文源于笔者正在工作的一个小内容,内容涉及到为qt动态增加垂直滚动条。文章分为三个部分,问题起源,问题解决方案,问题解决成功效果。思路清晰,文章干货满满,复制源码即可使用。 问题起源 qt中一个页面…

1572. 矩阵对角线元素的和

题目描述: 给你一个正方形矩阵 mat,请你返回矩阵对角线元素的和。 请你返回在矩阵主对角线上的元素和副对角线上且不在主对角线上元素的和。 示例: 解题思路: 同时求对角线和副对角线上元素的和再减去重合的元素 相关代码&#xf…

聊聊火车的发展

目录 1.火车的概念 2.火车的发展历史 3.火车对战争的影响 4.火车对人们出行造成的影响 1.火车的概念 火车是一种由机械动力驱动的陆上交通工具,通常用来运输人员和货物。它由一列或多列的连接在一起的车厢组成,有轨道作为其行驶的基础,并通…

Python之Qt输出UI

安装PySide2 输入pip install PySide2安装Qt for Python,如果安装过慢需要翻墙,则可以使用国内清华镜像下载,输入命令pip install --user -i https://pypi.tuna.tsinghua.edu.cn/simple PySide2,如下图, 示例Demo i…

深入探索JavaEE单体架构、微服务架构与云原生架构

课程链接: 链接: https://pan.baidu.com/s/1xSI1ofwYXfqOchfwszCZnA?pwd4s99 提取码: 4s99 复制这段内容后打开百度网盘手机App,操作更方便哦 --来自百度网盘超级会员v4的分享 课程介绍: 🔍【00】模块零:开营直播&a…

帆软大屏2.0企业制作

 数字化观点中心 / 当前页 如何从0-1制作数据大屏,我用大白话给你解释清楚了 文 | 商业智能BI相关文章 阅读次数:18,192 次浏览 2023-06-08 11:51:49 好莱坞大片《摩天营救》中有这么一个场景:  你可以看见反派大b…

mysql面试

基础篇 通用语法及分类 DDL: 数据定义语言,用来定义数据库对象(数据库、表、字段)DML: 数据操作语言,用来对数据库表中的数据进行增删改DQL: 数据查询语言,用来查询数据库中表的记录DCL: 数据控制语言,用…

Linux 5种网络IO模型

Linux IO模型 网络IO的本质是socket的读取,socket在linux系统被抽象为流,IO可以理解为对流的操作。刚才说了,对于一次IO访问(以read举例),数据会先被拷贝到操作系统内核的缓冲区中,然后才会从操…

【STM32RT-Thread零基础入门】 3. PIN设备(GPIO)的使用

硬件:STM32F103ZET6、ST-LINK、usb转串口工具、4个LED灯、1个蜂鸣器、4个1k电阻、2个按键、面包板、杜邦线 文章目录 前言一、PIN设备介绍1. 引脚编号获取2. 设置引脚的输入/输出模式3. 设置引脚的电平值4. 读取引脚的电平值5. 绑定引脚中断回调函数6. 脱离引脚中断…

爬虫逆向实战(十四)--某培训平台登录

一、数据接口分析 主页地址:某培训平台 1、抓包 通过抓包可以发现登录是表单提交到j_spring_security_check 2、判断是否有加密参数 请求参数是否加密? 通过查看“载荷”模块可以发现有一个j_password加密参数 请求头是否加密? 无响应是…

java初级算法(杨辉三角)

java初级算法(杨辉三角) java初级算法(杨辉三角)内容:思路解法:代码实现 学习时间:2023/08/16 java初级算法(杨辉三角) 每日一算法:杨辉三角 内容&#xff1a…

好用画流程图软件推荐 excalidraw

作者:明明如月学长, CSDN 博客专家,蚂蚁集团高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《EffectiveJava》独家解析》专栏作者。 热门文章推荐…

java.security.InvalidKeyException: Illegal key size

JDK受版本安全限制,默认只允许128位长度以内的。秘钥长度,如果密钥大于128, 会抛出java.security.InvalidKeyException: Illegal key size 异常. java运行时环境默认读到的是受限的policy文件. 文件位于${java_home}/jre/lib/security, 这种限制是因为美…

docker入门,这一篇就够了。

Docker入门,这一篇就够了。 Docker容器虚拟化平台。 前言 接触docker很长时间了,但是工作中也没有用到,所以总是学了忘,忘了学。不过这次,我打算跟大家分享一下我的学习历程,也算是我的独特的复习笔记&…

【hadoop】windows上hadoop环境的搭建步骤

文章目录 前言基础环境下载hadoop安装包下载hadoop在windows中的依赖配置环境变量 Hadoop hdfs搭建创建hadfs数据目录修改JAVA依赖修改配置文件初始化hdfs namenode启动hdfs 前言 在大数据开发领域中,不得不说说传统经典的hadoop基础计算框架。一般我们都会将hadoo…

清除pip安装库时的缓存

目录 1、命令清除缓存 2、路径手动清除 在使用pip安装Python库时,如果之前已经下载过该库,pip会默认使用缓存来安装库,而不是重新从网络上下载。缓存文件通常存储在用户目录下的缓存文件夹中,具体位置因操作系统和Python版本而异…

区间预测 | MATLAB实现QRGRU门控循环单元分位数回归时间序列区间预测

区间预测 | MATLAB实现QRGRU门控循环单元分位数回归时间序列区间预测 目录 区间预测 | MATLAB实现QRGRU门控循环单元分位数回归时间序列区间预测效果一览基本介绍模型描述程序设计参考资料 效果一览 基本介绍 MATLAB实现QRGRU门控循环单元分位数回归时间序列区间预测。基于分位…

SAP复杂表格转换为JASON格式的例子

分享一个三层表格转换伙JASON格式的例子,代码如下。 REPORT zjason_test. "// 定义 DATA: lv_json TYPE string.DATA: BEGIN OF ls_detail_l3,code_l3 TYPE string,name_l3 TYPE string,age_l3 TYPE string,END OF ls_detail_l3,lt_detail_l3 LIKE TABLE OF…

SpringBoot复习:(34)@EnableWebMvc注解为什么让@WebMvcAutoconfiguration失效?

它导入了DelegatingWebMvcConfiguration 它会把容器中的类型为WebMvcConfigurer的bean注入到类型为WebMvcConfigurerComposite的成员变量configurers中。 可以看到它继承了WebMvcConfigurerSupport类 而WebMvcConfigureAutoConfiguration类定义如下 可以看到一个Conditional…

使用GraphQL在Postman中进行API测试

GraphQL 是一种用于API的开源数据查询和操作语言,用于API的查询语言和运行时。它使客户端能够精确地指定其数据需求,并获得预测性地结果。GraphQL旨在提高API的效率、灵活性和可靠性。 Postman 是一款用于API开发的强大工具,它支持REST和Gra…