上期我们以具体案例入手,分享了集中告警平台到底应该与集中监控平台解耦还是紧绑定等问题。这一期依旧从具体案例切入,跟大家一起探索下告警与服务台的对接过程,以及这个过程中可能产生的问题。
上期内容,一键回顾不迷路→案例解读| 从集中告警平台发展趋势看城商行如何落地数字化转型(一)
一、案例背景
某股份制城市商业银行数据中心,在英国《银行家》杂志发布的“全球银行1000强”排名中,按一级资本排名前100名。
为更好地完成企业数字化转型,深耕数字化、智慧化变革,进一步提升告警管理及治理的能力,以统一的业务视角来观测分析,建设智能集中告警平台,基于自动开单策略配置、机器学习能力、关联流程信息及配置数据,期望目标完成数据中心告警的自动开单。
二、项目现状
数据中心在现有管理体制下,告警的诸多问题在沟通时经常被提到。
现状扫描
实际生产中,告警数据源10+套;
每日告警量5000+;
每日开单量500+;
目前对于告警的开单是基于人工的判断,开单效率较低,并伴随有一定的延迟性。
三、项目优化目标
是希望在行内原有系统的基础上,借助智能化的注入,将原有手工操作的繁琐工作,逐步替换成系统自动完成的工作,以提高生产效率。
四、项目实施流程概要
五、项目重点实战——告警服务台联动
(1)日常挑战
1.告警实时关注:当告警产生时,ECC监控人员作为第一处理人接收,面临着诸多 挑战
2.值守挑战
根据该告警的描述信息,手动向工单系统发起开单,并指派给相应的值班人员进行后续处理。
监控人员必须24小时不间断的盯着屏幕,告警产生后就按SLA响应,并判断是否需要向服务台开相关的事件单。
(2)开单经验主义
1.开单挑战:
每天的告警量在5000+。
所有监控人员(6人),大约每天平均需要处理200+条/小时的告警。
根据告警等级,是否会自动恢复等条件,人为判断告警是否要开单,最终导致告警开单延迟、漏开单,实际有效开单率为10%。
(3)通知遗漏
1.漏单挑战:
对于一些较为严重的告警,还需要立即打电话告知相关人员及时处理。
由于告警量大,人工操作难免会有操作不当或告警遗漏开单的情况,对于这类数据无法追踪。
行方希望逐渐优化改善这一状况,利用自动化的方式选择性替换原有的手工模式,引进擎创告警辨析中心来构建平台优化和改造。
(4)实战解析
1.告警实时关注:通过擎创的告警辨析中心构建多维度,多层次的保障来完成复杂多变的自动开单模型,部分模型大致包括以下几种
灵活压缩模型:灵活多源压缩策略,将数据质量高的告警和数据质量低的 告警分而治之,对质量稍差,字段缺失的告警用相似算法进行有效压缩,进一 步减少后续告警的开单量。
自动归属模型:部分告警根据历史告警参考和数据源管理组织架构进行自动归属分派。
同源合并模型:压缩后的同源性质告警,在同时段触发的,会进行同源合并开单,进一步减少告警的开单量。
关联升级模型:告警业务属性关联或告警复合可能性产生共振的,会触发关联升级模型构建更加有针对性的自动开单。
2.双向自动闭环
在对接了用户的工单系统后,告警辨析中心将告警基于行方的实际需要配置,自动向工单系统提交工单,实现了告警的自动开单。
行方运维人员在工单系统对告警进行处置并关闭后,告警辨析中心会同步工单系统关联告警状态实现同步更新,完成告警处置的整个闭环。
3.可审计可追溯
告警辨析中心基于引擎的所有开单都会生成相应记录,方便行方后续跟踪、报表统计与复盘分析。
4.增强实时通知
从人工外呼通知,强化为可定义的自动外呼,大幅提高了时效。
增加可定义的短信通知方式,实现了告警通知的多渠道全自动处理流程。
六、案例阶段成果
通过新告警平台的建设,预先对告警进行数据的标准化,进而通过压缩对告警进一步降噪,再通过自动化引擎将指定的告警向ITSM系统自动开单,基本达到了开单自动化的预期目标。
预投产+运行数月后的数据
1.预投产:
每日接入原始告警5000+,压缩后的每日告警1800+,每日自动开单量900+。
基于告警开单尽可能不漏的基础上配置的相应策略的原则下,虽然告警的每日开单量从500+(手工)上升到了900+(自动),开单已不需要人工处理,做到了自动化流转。
2.优化阶段:
运行2周-1月时间以及通过对开单策略的调整后,每日开单量又进一步降低到300+,与原来手工开单的500+相比,开单量降低了将近40%。
现阶段自动开单率已经达到95%(除了少量告警仍需要人工干预),原先6人的监控工作量被释放,使得运维人员可以更加关注问题的处置和复盘。
七、案例总结
告警平台的复杂度是非常高,因此真正要做到100%自动化开单确实有相当的路要走,项目实际迄今也只能完成95%左右的自动化开单。但项目中采用了从前置压缩到后置关联,从单维度到多层次,结合组织架构和处置归属进行了模型化的尝试,对于告警服务台自动化联动的探索还是有相当的参考意义。
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
更多运维思路与案例持续更新中,敬请期待
随手点关注,更新不迷路~