文源自于公众号——布博士(擎创科技资深产品专家)
前言: 近年来,人工智能技术的研究和行业应用急剧上升。即使看起来人工智能技术似乎只是一种来自电影中的幻想,但无可否认的是人工智能技术已经在我们生活的各个方面得到成功应用,并大大改变了我们的生活。人工智能应用场景已经涉及我们工作和生活的方方面面。这段时间大火的ChatGPT就是最好的印证。
比如说,为了找到关于某个商品的知识,我们利用搜索引擎技术,对搜索意图精确识别,匹配搜索引擎所获取的广泛知识,获取我们想要的知识;其次各大购物APP能根据我们的浏览、购物记录,自动推荐我们感兴趣的商品。还有现在的新闻资讯类网站或APP,能根据我们浏览的内容数据,将可能感兴趣的资讯自动推荐给我们,且越来越精准,相信大家在刷某些应用的时候对这种推荐尤有感触。
……...
人工智能可以用来改进我们日常生活中的许多服务,同时也鼓励创新。在运维领域,人们正在通过人工智能和机器学习技术帮助我们推动IT运维跟上各个行业的脚步。让我们看一下最近从市场、客户处所看到并值得关注的几个AIOps新趋势。
趋势一:需要更快的告警事件响应
无论国际还是国内,我们看到AIOps真正得到广泛应用的领域是在智能的告警响应及处置。AIOps通过对获取到的告警、变更、日志、知识、指标等数据的综合分析,为运维工程师提供告警发生时点的更丰富的上下文信息以加速对告警的认知,为运维工程师团队提供更快的根本原因分析。
如,当告警发生时,可以提供:
1.相似告警识别
历史上相似告警是否出现过,曾经的解决方案是什么,可以协助运维工程师进行快速处置。
2.影响分析
当告警发生时,其对支撑的上层业务及技术服务是否产生影响,如共享存储服务某指标异常,是否影响其上层的数据库服务,影响的集群规模。
3.完整的告警360视图
眼下更流行的叫法为可观测性,新趋势下,AIOps将智能地根据告警的不同场景提供该告警所需的更全面的指标、告警、变更、日志相关数据,供运维工程师在一个视图下完成对告警的综合分析、响应和处置操作。
4.根因分析
其实不建议叫根因分析,往往算法产生的结果是一个概率问题,因此可以称为疑似根因,即在告警发生后通过算法推荐一个疑似根因的列表(根因分析的产品解决方案,在后续的章节中会详细介绍)供运维人员在一堆杂乱无章的告警中,推荐可能的根因列表,以缩小排查范围。
5.告警关联分析
通过先进的AIOps算法,像识别购物车内商品的相关性分析一样,识别告警发生时段哪些告警是相互关联的,并通过AIOps的相关算法对历史数据进行挖掘,找到其相关性,以进一步减少告警的处理量,提高协作效率。
6.预测性告警分析
AIOps将更广泛地使用基于人工智能和机器学习技术的预测性分析能力,以预期您的团队能够在告警开始前的几分钟甚至更长一段时间内发现潜在的问题,并提前处置。
7.重要指标曲线
告警发生时,重要指标在告警时段的指标曲线情况,以及同正常时段的对比分析。
趋势二:专注打造一体化的“统一运维平台”
最近,我们看到很多具有类似特征的组合需求出现,包括:
-
统一监控管理平台(融合对zabbix、普罗米修斯、APM、NPM)等监控系统的统一策略管理控制平台
-
统一告警管理平台(融合对zabbix、普罗米修斯、APM、NPM)等监控系统所产生的告警的统一管理平台
-
统一数据管理平台(融合指标、日志、告警、变更)等数据的运维数据平台
-
统一采控管理平台,完成对公有云、私有云、容器等不同环境的统一数据采集及加工处理
-
...
针对类似需求的出现,改变了以往必须使用多个工具系统并需要运维人员手动登录多个工具系统,手动到不同的工具系统获取数据才能够完成对给定任务(如处理告警、进行变更)。
我们使用并创建新的AI算法,以通过“统一运维平台”这一单一的运维工具系统一次处理多种数据类型,并允许该工具查看所有给定的数据(指标、日志、变更、告警、工单、知识、配置项及配置项依赖关系等),对他们进行关联分析,并通过特定的场景将这些有价值的数据组合在一起来帮助减少告警噪音、增强告警处理效率、提供运维人员更多的告警上下文。
未来AIOps基于“统一运维平台”的数据基础,将通过进一步的创新应用,为企业节省更多的时间和金钱成本。
趋势三:告警处置更加自动化
之前的文章中我们有提到过AIOps的五大支柱(数据、专家经验、自动化、可视化、AI算法),在2022年之前运维团队对自动化的告警分析及自动化告警处置是非常谨慎的,但是在2022年越来越多的金融行业机构开始关注自动化技术,借助AIOps可以帮助运维工程师进行自动化的问题分析、排查以及自动问题修复。这将使得运维工程师团队可以有更多的时间专注运维工具及效率上的创新,进而提供更高的客户服务体验。
写在最后:什么是AIOps?
Gartner的定义是:AIOps combines big data and machine learning to automate IT operations processes, including event correlation, anomaly detection and causality determination.(AIOps结合了大数据和机器学习来自动化IT运维流程,包括事件关联、异常检测和根因探索)。其本质是将日常运维过程中一些繁杂的工作通过人工智能技术来自动化进行处理,而人将从这些琐事中解放出来,专注创新和创造更好的运维工具产品以提高告警的快速响应能力,进而为最终用户提供更好的产品和服务体验。
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
了解更多运维干货与技术分享
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散