AIOps探索 | 应急处置中排障的降本增效方法探索(上)

文章来源:公众号ID-布博士(擎创科技资深产品专家)

哈喽~友友们大家好,最近运维界也是蛮热闹的,前有语雀多次崩溃,后有阿里全系产品集体故障,不管是哪种,都足够逼疯一个运维工程师。所以,本次分享楼主想就运维过程中“应急处置”分享一些看法,希望对你们有所帮助。

全部内容分为上下两篇,本次分享主要说一下以下内容:

一、传统调用链系统与CMDB系统的缺陷

二、服务所有权模型是什么?

三、服务所有权模型分类

感兴趣的朋友可以一键先马后看~

一、调用链系统与CMDB系统的缺陷

在事件管理及应急场景的场景下,一般会造成业务服务和技术服务故障,如应用系统、微服务架构等不同的技术组件。为了实现对业务的影响分析、查看技术组件的相互依赖关系以及进行根因排查分析,通常需要构建调用链路系统和cmdb等来可视化业务层的交易链路和应用系统各技术组件之间的拓扑关系。然而,根据我近5年接触的项目经验,这两套系统的构建存在以下缺陷:

1.调用链路系统

  • 成本高+周期长:需要对不同厂商和不同技术栈(如cs架构、bs架构等)的系统进行不同程度的改动,成本较高且项目周期较长。

  • 短期效果不明显:在出现告警后,相应的运维工具系统之间需要进行大量的集成工作,短期内很难看到效果。

2.cmdb系统

  • 适配周期长:最近几年,一些AIOPS厂商过度炒作了cmdb的重要性,似乎没有cmdb就无法进行基于拓扑的排障分析。然而,在现实案例中,我们发现为了维护一套高标准的cmdb系统,企业需要进行至少一年甚至几年的治理过程,包括解决数据质量问题、提高数据更新效率、降低维护成本以及解决数据缺失等问题。

  • 不适合多场景运用:维护成本高昂且由于cmdb需要应对多种应用场景,不可能面面俱到,导致在实施过程中最终产出的结果更像是一个“四不像”。

那么问题来了,在事件管理及应急场景下有没有一种低成本且高效的方法可以快速地构建排障拓扑、实现业务层和技术组件层的链动分析,加速排障过程的系统模型呢?

答案是有的,那就是“服务所有权模型”。

二、服务所有权模型是什么?

近年我接触到的许多国内大型的金融机构,经常会发生一些有趣的事情,其中之一就是他们在出现事件后或应急的场景下就会研发各种工具试图弄明白当前正在发生什么事件、事件的告警对象依赖什么、谁在对告警对象提供服务、哪些业务受到影响?

在故障场景下,最理想的状态就是你可以清楚地看到你要解决的事件对业务、对依赖的技术组件和客户的影响,这种方式便被称为服务所有权模型。这种模型使开发、测试、运维人员能够更贴近客户、业务和要交付的价值。

三、服务所有权模型分类

1.业务服务

直接向用户提供价值的服务,如信用卡、网上商城等,这些是客户直接接触的,也是企业向自己的客户提供的服务目录,通常最终客户并不会关注你提供的信用卡服务是运行在x86的服务器上,还是oracle的数据库上,他们只关注该服务提供的业务价值是什么、服务标准及规范是什么?当客户不能刷卡时,直接电话callcenter即可。

2.技术服务

属于完成对业务服务的技术支撑平台,如某东提供网上商城,用户只需要在浏览器或手机端浏览商品并下单即可,但是他后台需要很多的技术组件为其提供业务服务,如移动端ios版本、移动端安卓版、csn服务、均衡负载、tomcat中间件等。

通过构建相互之间的依赖关系,可以将企业内部众多的业务服务和技术服务串到一起,形成一张巨大的企业服务网络拓扑,而其中的每一个节点即为一种服务,每一种服务都由独立的团队对其进行开发、测试、运维,保障服务的连续性。

模型构建完成的样子及能力介绍

如上图所示,一个典型的电子商务平台的服务所有权模型,在事件或应急场景下,能够实现以下能力:

1.将业务链路层和技术组件层告警进行有效关联

通过该模型提供的管理能力,在不构建cmdb和调用链路分析及埋点的情况下,将业务服务相互之间的相互调用关系、业务服务同技术服务之间的依赖关系清晰地刻画出来,从而在事件和应急场景下对告警进行有效关联。

2.业务影响分析和技术组件影响分析

通过服务所有权模型,可以清晰地了解业务服务和技术服务之间的依赖关系,帮助分析事件对业务和技术组件的影响。如上图,可以清晰看到最底层的技术服务组件“mysql - 库存”出现问题后导致直接依赖他的技术组件”库存api”和“redis - 缓存“出现故障,并最终通过”订单api“服务,影响到了三个业务服务,分别是”结算“、”移动商城“、”网上商城“。

3.促进团队协作

服务所有权模型使开发、测试和运维人员能够更贴近客户、业务和交付的价值。它帮助团队更好地理解服务的所有权和责任,并加强团队之间的协作和沟通。

4.加速排障过程

服务所有权模型提供了一个全方位的视角,使团队能够总览整个故障拓扑,它消除了孤立环境和沟通差距,提高了组织快速响应客户需求的能力。

5.可视化根因分析

由于可以总览整个故障拓扑,使运维团队在分析根因时不再是一条条独立的告警,而是可以从总览拓扑的视角查看整个故障的完整上下文,协助运维人员进行可视化根因分析。

其他更多能力……

本次内容到这里就告一段落了,下期会跟大家具体说说在实践场景中如何逐步落地服务所有权模型,也会给大家推荐一些比较好用的模型存储以及计算方案,感兴趣的朋友可以关注起来~

供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/201152.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java修仙记之记录一次与前端女修士论道的经历

文章开始之前,想跟我念一句:福生无量天尊,无量寿佛,阿弥陀佛 第一场论道:id更新之争 一个天气明朗的下午,前端的小美女长发姐告诉我:嘿,小后端,你的代码报错了 我答道&am…

LeetCode算法心得——打家劫舍(记忆化搜索)

大家好,我是晴天学长,准备开始深入动态规划啦,先从记忆化搜索开始,需要的小伙伴可以关注支持一下哦!后续会继续更新的。💪💪💪 1) .打家劫舍 你是一个专业的小偷,计划偷窃…

神经网络常用激活函数详解

🎀个人主页: https://zhangxiaoshu.blog.csdn.net 📢欢迎大家:关注🔍点赞👍评论📝收藏⭐️,如有错误敬请指正! 💕未来很长,值得我们全力奔赴更美好的生活&…

科技界年度大戏剧情终结:Open AI宣布ChatGPT创始人奥特曼回归

就在刚刚,在Sam Altman在X平台表示: 我喜欢 Openai,过去几天我所做的一切都是为了让这个团队及其使命保持一致。当我决定在周日晚上加入微软时,很明显这对我和团队来说是最好的道路。在新董事会和 w satya 的支持下,我…

1.Gin 介绍

1.Gin 介绍 介绍 Gin 是一个 Go (Golang) 编写的轻量级 http web 框架,运行速度非常快,如果你是性能和高效的追求者,我们推荐你使用 Gin 框架。 Gin 最擅长的就是 Api 接口的高并发,如果项目的规模不大,业务相对简单&a…

Linux:进度条(小程序)以及git三板斧

Linux小程序&#xff1a;进度条 在实现小程序前我们要弄清楚&#xff1a; 1.缓冲区&#xff1b; 2.回车与换行。 缓冲区&#xff1a; 分别用gcc来编译下面两个程序&#xff1a; 程序一&#xff1a; #include <stdio.h> int main() { printf("hello Makefil…

飞瓜数据B站丨B站UP主11月第3周榜单排行榜榜单(B站平台)发布!

飞瓜轻数发布2023年11月13日-11月19日飞瓜数据UP主排行榜&#xff08;B站平台&#xff09;&#xff0c;通过充电数、涨粉数、成长指数、带货数据等维度来体现UP主账号成长的情况&#xff0c;为用户提供B站号综合价值的数据参考&#xff0c;根据UP主成长情况用户能够快速找到运营…

云备份——初步认识及环境搭建

文章目录 整体功能简介云备份功能实现目标服务器程序负责功能细分服务端模块划分客户端功能细分客户端模块划分 环境搭建gcc安装 jsoncppbundle库 与 httplib库安装 整体功能简介 云备份功能 自动将本地计算机上指定文件夹中需要备份的文件上传备份到服务器中 并且能够通过浏…

基于Apache部署虚拟主机网站

文章目录 Apache释义Apache配置关闭防火墙和selinux 更改默认页内容更改默认页存放位置个人用户主页功能基于口令登录网站虚拟主机功能基于ip地址相同ip不同域名相同ip不同端口 学习本章完成目标 1.httpd服务程序的基本部署。 2.个人用户主页功能和口令加密认证方式的实现。 3.…

Spring框架学习 -- 核心思想

目录 (1) Spring是什么? (2) 什么是IOC容器? (3) 从传统开发认识spring (4) 这种传统开发的缺陷 (5)解决传统开发中的缺陷 (6) 对比总结规律 (7) 理解IOC 创作不易多多支持 (1) Spring是什么? 我们常说的Spring的全称是: Spring Framework(Spring框架), 它是一个开源…

【广州华锐互动】VR防溺水安全内容体验提高群众防溺水意识

在全球各地&#xff0c;溺水是导致儿童和青少年死亡的主要原因之一。据世界卫生组织的统计&#xff0c;全球每年有超过36万人因溺水而死亡&#xff0c;其中大部分是儿童和青少年。因此&#xff0c;提供有效的防溺水教育和培训至关重要。随着科技的发展&#xff0c;虚拟现实&…

CF 1894A 学习笔记 思维 题意理解分析

原题 A. Secret Sport time limit per test 3 seconds memory limit per test 512 megabytes input standard input output standard output Lets consider a game in which two players, A and B, participate. This game is characterized by two positive integer…

MyBatis Generator 插件 详解自动生成代码

MyBatis Generator&#xff08;MBG&#xff09;是MyBatis和iBATIS的代码生成器。可以生成简单CRUD操作的XML配置文件、Mapper文件(DAO接口)、实体类。实际开发中能够有效减少程序员的工作量&#xff0c;甚至不用程序员手动写sql。 它将为所有版本的MyBatis以及版本2.2.0之后的i…

【Java基础】Java导Excel攻略

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

【JavaEE】操作系统与进程

作者主页&#xff1a;paper jie_博客 本文作者&#xff1a;大家好&#xff0c;我是paper jie&#xff0c;感谢你阅读本文&#xff0c;欢迎一建三连哦。 本文录入于《JavaEE》专栏&#xff0c;本专栏是针对于大学生&#xff0c;编程小白精心打造的。笔者用重金(时间和精力)打造&…

京东小程序:无代码开发实现API集成,连接电商平台、CRM和客服系统

无需复杂API开发&#xff0c;京东小程序连接电商平台 京东小程序平台以其全开放的生态模式&#xff0c;让商家享有京东系APP流量福利、海量SKU和开放能力&#xff0c;提升用户体验&#xff0c;同时也带来了新商机。京东小程序的最大优势在于&#xff0c;商家无需进行复杂的API…

驶入产业发展快车道,汉鑫科技人工智能研发中心正式启用!

11月18日&#xff0c;汉鑫科技人工智能研发中心正式启用。中心立足烟台&#xff0c;服务全国&#xff0c;聚焦工业智能、智能网联、智慧城市三大业务板块&#xff0c;以人工智能技术赋能政企实现“数智化”转型升级。该中心的启用标志着汉鑫科技在人工智能研发应用领域迈上了新…

二百零四、Flume——登录监听窗口报错Ncat: bind to :::44444: Address already in use. QUITTING.

一、目的 Flume安装好后测试开启监听窗口44444&#xff0c;结果报错Ncat: bind to :::44444: Address already in use. QUITTING. 二、报错详情 Ncat: bind to :::44444: Address already in use. QUITTING. 三、报错原因 经过分析发现&#xff0c;44444窗口已经被占用 […

el-input限制输入整数等分析

文章目录 前言1、在 Vue 中&#xff0c;可以使用以下几种方式来限制 el-input 只能输入整数1.1 设置input 的 type为number1.2 使用inputmode1.3 使用自定义指令1.4 使用计算属性1.5 使用 onafterpaste ,onkeyup1.6 el-input-number 的precision属性 总结 前言 input 限制输入…