自己部门日均1000+告警?如何减少90%无效告警?

目录标题

  • 一、告警的类别
    • 1.技术告警
      • 1.1基础设施告警
      • 1.2基本服务告警
    • 2.业务告警
    • 3.监控大盘告警
  • 二、为何需要告警治理?
  • 三、治理迫在眉睫
    • 1.1告警治理策略
      • 1.2核心监控告警点
      • 1.3避免告警反模式
      • 1.4告警规约制定
      • 1.5自动化处理

在这里插入图片描述

一、告警的类别

一般的告警分为以下几点:

1.技术告警

1.1基础设施告警

  • CPU利用率过高告警
  • 内存使用率过高告警
  • 物理机异常告警
  • 磁盘使用率过高告警

1.2基本服务告警

  • 中间件告警:比如MQ积压、重试;Mysql异常;Redis异常等等
  • RPC服务:下游可用率告警、SLA不符合告警、熔断告警
  • 自定义的可用率、TP99等告警
  • 流量监控,比如QPS异常波动告警

2.业务告警

  • 资损监控告警
  • 核心业务的稳定性告警
  • 业务波动告警
  • 自定义业务异常通知告警,比如非正常的情况打个业务通知监控

3.监控大盘告警

此类告警时针对全链路的,一般在压测或者大型活动中使用!

在这里插入图片描述

二、为何需要告警治理?

需求繁重,发布频繁,如何保障发布的稳定性保障?比如:

  • 新功能上线,新监控告警没有配置,导致流量预期不明,全量发布之后造成故障;
  • 老功能改造,核心模块/领域已有监控告警失准,导致异常未识别,全量发布之后造成故障;
  • 新老迭代,对外/对内核心监控指标不够聚焦,导致全局健康度失真,造成业务资损。

不同人对告警的配置理解各不相同,导致告警杂乱无章,告警颗粒度不够,告警不准确,看到告警也不知道是什么问题,线上常见告警问题无法快速识别。

告警配置过多,就比如我们部门日均1000+告警,大部分是各种告警阈值不合理等等问题导致,假如每个告警花5分钟来看,一天就是5000分钟的浪费,谁不觉得难受?天天这样的话很多人就会对告警麻木,就好像“狼来了”,真的有严重的线上事故的时候后知后觉,被一线业务倒推问题!

三、治理迫在眉睫

告警治理的核心在于提高告警的质量,减少无效告警的数量,确保关键告警能够得到及时响应。这不仅有助于提升运维效率,还能改善团队的工作环境,减少因无效告警带来的疲劳感。

1.1告警治理策略

为了进一步细化告警治理技巧,并具体化告警质量优化的内容,我们可以从以下几个方面进行深入探讨:

1.2核心监控告警点

  • 灰度发布时的核心监控:在新功能灰度发布时,应特别关注流量变化趋势,设置流量预警监控点,如QPS异常波动,确保一旦流量超出预期,可以及时收到通知并采取措施。
  • 业务关键点监控:在业务逻辑的关键环节,如数据库交互、消息队列通信、远程调用等,设置异常监控点,当这些环节出现问题时,能迅速定位并解决。
  • 全链路综合指标监控:跨服务调用时,设置响应时间、请求成功率等综合指标监控,一旦偏离正常范围,立即触发告警。

1.3避免告警反模式

  • 告警描述标准化:确保每个告警都有清晰、详细的描述,包括告警源、告警级别、影响范围等信息,便于快速理解问题所在。
  • 告警阈值个性化:根据不同业务场景调整告警阈值,例如对于交易系统,响应时间稍微延长即可能影响用户体验,因此阈值设置应更为严格。
  • 告警策略智能调整:利用机器学习模型分析历史数据,动态调整告警策略,减少误报的同时确保重要告警不被忽略。

1.4告警规约制定

  • 监控对象选择:只监控那些直接影响用户体验或服务稳定性的关键指标,如系统负载、数据库连接数、网络延迟等。
  • 告警触发时机:设置合理的延迟时间,避免因短期波动引发不必要的告警。例如,CPU使用率超过阈值时,可以设置一定时间窗口观察是否持续超过该阈值。
  • 告警信息完善:告警信息应包含尽可能多的诊断信息,如发生告警的时间、位置、影响范围以及可能的原因分析。

1.5自动化处理

  • 自动恢复机制:对于已知问题,如短暂的服务不可达,可以设置自动恢复机制,如自动重启服务,减少人为干预。
  • 自动化脚本部署:编写自动化脚本,用于处理常见的告警问题,如清理缓存、重启应用等,提高响应速度。
  • 告警降噪策略:实施告警降噪策略,合并相似告警,减少重复通知,避免同一问题的多次干扰。

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/418520.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

连续信号的matlab表示

复习信号与系统以及matlab 在matlab中连续信号使用较小的采样间隔来表四 1.单位阶跃信号 阶跃信号:一个理想的单位阶跃信号在时间 t 0 之前值为0,在 t 0 及之后值突然变为常数 A(通常取 A 1) %matlab表示连续信号,是让信号的采样间隔很小…

数据类型转换

1. 基本数据类型转换 1.1 自动类型转换 1.2 注意 1.3 强制类型转换 2. String 与基本数据类型的转换 2.1 基本数据类型转 String public class StringConvert{public static void main(String []args){//基本数据类型-->Stringbyte a1;short b10;int c100;long d1000;…

什么是网络安全?

目录 网络安全定义 网络安全如何运作? 1.人 2.基础设施 3.漏洞 4.技术 网络安全的演变 未来十年的网络安全将会是什么样子? 网络安全为何对企业如此重要? 网络安全的类型 1.网络安全 2.应用程序安全 3.信息安全 4.运营安全 5.灾…

SAP与湃睿PLM系统集成案例

一、项目背景 浙江某家用电机有限公司, 该公司的产品涵盖洗衣机、‌空调、‌冰箱及厨房用具等家电电机的制造,‌具备年产4600万台电机的生产能力,‌是中国最大的家电电机生产基地之一。 为确保工艺路线信息在设计与生产执行层面的无缝传递&#xff0…

c语言——用一维数组输出杨辉三角形

一.代码 #include <stdio.h> int Num[100]; int Hang; int Lie; int a; int Flag; int main() {Lie 1;Hang 1;a 0;while (1) {//列1为1if (Lie 1) {Num[1] 1;Lie;}//数据存到数组里面while (Hang > Lie && Hang ! 2) { if (Hang!Lie) {Flag Num[Lie] …

端口安全老化细节

我们都知道port-security aging-time命令用来配置端口安全动态MAC地址的老化时间&#xff0c;但是后面还可以加上类型&#xff1a; [SW1-GigabitEthernet0/0/1]port-security aging-time 5 type absolute Absolute time 绝对老化 inactivity Inactivity time相对老化 …

原型模式prototype

此篇为学习笔记&#xff0c;原文链接 https://refactoringguru.cn/design-patterns/prototype 能够复制已有对象&#xff0c; 而又无需使代码依赖它们所属的类 所有的原型类都必须有一个通用的接口&#xff0c; 使得即使在对象所属的具体类未知的情况下也能复制对象。 原型对…

形态学运算合集

圆形结构元素 禹晶、肖创柏、廖庆敏《数字图像处理&#xff08;面向新工科的电工电子信息基础课程系列教材&#xff09;》 禹晶、肖创柏、廖庆敏《数字图像处理》资源二维码

Java项目: 基于SpringBoot+mybatis+maven+mysql图书馆管理系统(含源码+数据库+任务书+答辩PPT+毕业论文)

一、项目简介 本项目是一套基于SpringBootmybatismavenmysql图书馆管理系统 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目附带全部源码可作为毕设使用。 项目都经过严格调试&#xff0c;eclipse或者idea 确保可以运行&#xff01; 该系统功能完善、界面美观、操…

vue项目打包后,生成的index.html直接本地打开后没内容

应该是文件路径找不到了 可以打开控制台看看 可以看到加载css&#xff0c;js&#xff0c;图标资源失败&#xff0c;所以是文件路径问题 vue-cli工程化生成的项目在打包后&#xff0c;默认的资源寻找路径是根&#xff0c;所以可以看到它直接在/F;/favicon找图标&#xff0c;但…

PMBOK® 第六版 项目进度管理知识领域

目录 读后感—PMBOK第六版 目录 提到“进度”&#xff0c;大家都能直观理解其含义。有统计指出&#xff0c;现在项目的延迟交付比例越来越高&#xff0c;并且这一趋势持续上升。造成项目延期的原因是多方面的&#xff0c;常见的原因之一是在项目初期&#xff0c;由于时间充裕&…

mysql笔记—基础

1.SQL语句 DDL&#xff08;数据库对象操作&#xff09;、DML&#xff08;增删改&#xff09;、DQL&#xff08;查询&#xff09;、DCL&#xff08;用户和权限操作&#xff09; 2.DDL&#xff1a; 1.数据库操作&#xff1a; show databases; create database []; use []; sele…

简单梳理一个历史脉络

B 站上王山水老师的一个视频引发的思考&#xff1a;没有司马篡国&#xff0c;能避免300年的大乱世吗&#xff1f; 我的答案如下&#xff1a; 视野放宽到欧亚大陆&#xff0c;广义上公元184年黄巾军起义开启内乱&#xff0c;狭义上公元220年正式进入三国&#xff0c;280年晋统一…

JavaFX基本控件-Button

JavaFX基本控件-Button 常用属性textpaddingalignmenttextAlignmentwidthheighttooltipborderwrapTextellipsisStringunderlinegraphicgraphicTextGapdisable 实现方式Java实现fxml实现 常用属性 text 设置文本内容 button.setText("测试按钮");padding 内边距 butt…

多波束EM2040D以及POSMV使用记录

多波束EM2040D采集软件SIS4.3升级到SIS5.11之后&#xff0c;我们碰到了很多问题&#xff0c;现在将问题和解决过程记录一下。 1、SIS5软件打不开 SIS5软件打不开&#xff0c;报KSlSMainApp has stopped working弹框。 ​ 判断是电脑问题&#xff0c;更新最新win10系统&#…

构建高效智慧水务平台的关键要素有哪些?

在推进智慧水务平台建设的过程中&#xff0c;需着重注意以下几点&#xff0c;以确保系统的先进性与实用性并重&#xff1a; 数据集成与标准化‌&#xff1a;构建统一的数据采集与处理标准&#xff0c;实现多源水务数据的无缝集成与高效管理&#xff0c;为精准决策提供坚实的数据…

Excel常用函数

Excel常用函数 1、统计函数1.1、计数函数1.2、求和函数 2、逻辑函数3、查找函数3.1、一对一查找3.2、一对多查找 4、文本函数 1、统计函数 统计函数是Excel中最常用和强大的函数之一&#xff0c;它可以帮助我们轻松地进行数据统计和分析 1.1、计数函数 1.1.1、COUNT函数&#…

Git 修改Push后的Commit Message

向远程仓库push代码之后&#xff0c;在IDEA中无法直接修改Commit Message&#xff0c;需要在终端或控制台中输入以下命令&#xff08;HEAD~1中的1表示只对最后一个提交进行修改&#xff0c;因此1可以自定义&#xff09; git rebase -i HEAD~1执行完rebase指令后&#xff0c;会…

使用 JAXB 将内嵌的JAVA对象转换为 xml文件

使用 JAXB 将内嵌的JAVA对象转换为 xml文件 1. 需求2. 实现&#xff08;1&#xff09;FileDesc类&#xff08;2&#xff09;MetaFileXml类&#xff08;3&#xff09;生成对应的xml文件 1. 需求 获取一个目录下所有文件的元数据信息&#xff08;文件名、大小、后缀等&#xff0…

linux启动过程

当按下电源按钮启动Linux时&#xff0c;幕后发生了什么&#xff1f; 一个名为BIOS或UEFI的程序会启动运行;改程序的基本用途是让计算机 所有主要部分做好操作准备&#xff08;这些部分包括&#xff1a;键盘&#xff0c;屏幕硬盘等&#xff09; POST检查&#xff1b;测试可确保…