Skywalking告警配置

背景

  • skywalking 9.7.0,地址:Backend setup | Apache SkyWalking

  • helm:skywalking-helm:4.5.0,地址:skywalking-helm/chart/skywalking/values.yaml at v4.5.0

首先来说一下为什么使用skywalking告警?

在我们目前的架构体系中:

  • prometheus:通过node exporter监控硬件级的监控,通过grafana来做告警(注意:grafana仅部分图支持告警)

    当然也可以监控业务级别的,但是这些指标需要业务人员提供,而业务人员又需要额外开发自定义指标,是一种双向配合的方式,比较麻烦

  • ELK:通过日志埋点,在grafana配置ES数据源,通过捕获关键字类型,从而到达一种监控告警,但是这种局限很明显,需要将业务数据采集到es里面,不够方便快捷

目前时间比较紧,开发人员较少,再加上我们已经使用上了skywalking,需要快速告警下面几个指标:

  • 接口成功率;
  • 接口响应时间;
  • 响应时间百分比

等等一些指标,来保证我们系统的稳定性,

由于上述指标对于skywalking都是现成的,想快速实现我们的需求,所以打算先通过skywalking告警来实现我们的需求

但这对于专业的监控告警系统,这样做不太好,因为告警的应该统一收口,在一个地方来配置,比如grafana;

因为告警的本质是通过采集日志,然后通过这些日志来进行定制告警,后续可以进行优化,这些不是本文章的主题

实践

k8s部署skywalking看看这个:k8s部署skywalking(helm)

本地实践的话,需要去官方下载一个APM,地址:Downloads | Apache SkyWalking
9.7.0本地玩的话,默认配置是JDK17哈,各位校验一下自己的Java环境

注意,这里的告警是在skywalking-oap服务端的,不是客户端哈

在这里插入图片描述

告警配置属性

告警模块相关配置文件路径:

在这里插入图片描述

打开之后官方默认了一些规则,官方查看:Alerting | Apache SkyWalking

接下来来解释一些这些属性的含义

Rule name:规则名称。需要保证唯一,必须以 _rule 结尾

Expression:告警表达式。

Include names:告警规则生效包含的实体名列表。本质是一个array,可以配置多个,但需要注意的是,这个是全匹配

我们在集成 Agent 的时候,一般都会设置 Service group。举个栗子: SW_AGENT_NAMESPACE:"dev" SW_AGENT_NAME:"dev::example-name" 当我这样定义时,service name 应该写成 dev::example-name|dev|,参考:Table of Agent Configuration Properties | Apache SkyWalking

Exclude names:告警规则不生效包含的实体名列表,本质是一个array,可以配置多个,但需要注意的是,这个是全匹配

Include names regex:和 Include names 一样。只不过是正则表达式字符串

Exclude names regex:和 Exclude names 一样。只不过是正则表达式字符串

Tags:自定义的 k-v 对(这个目前感觉只是增加一个自定义的提示信息的)

Period:表达式计算结果的缓存时间,也可以理解为没隔多长时间采集一次数据;

Silence Period:静默时间。例如我有一个规则,1分钟会触发一次,当我把Silence Period配置为 3 时。那就是3分钟内,不会发送一次请求到 hook

Hooks:向外界发送通知的方式 ,本质上都是 WebHook。

告警表达式

以下列示例解释:

rules:# service_sla 代表的是服务响应成功率service_sla_rule:# sum(service_sla < 8000) 该表达式表示的是 服务的响应成功率低于80%的次数# >= 2 是关键,表达式每分钟算一次(这是我看了文档后猜的,应该没问题), 那这里就表示最近2分钟服务SLA都低于90%expression: sum(service_sla < 8000) >= 2# 字符串匹配写法include-names:- 'dev::example|dev|'# 正则写法:所有dev组的include-names-regex: '^dev::.*' # 表达式计算结果缓存时长,表达式每一分钟计算一次,我表达式中设置了>=2# 所以period 应该设置一个大于2的值,这样能避免重复计算period: 10# 静默时间,如果服务有10分钟SLA是低于90的,那么m2的时候会提醒。# 下一次本来是m3提醒的,我设置了2,所以等到m5再次计算表达式的时候才会在提醒silence-period: 3# 自定义 tags,key-value形式tags:level: ERROR# 告警文本,{name} 是内置变量,代表服务名称,本地实际测试还有一个id,用来表示告警id,用法{id}message: '服务{name}成功率小于100%'
hooks:webhook:default:# 是否默认is-default: true# 配置urlurls:- http://127.0.0.1/notify/- http://127.0.0.1/go-wechat/

实际例子

service维度

所有服务SLA在最近3分钟内小于100

service_success_rule:expression: sum((service_success / 100) < 100) >= 3period: 5silence-period: 5message: '服务 SLA 低于 100%'

prod分组下,所有服务SLA在最近3分钟小于100

service_success_rule:expression: sum((service_success / 100) < 100) >= 3include-names-regex: '^prod::.*'period: 5silence-period: 5message: '服务 SLA 低于 100%'
endpoint维度

endpoint跟service不同的是,它的规则为:

xxx接口   in   group::服务

单接口SLA在最近3分钟内小于100

endpoint_sla_rule:expression: sum((endpoint_sla / 100) < 100) >= 3include-names: - 'GET:/test/custom1 in dev::example|dev|'period: 5message: '此接口 SLA 低于 100%'

prod分组下,所有接口(排除指定接口)SLA在最近3分钟内小于100

endpoint_sla_rule:expression: sum((endpoint_sla / 100) < 100) >= 3exclude-names:- 'GET:/test/custom1 in dev::example|dev|'include-names-regex: '.* in prod::.*'period: 5message: '此接口 SLA 低于 100%'
DB维度

所有DB SLA 最近1分钟内小于100

database_access_sla_rule:expression: sum((database_access_sla / 100) < 100) >= 1period: 3message: 'DB SLA 低于 100%'

配置webhook

飞书
hooks:feishu:default:is-default: truetext-template: |{"msg_type":"text","content": {"text": "Apache SkyWalking Alarm: \n %s."}}webhooks:- url: https://open.feishu.cn/open-apis/bot/v2/hook/axxxxxxx

skywalking默认提供的指标

目前skywalking定义的指标存在与下列目录下,以*.oal为结尾的文件

在这里插入图片描述

部分指标释义如下:

code解释备注
service维度
service_resp_time服务的平均响应时间
service_sla服务的成功率
service_cpm服务每分钟调用次数
服务实例指标
service_instance_sla服务实例的成功率
service_instance_resp_time服务实例的平均响应时间
service_instance_cpm服务实例每分钟调用次数
endpoint维度
endpoint_cpm端点每分钟调用次数
endpoint_avg端点平均响应时间
endpoint_sla端点成功率
JVM 指标, JVM 相关的指标, 只有当 javaagent 启用时才有效
instance_jvm_cpu
instance_jvm_memory_heap
instance_jvm_memory_noheap
instance_jvm_memory_heap_max
instance_jvm_memory_noheap_max
instance_jvm_young_gc_time
instance_jvm_old_gc_time
instance_jvm_young_gc_count
instance_jvm_old_gc_count
服务关系指标, 代表服务之间调用的指标 指标的 ID 只能在拓扑图查询中获取
service_relation_client_cpm在客户端每分钟检测到的调用次数
service_relation_server_cpm在服务端每分钟检测到的调用次数
service_relation_client_call_sla在客户端检测到的成功率
service_relation_server_call_sla在服务端检测到的成功率
service_relation_client_resp_time在客户端检测到的平均响应时间
service_relation_server_resp_time在服务端检测到的平均响应时间
端点关系指标, 代表相互依赖的端点之间的指标. 只有在追踪代理启用时有效. 指标 ID 只能在拓扑查询中获得.
endpoint_relation_cpm
endpoint_relation_resp_time

拓展

skywalking什么类型的信息会触发报警

默认情况下,当你Http status为非200的时候,skywalking会识别到这是一个失败的请求;

在实际场景中,我们业务可能会遇到这种情况,就是响应码为200,但是项目中做了异常全局处理,这种情况应该告警的。针对这种情况,想要让skywalking不触发告警,需要使用ActiveSpan.error()

引入pom

<dependency><groupId>org.apache.skywalking</groupId><artifactId>apm-toolkit-trace</artifactId><version>9.2.0</version>
</dependency>

示例代码:

import org.apache.skywalking.apm.toolkit.trace.ActiveSpan;
import org.springframework.web.bind.annotation.ExceptionHandler;
import org.springframework.web.bind.annotation.RestControllerAdvice;@RestControllerAdvice
public class GlobalExceptionHandler {@ExceptionHandler({MyCustomException.class})public ResponseEntity<String> handleMyCustomException(MyCustomException e) {// 使用ActiveSpan.error()标记异常ActiveSpan.error(e);// 返回正常的响应,但SkyWalking会记录异常return new ResponseEntity<>("Handled MyCustomException: " + e.getMessage(), HttpStatus.OK);}
}

这种情况状态码是200,但是skywalking也会告警的。

忽略指定异常告警

这种方式是基本skywalking客户端的方式进行修改!!!!!!!

场景:

在业务使用过程中,我们会添加全局异常处理,当程序错误的时候,统一返回处理。

但是我们也会有这种场景:我们可能会抛出一些自定义的异常,而这些异常,并不是程序错误或者未知的错误,而是非常明确的终态,用来告知调用方一些信息,这种的我们想让skywalking不要报警,该怎么做呢?

在下述示例中,SkyException为我们要忽略报警的异常,MyCustomException为全局处理异常

SkyException

@Slf4j
public class SkyException extends RuntimeException{public SkyException(String message) {super(message);}
}

MycustomException

@Slf4j
public class MycustomException extends RuntimeException{public MycustomException(String message) {super(message);}
}

接口:

@GetMapping("/test")
public Integer pay(@RequestParam("id") Integer id) {throw new SkyException("skywalking忽略告警异常");
}@GetMapping("/test2")
public Integer pay(@RequestParam("id") Integer id) {return 1/0;
}

全局异常处理

@RestControllerAdvice
public class GlobalExceptionHandlers {@ExceptionHandler(SkyException.class)public Integer skyException(SixException e) {// 使用ActiveSpan.error()标记异常ActiveSpan.error(e);return 1;}@ExceptionHandler(MycustomException.class)public Integer mycustomException(SevenException e) {// 使用ActiveSpan.error()标记异常ActiveSpan.error(e);return 1;}
}

在上述情况下,访问/test1和/test2都会触发skywalking告警,如果我们想让SkyException不告警的话,有两种方式

  • skywalking默认的环境变量
  • 引入jar包,采用注解方式
环境变量的方式

修改jvm启动参数,当需要忽略多个异常时,使用逗号“,”分隔。如下所示。

-javaagent:/opt/skywalking-agent-9.2.0/skywalking-agent.jar
-Dskywalking.agent.service_name=sky-demo
-Dskywalking.collector.backend_service=127.0.0.1:11800
-Dskywalking.statuscheck.ignored_exceptions=com.xx.xxx.SkyException

修改完成后重新启动服务即可

如果是k8s的方式,注入环境变量: SW_STATUSCHECK_IGNORED_EXCEPTIONS:com.xx.xxx.SkyException

注解方式

引入pom

<dependency><groupId>org.apache.skywalking</groupId><artifactId>apm-toolkit-trace</artifactId><version>8.9.0</version>
</dependency>

在要忽略的异常上添加注解@IgnoredException,等同于添加配置statuscheck.ignored_exceptions

@Slf4j
@IgnoredException
public class SkyException extends RuntimeException{public SkyException(String message) {super(message);}
}

忽略链路插件

在skywalking控制台显示页面上,我们想让一些调用不显示链路,比如健康心跳显示,机器人巡检等功能,这些对于我们业务使用来说,不怎么关注,而且他们的触发频率很高,会有大量的链路,有时候直接把我们真正关心的链路给耍没了,那么这种场景,该怎么处理呢?

比如我不想让Lettuce/INFO在skywalking链路中显示

在这里插入图片描述

这种方式需要一个插件,进入optional-plugins文件夹,将jar包apm-trace-ignore-plugin-8.16.0.jar复制到plugins文件夹中

配置

忽略调用链路的配置有两种:

  1. 系统变量;
  2. 配置文件。

系统变量优先级大于文件。

其配置的路径应匹配Ant Path规则,如/path/*、/path/**、/path/?。

  • 系统变量

    在系统变量中添加skywalking.trace.ignore_path来配置要忽略的接口,多个接口之间用逗号“,”分隔。

  • 配置文件

    在config文件夹中添加配置文件apm-trace-ignore-plugin.config,在该配置文件中添加以下配置

    trace.ignore_path=/your/path/1/,/your/path/2/

我们要忽略掉eureka心跳检测的接口,则在配置文件中添加以下配置

trace.ignore_path=Lettuce/INFO

这样设置后,skywalking链路中不会在有该接口了

参考文献

skywalking中表字段的信息

skywalking全链路追踪

Skywalking(9.7.0) 告警配置

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/432889.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JS设计模式之组合模式:打造灵活高效的对象层次结构

引言 当我们构建复杂的应用程序时&#xff0c;经常会遇到处理对象层次结构的情况。这些层次结构通常是树形结构&#xff0c;由组合节点和叶子节点组成。在这样的情况下&#xff0c;JavaScript 设计模式之一的组合模式就能派上用场。 组合模式是一种结构型设计模式&#xff0c…

MySQL从入门到精通 - 基础篇

一、MySQL概述 1. 数据库相关概念 二、SQL &#xff08;1&#xff09;SQL通用语法 &#xff08;2&#xff09;SQL分类 &#xff08;3&#xff09;数据定义语言DDL 数据库操作 表操作 数据类型 1. 数值类型 2. 字符串类型 二进制数据&#xff1a;以二进制格式&#xff08;0和…

【JavaEE初阶】深入解析死锁的产生和避免以及内存不可见问题

前言&#xff1a; &#x1f308;上期博客&#xff1a;【后端开发】JavaEE初阶—线程安全问题与加锁原理&#xff08;超详解&#xff09;-CSDN博客 &#x1f525;感兴趣的小伙伴看一看小编主页&#xff1a;GGBondlctrl-CSDN博客 ⭐️小编会在后端开发的学习中不断更新~~~ &#…

C#图像处理学习笔记(屏幕截取,打开保存图像、旋转图像、黑白、马赛克、降低亮度、浮雕)

1、创建Form窗体应用程序 打开VS&#xff0c;创建新项目-语言选择C#-Window窗体应用&#xff08;.NET Framework) 如果找不到&#xff0c;检查一下有没有安装.NET 桌面开发模块&#xff0c;如果没有&#xff0c;需要下载&#xff0c;记得勾选相关开发工具 接上一步&#xff0c;…

【UE5】将2D切片图渲染为体积纹理,最终实现使用RT实时绘制体积纹理【第四篇-着色器投影-接收阴影部分】

上一章中实现了体积渲染的光照与自阴影&#xff0c;那我们这篇来实现投影 回顾 勘误 在开始本篇内容之前&#xff0c;我已经对上一章中的内容的错误进行了修改。为了确保不会错过这些更正&#xff0c;同时也避免大家重新阅读一遍&#xff0c;我将在这里为大家演示一下修改的…

叉车司机信息权限采集系统,保障与优化叉车运输网络的安全

叉车司机信息权限采集系统可以通过监控司机的行车行为和车辆状况&#xff0c;实时掌握车辆位置和行驶路线&#xff0c;从而提高运输安全性&#xff0c;优化运输网络&#xff0c;降低事故风险。同时&#xff0c;该系统还可以通过对叉车司机信息和行车数据的分析&#xff0c;优化…

Flutter屏幕适配

我们可以根据下面有适配属性的Widget来进行屏幕适配 1.MediaQuery 通过它可以直接获得屏幕的大小&#xff08;宽度 / 高度&#xff09;和方向&#xff08;纵向 / 横向&#xff09; Size screenSize MediaQuery.of(context).size; double width screenSize.width; double h…

springboot异常(三):异常处理原理

&#x1f345;一、BasicErrorController ☘️1.1 描述 BasicErrorController是Springboot中默认的异常处理方法&#xff0c;无需额外的操作&#xff0c;当程序发生了异常之后&#xff0c;Springboot自动捕获异常&#xff0c;重新请求到BasicErrorController中&#xff0c;在B…

网络安全 DVWA通关指南 DVWA Stored Cross Site Scripting (存储型 XSS)

DVWA Stored Cross Site Scripting (存储型 XSS) 文章目录 DVWA Stored Cross Site Scripting (存储型 XSS)XSS跨站原理存储型 LowMediumHighImpossible 参考文献 WEB 安全靶场通关指南 相关阅读 Brute Force (爆破) Command Injection&#xff08;命令注入&#xff09; Cro…

Spring:项目中的统一异常处理和自定义异常

介绍异常的处理方式。在项目中&#xff0c;都会进行自定义异常&#xff0c;并且都是需要配合统一结果返回进行使用。 1.背景引入 &#xff08;1&#xff09;背景介绍 为什么要处理异常&#xff1f;如果不处理项目中的异常信息&#xff0c;前端访问我们后端就是显示访问失败的…

eslint-plugin-react的使用中,所出现的react版本警告

记一次使用eslint-plugin-react的警告 Warning: React version not specified in eslint-plugin-react settings. See https://github.com/jsx-eslint/eslint-plugin-react#configuration . 背景 我们在工程化项目中&#xff0c;常常会通过eslint来约束我们代码的一些统一格…

基于RPA+BERT的文档辅助“悦读”系统 | OPENAIGC开发者大赛高校组AI创作力奖

在第二届拯救者杯OPENAIGC开发者大赛中&#xff0c;涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到&#xff0c;我们特意开设了优秀作品报道专栏&#xff0c;旨在展示其独特之处和开发者的精彩故事。 无论您是技术专家还是爱好者&#xff0c;希望能带给…

关于寻址方式的讨论

### 对话内容 **学生B&#xff08;ESFP&#xff09;**&#xff1a;老师&#xff0c;寻址方式听起来很复杂&#xff0c;能详细讲解一下吗&#xff1f;而且最好能举些具体例子&#xff01;&#x1f60a; **老师&#xff08;ENTP&#xff09;**&#xff1a;当然可以&#xff01;…

JVM(HotSpot):方法区(Method Area)

文章目录 一、内存结构图二、方法区定义三、内存溢出问题四、常量池与运行时常量池 一、内存结构图 1.6 方法区详细结构图 1.8方法区详细结构图 1.8后&#xff0c;方法区是JVM内存的一个逻辑结构&#xff0c;真实内存用的本地物理内存。 且字符串常量池从常量池中移入堆中。 …

蓝队技能-应急响应篇Web内存马查杀Spring框架型中间件型JVM分析Class提取

知识点&#xff1a; 1、应急响应-Web框架内存马-分析&清除 2、应急响应-Web中间件内存马-分析&清除 注&#xff1a;框架型内存马与中间件内存马只要网站重启后就清除了。 目前Java内存马具体分类&#xff1a; 1、传统Web应用型内存马 Servlet型内存马&#xff1a;…

vivado中除法器ip核的使用

看了很多博客&#xff0c;都没写清楚&#xff0c;害 我要实现 reg [9:0] a; 被除数 reg [16:0] b; 除数 wire [39:0] res; 结果 wire [15:0] real_shan; 要实现a/b 则如下这么配置 选择经过几个周期出结果 wire [39:0] res; // dly5 div_gen_0 div_gen_0_inst (.aclk(clk), …

精密制造的革新:光谱共焦传感器与工业视觉相机的融合

在现代精密制造领域&#xff0c;对微小尺寸、高精度产品的检测需求日益迫切。光谱共焦传感器凭借其非接触、高精度测量特性脱颖而出&#xff0c;而工业视觉相机则以其高分辨率、实时成像能力著称。两者的融合&#xff0c;不仅解决了传统检测方式在微米级别测量上的局限&#xf…

通过 LabVIEW 正则表达式读取数值(整数或小数)

在LabVIEW开发中&#xff0c;字符串处理是一个非常常见的需求&#xff0c;尤其是在处理包含复杂格式的数字时。本文通过一个具体的例子来说明如何利用 Match Regular Expression Function 和 Match Pattern Function 读取并解析字符串中的数字&#xff0c;并重点探讨这两个函数…

MyBatis<foreach>标签的用法与实践

foreach标签简介 实践 demo1 简单的一个批量更新&#xff0c;这里传入了一个List类型的集合作为参数&#xff0c;拼接到 in 的后面 &#xff0c;来实现一个简单的批量更新 <update id"updateVislxble" parameterType"java.util.List">update model…

计算机视觉学习路线

计算机视觉&#xff08;Computer Vision&#xff09;是计算机科学的一个重要分支&#xff0c;旨在使计算机能够理解和解释视觉数据。以下是一个详细的计算机视觉学习路线&#xff0c;帮你系统地掌握这个领域所需的知识和技能。 1. 基础数学和编程 在深入学习计算机视觉之前&…