优维「Easy分析」:一款故障根因分析小神器

图片

背 景

随着微服务架构的普及,现代企业的IT基础设施已经变得越来越复杂。单一的服务可能有多个下游依赖,而这些依赖又可能有自己的子依赖,和主机资源的依赖。在这样的环境中,当某个服务发生故障,确定具体的原因变得尤为困难。传统的故障排查方法,如手动检查日志或询问开发团队,既耗时又不一定能找到真正的根源。

此外,随着DevOps和持续集成/持续部署(CI/CD)的普及,应用的发布频率大大增加,这使得发布引起的服务中断变得更为常见。同时,资源和基础设施的动态性也为故障诊断带来了挑战。

为了应对这些挑战,优维设计了“Easy分析”服务故障根因分析工具,旨在为技术团队提供一个集成、自动化的解决方案,帮助其迅速、准确地定位服务故障时的原因。

下面,从具体场景出发,详细介绍服务故障根因分析工具。

1

应用发布导致的服务故障

1.1 概述

应用发布可能导致服务运行出现不稳定或其他未预期的影响。当服务发出告警时,本功能将自动分析告警指标,检测服务或其下游服务在最近是否发生过变更。

1.2 核心功能

  • 变更检测:当服务告警时,系统会自动检测与告警相关的服务是否近期有变更事件,如启动、关闭、升级或重启等。

  • 双态部署事件联动:与双态部署系统紧密集成,获取最新的部署和变更事件信息。

  • 告警与变更关联:为告警事件提供直接与变更事件的关联,帮助团队快速确定是否有发布活动导致的故障。

  • 消费CMDB数据:根据cmdb的服务相关的模型,自动关联下游服务的变更事件

1.3 场景说明及配置

假设微服务集群中,提供了一个名为flounder_metric的服务。服务的请求一般是从api_gateway接入到集群中,并且基于url路由至具体的应用组件来处理请求。因此,在这个场景中,存在这样一个调用关系:api_gateway -> flounder_metric

在服务监控中,我们会对flounder_metric的接口进行拨测。配置的步骤如下:

  • 建立内网拨测策略,指定监控的应用是「http-logic.api_gateway」,它是api_gateway应用的服务标识;

  • 配置关于flounder_metric服务的接口,在变量定义中,通过$.subservices.ip会自动获取到服务下子服务的IP地址。

图片

保存后即可。

此时配置基于detect_code的告警规则,即可完成对该接口的监控。

1.4 故障触发和根因分析

我们人为触发一个服务告警,通过双态部署,关闭flounder_metric服务。

图片

稍后,将触发一个拨测告警:

图片

我们通过事件详情,点击故障分析:

图片

此时将看到故障分析页面,让我们来解释一下:

图片

上方是告警事件的告警对象和告警指标持续的时间,可以看到告警持续时间范围是 11:55~12:04。

接下来就是根因分析的结论,一共发现1个结论,和应用发布的变更相关。具体来说,有两个分析:

  • http-logic.api_gateway有告警事件,没有变更事件,说明不是api_gatewaya变更导致;

  • 由于api_gateway的下游是flounder_metric服务,而该服务在12:00分发生了停止操作,进而触发了告警,因此分析为:下游HTTP服务http-logic.flounder_metric的变更导致的故障(这也是此次故障的真正原因)。

1.5 结论

在微服务架构中,服务间的相互依赖和频繁的应用发布行为可能会导致复杂的故障情况。在本场景中,通过"服务故障根因分析"工具,我们成功地自动检测到flounder_metric服务的停止操作是导致api_gateway服务拨测告警的直接原因。该工具能够智能地关联告警事件与近期的应用变更,准确快速地定位到真实的故障原因。

此次案例展示了"服务故障根因分析"工具的核心功能,即自动识别与故障相关的变更,并为技术团队提供明确的、数据驱动的根因分析。此功能大大减少了故障诊断时间,并提高了故障恢复的效率。

2

依赖资源高负载导致的服务故障

2.1 概述

服务的性能和稳定性可能受到其运行环境的影响,特别是当它依赖的资源或子服务处于高负载状态时。本功能提供了与资源负载告警的自动关联能力,帮助识别故障的根本原因。

2.2 核心功能

  • 资源负载告警关联:当服务延迟或其他性能指标出现问题时,系统会自动检测与该服务关联的子服务部署实例主机是否有高负载告警。

  • 直观的负载影响分析:为用户提供一个清晰的视图,展示服务与其依赖资源之间的关系,以及哪些资源的高负载可能影响了服务的性能。

  • 资源性能指标对比:允许用户对比服务性能指标与资源负载指标,例如,当服务延迟增加时,可以立即查看其所在主机的CPU或内存使用情况。

2.3 场景说明及配置

假设微服务集群中,提供了一个名为cmdb_service的服务,并且对它的延迟做监控。我们设定SLO是10ms,并且手动触发系统高负载,来审视根因分析的准确性。

为了实现这个场景,我们人为设定当「磁盘IO的使用率」过高并触发告警后,再触发延迟告警。

当告警发生后,我们点击故障分析,进入分析页:

图片

分析页面如上所示,让我们解释一下。

  • 由于alert_service的下游是tool.sandbox,并且这两个服务都在主机:prod-host-10-36-enterprise-7-logic,并且该主机发生磁盘IO操作的CPU使用率过高的告警。因此根因分析就会把这些关系和告警联系起来,并告知给用户。

除了「磁盘IO操作的CPU使用率」,还有「5分钟单核负载」,「网络流量」等指标均可触发高负载场景的分析。

2.4 结论

在微服务架构中,单一服务的性能往往与其所依赖的其他服务和资源紧密相关。我们在这次的模拟场景中成功地展示了如何通过“服务故障根因分析”工具来识别和关联服务延迟增加与其所在主机的资源高负载之间的因果关系。

这种自动化的、综合的分析方法大大简化了故障诊断过程,确保了更快速、更准确的问题定位和解决,进一步提高了服务的稳定性和可用性。

3

支持按拓扑形式分析故障演变情况

故障根因分析的分析视图改版,支持按拓扑形式分析故障演变情况。在旧版本中,尽管可以关联并分析出所有可能导致故障的原因,但是分析视图所携带的信息过于繁琐和冗余,不利于高效分析的目的。在新版故障分析视图中,支持以故障拓扑的形式去智能分析故障演化路径。如下所示:

图片

如上图所示:红色为底色的方框代表服务产生的告警,比如端口拨测失败。

而后展示了和此服务关联的其他服务的变更情况,由图可知,是17*.3*.**.**上的scheduler_service发生了变更导致服务告警。

图片

如此可以帮助用户快速排除服务故障的原因是否由于变更产生。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/343545.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】The server quit without updating PID file的几种解决方案

😎 作者介绍:我是程序员洲洲,一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。 🤓 同时欢迎大家关注其他专栏,我将分享Web前后端开发、人工智能、机器学习、深…

微服务架构-微服务实施

目录 一、概述 二、微服务拆分 2.1 概述 2.2 拆分原则 2.3 拆分方法 2.3.1 以数据为维度进行拆分 2.3.2 按照使用场景拆分 2.3.3 重要和非重要的拆分 2.3.4 变和不变的拆分 三、微服务通信 3.1 概述 3.2 微服务通信方式选择 3.3 微服务编排 3.4 API接口设计 3.5 …

C++基础与深度解析 | 类与面向对象编程 | 数据成员 | 成员函数 | 访问限定符与友元 | 构造、析构成员函数 | 字面值类、成员指针与bind交互

文章目录 一、结构体与对象聚合二、成员函数(方法)三、访问限定符与友元1.访问限定符2.友元(慎用) 四、构造、析构与复制成员函数1.构造函数2.析构函数3.补充 五、字面值类,成员指针与bind交互1.字面值类2.成员指针3.b…

【MATLAB源码-第224期】基于matlab的快跳频系统仿真采用4FSK,模拟了单音干扰,宽带干扰以及部分频带干扰,输出误码率曲线以及各节点图像。

操作环境: MATLAB 2022a 1、算法描述 跳频通信系统概述 跳频通信系统是一种通过快速切换载波频率来进行信息传输的无线通信技术。它在军事和商业通信中广泛应用,具有较强的抗干扰和抗截获能力。系统设计主要包括信号调制、跳频序列生成、信道模拟以及…

Java 初识

Java 的发展历程 Sun 公司。 Oracle 公司。 普通版本,也叫过渡版本。 正式版本,也叫长期支持版本(LTS)。 Java SE,Java EE,Java ME Java 技术体系分为三个平台:Java SE,Java EE&a…

G5 - Pix2Pix理论与实战

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 目录 理论知识图像翻译CGANU-NetPix2Pix损失函数模型结构生成器差别器 模型效果总结与心得体会 理论知识 前面已经学习了GAN与CGAN,这节开始学习P…

记一次Linux下Docker镜像服务器磁盘空间清理

我们开发环境Jenkins构建项目时报服务器磁盘空间不足,导致项目自动化构建部署失败, Docker镜像服务器磁盘空间清理我们做了多次了,之前在清理Docker镜像服务器时走了不少弯路,查了不少Docker镜像服务器空间清理,都大同…

AI大数据处理与分析实战--体育问卷分析

AI大数据处理与分析实战–体育问卷分析 前言:前一段时间接了一个需求,使用AI进行数据分析与处理,遂整理了一下大致过程和大致简要结果(更详细就不方便放了)。 文章目录 AI大数据处理与分析实战--体育问卷分析一、数据…

部署kubesphere报错

安装kubesphere报错命名空间terminted [rootk8smaster ~]# kubectl apply -f kubesphere-installer.yaml Warning: apiextensions.k8s.io/v1beta1 CustomResourceDefinition is deprecated in v1.16, unavailable in v1.22; use apiextensions.k8s.io/v1 CustomResourceDefini…

LabVIEW阀性能试验台测控系统

本项目开发的阀性能试验台测控系统是为满足国家和企业相关标准而设计的,主要用于汽车气压制动系统控制装置和调节装置等产品的综合性能测试。系统采用工控机控制,配置电器控制柜,实现运动控制、开关量控制及传感器信号采集,具备数…

【数据结构初阶】--- 顺序表

顺序表,好像学C语言时从来没听过,实际上就是给数组穿了层衣服,本质是一模一样的。 这里的顺序表实际是定义了一个结构体,设计各种函数来实现它的功能,比如说数组中的增删改查插入,这些基本操作其实平时就会…

go语言内置预编译 //go:embed xxx 使用详解

在go语言里面,我们可以使用一个“类注释”的语法来来让编译器帮助我们在编译的时候将一些文件或者目录读取到指定的变量中来供我们使用。 go:embed语法: //go:embed 文件或者目录路径 var 变量名 变量类型 说明: 文件或者目录路径 可以…

【操作系统】进程与线程的区别及总结(非常非常重要,面试必考题,其它文章可以不看,但这篇文章最后的总结你必须要看,满满的全是干货......)

目录 一、 进程1.1 PID(进程标识符)1.2 内存指针1.3 文件描述符表1.4 状态1.5 优先级1.6 记账信息1.7 上下文 二、线程三、总结:进程和线程之间的区别(非常非常非常重要,面试必考题) 一、 进程 简单来介绍一下什么是进程&#xf…

C++学习/复习13--list概述

一、list概念 1.带头双向链表 2.构造函数 3.迭代器(其迭代器需尤其注意) 4、size 5.front/back 6.插入删除 删除时的迭代器失效 由于list的节点特殊,既有数据又有指针,其实现需要节点/迭代器/list各成一类再组合

Windows系统电脑本地部署AI音乐创作工具并实现无公网IP远程使用

文章目录 前言1. 本地部署2. 使用方法介绍3. 内网穿透工具下载安装4. 配置公网地址5. 配置固定公网地址 前言 本文主要介绍如何在Windows系统电脑上快速本地部署一个文字生成音乐的AI创作工具MusicGPT,并结合cpolar内网穿透工具实现随时随地远程访问使用。 MusicG…

Spring AI 第二讲 之 Chat Model API 第八节Anthropic 3 Chat

Anthropic Claude 是一系列基础人工智能模型,可用于各种应用。对于开发人员和企业来说,您可以利用 API 访问,直接在 Anthropic 的人工智能基础架构之上进行构建。 Spring AI 支持用于同步和流式文本生成的 Anthropic 消息 API。 Anthropic …

29网课交单平台 epay.php SQL注入漏洞复现

0x01 产品简介 29网课交单平台是一个专注于在线教育和知识付费领域的交单平台。该平台基于PHP开发,通过全开源修复和优化,为用户提供了高效、稳定、安全的在线学习和交易环境。作为知识付费系统的重要组成部分,充分利用了互联网的优势,为用户提供了便捷的支付方式、高效的…

2.Rust自动生成文件解析

目录 一、生成目录解析二、生成文件解析2.1 Cargo.toml2.2 main函数解析 一、生成目录解析 先使用cargo clean命令删除所有生成的文件,下图显示了目录结构和 main.rs文件 使用cargo new testrust时自动创建出名为testrust的Rust项目。内部主要包含一个src的源码文…

[网鼎杯 2020 青龙组]jocker

运行程序,发现是要我们自己输入 那么肯定是拿到enc慢慢还原 32位,无壳 进来就红一下报错 这里可以看见长度为24 动调一下看看 这里进行了大量的异或 这里是对地址开始的硬编码进行异或,从而达到smc的效果 所以你也可以发现在进行这一步操作之前 encry函数全是报错 你点开…

Python 知识图谱补全,Knowledge Graph Completion,基于大模型的知识图谱补全,基于LLMs的KGC任务

今天讲一篇文章《Exploring Large Language Models for Knowledge Graph Completion》 ,这篇文章主题:基于大模型做知识图谱补全 1.文章主要思想: 本章描述知识图谱补全中的三个任务:三元组分类、关系预测和实体(链接)预测&…