优维全面可观测产品能力分解⑥:运维状态可观测

本文是《优维全面可观测产品能力分解》系列文章的第六篇:『运维状态可观测』。基于可观测的数据体系,「运维状态可观测」是实现于运维状态的一次深入可观测。

在日常运维场景中,系统/应用运维人员重点关注的是系统/应用是否可用,使用是否流畅及是否够用。基于此,「运维状态可观测」提供三大观测能力,包含可用性管理、性能管理、容量管理。其中,【可用性管理】则是结合SRE的SLO&SLI体系,呈现所有系统的可用性目标和可用性指标情况;【性能管理】是从性能的角度全面查看系统、服务和接口的性能情况,并快速识别出系统瓶颈;【容量管理】是从容量规划、容量呈现、容量运营等角度,实现对系统、应用的动静态容量管理。

1

可用性管理

可用性管理是确保任何IT服务一致且成本高效地提供客户所需的一致可靠服务级别的过程。可用性管理涉及最大程度地减少服务损失,并确保在服务丢失时采取适当措施。优维提供的【可用性管理】综合了服务的拨测成功率和SLO进行对比分析,通过可视化的形式,呈现所有系统的可用性目标与可用性指标,帮助企业有效衡量服务的可用性。

在可用性管理能力开发之前,基于实践观察,优维技术团队从三个方面梳理了当前企业在可用性管理上的痛点所在:

  • 系统及应用服务缺少可用性标准。
  • 无法实时掌握系统及应用服务的稳定性,也无法知道可用性是下降还是上升。
  • 无法横向对比系统的可用性,哪个系统做的好,哪个系统做的差。

基于对企业在可用性管理上的痛点洞察,优维研发的【可用性管理】在统一的标准规范指引下,设定系统及应用服务的可用性目标及计算工时,以目标倒推系统的可用性维护。其次,可查看年、月、周、天为单位的系统/应用服务的可用性,并支持周对比、月对比,从而查看可用性是在提升还是下降,以便进一步制定可用性治理手段。并提供系统间可用性排行榜,明确红榜黑榜。

在场景应用上,满足不同IT人员对可用性管理的需求。

  • 产品负责人:可制定某个时间周期内系统的服务等级目标SLO,以便其能够定义用户在使用业务系统时所期望的服务质量水平,并提供一个标准作为开发和运维团队的参考与评估。
  • 业务运维负责人:可根据不同系统特征(A类、B类、C类),围绕SLO制定可衡量服务质量/服务可用性水平的SLI,通过SLI具体指标去描述SLO,进而衡量SLO的达成情况。
  • 应用系统运维负责人:能够和运维团队一起制定应用系统内容要统计应用服务权重与接口服务黑/白名单,以便其根据企业管理要求或业务特征,通过权重/黑白名单的配置,排除干扰数据,提升可用性计算的合理性与准确性。同时,还可查看某个时间周期内,各个应用系统的可用性分析视图,以便其制定应用系统运维后续的可用性改进措施。

2

性能管理

目前对很多行业来说,IT技术正在支撑着关键的业务应用,为此关键业务应对性能有较高要求,性能下降往往对业务造成巨大损失。面对这些问题,需要一系列工具和方法,能够对IT系统的性能进行监控与管理,并对可能出现的性能问题进行及时、准确的分析和处理。从而改善服务品质,减少操作失败和灾难发生的风险,减少维护运营的整体成本,提高系统的可用性、缩短响应时间,提高用户的满意度。

因此,性能管理的重要性不言而喻,而在实际的系统运维维护的过程中,企业在性能管理上依然面临着以下问题:

  • 缺乏统一的系统性能评估手段,导致性能认知及系统建设方法不统一。
  • 性能问题解决效率慢,无法准确定位到木桶短板。

为此,优维在系统性能的观测与管理上,通过提供系统/应用的性能管理视图,以CMDB系统/应用树来呈现性能状态。同时,构建面向系统/应用服务的应用性能评估体系(Apdex),便于IT运维人员快速识别系统性能瓶颈。从业务到技术,从全局到局部,层层分析定位,帮助运维人员有效定位性能木桶短板。

在核心能力上,优维【性能管理】提供的「性能看板」功能模块,可进行系统/多服务横向对比,查看全量系统/应用服务概览,也可拆分多个生产环境,查看单系统/单应用服务的详情看板;同时,提供系统间性能排行榜,明确红黑榜Top5。另外,【性能管理」支持基于Apdex通用标准,自定义配置阈值。

3

容量管理

容量管理的核心职责是提供一个符合企业成本与利益的、及时的策略来保证IT服务与基础设施,始终达到或者超过当前业务的需求,促使业务的健康发展与IT服务的降本增效。优维研发的【容量管理】是从容量规划、容量呈现、容量运营等角度,实现对系统、应用的动静态容量管理。


通过对企业客户的深入调研,优维从四个方面有针对性的为企业提供容量管理服务。

  1. 由于企业业务不断变化,关联系统的容量支撑不得而知。为此,优维的【容量管理】可基于业务容量的变化情况,全面预估服务及容量是否能支撑业务需要。
  2. 企业缺乏系统及应用服务容量水平的实时监控。针对这一痛点,优维【容量管理】可实时掌握系统及应用服务的性能容量和资源容量状况,并定时提醒运维负责人做出改进。
  3. 企业在面临重大活动及节假日(禁止变更),系统/资源容量难以提前评估支撑。企业可利用优维【容量管理】查看活动及节假日的业务变化情况,全面评估及预测系统/资源容量水平,制定容量应对手段,从而很好的支撑业务。
  4. 缺乏主动容量管理,不足以预留足够的时间应对周期性业务变化。对此,优维【容量管理】通过建立周期性容量规划和预测机制,全面评估容量情况,制定改进计划,并落实解决。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/283595.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

视频素材库哪个好?这8个短视频相关的优质素材网推荐看看

在这个数字化时代,视频内容的创作变得前所未有地重要。无论是短视频的快速制作,还是专业影片的精心编辑,找到合适的素材资源是每个视频创作者的基本需求。从高清视频片段、无水印的图片,到富有情感的音效,以下精选的网…

LeetCode---126双周赛

题目列表 3079. 求出加密整数的和 3080. 执行操作标记数组中的元素 3081. 替换字符串中的问号使分数最小 3082. 求出所有子序列的能量和 一、求出加密整数的和 按照题目要求,直接模拟即可,代码如下 class Solution { public:int sumOfEncryptedInt…

《剑指 Offer》专项突破版 - 面试题 88 : 动态规划的基础知识(C++ 实现)

目录 前言 面试题 88 : 爬楼梯的最少成本 一、分析确定状态转移方程 二、递归代码 三、使用缓存的递归代码 四、空间复杂度为 O(n) 的迭代代码 五、空间复杂度为 O(1) 的迭代代码 前言 动态规划是目前算法面试中的热门话题,应聘者经常在各大公司的面试中遇到…

JAVA——volatile,wait,notife

文章目录 volatile关键字简识jvm内存模型内存上的优化问题的产生volatile的作用 wait()wait()的作用 notify()notify的唤醒顺序 volatile关键字 volatile关键字可以保证内存的可见性,什么是内存的可见性呢&#xff1f…

Jenkins中支持maven构建遇到仓库报错问题

目的 Jenkins中支持maven构建(Jenkins使用docker安装) 问题 1.构建一个maven项目 2.执行报错 /var/lib/jenkins/local_maven_repo/com/sx/root/1.0.4/root-1.0.4.pom.part.lock (No such file or directory) Failed to transfer Could not transfer artifact co…

Unity发布webgl之后打开PDF文件,不使用js,不和浏览器交互

创建一个按钮,然后点击就会打开 在webgl下要使用这样的路径拼接,不然就会报错。 btnBook.onClick.AddListener(() >{var uri new System.Uri(Path.Combine(Application.streamingAssetsPath "/Books", "文档.pdf"));Debug.Log…

是德科技keysight N1912A双通道功率计

181/2461/8938产品概述: Keysight(原Agilent) N1912A P系列双通道功率计可提供峰值、峰均比、平均功率、上升时间、下降时间、最大功率值、最小功率值以及宽带信号的统计数据。 Keysight(原Agilent) N1912A P系列双通道功率计, 可提供峰值、峰均比、平均功率、上升…

53、Qt/信号与槽、QSS界面设计20240322

一、使用手动连接,将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中,在自定义的槽函数中调用关闭函数 将登录按钮使用qt5版本的连接到自定义的槽函数中,在槽函数中判断ui界面上输入的账号是否为"admin",密码是…

机器学习 - 训练模型

接着这一篇博客做进一步说明: 机器学习 - 选择模型 为了解决测试和预测之间的差距,可以通过更新 internal parameters, the weights set randomly use nn.Parameter() and bias set randomly use torch.randn(). Much of the time you won’t know what…

二叉树|112.路径总和

力扣题目链接 class Solution { private:bool traversal(TreeNode* cur, int count) {if (!cur->left && !cur->right && count 0) return true; // 遇到叶子节点,并且计数为0if (!cur->left && !cur->right) return false; …

程序员表白

啥?!你说程序员老实,认真工作,根本不会什么表白!那你就错了!(除了我) 那今天我们就来讲一下这几个代码!赶紧复制下来,这些代码肯定有你有用的时候! 1.Python爱心代码 im…

Matlab使用教程(持续更新)

1. Matlab Matlab被广泛的应用在数据分析,汽车仿真,机器人以及医学研究等众多方面。 它可以帮助我们理解研究复杂的系统。 在60年代和70年代,计算机使得科学家和工程师完成了以前不可能进行的计算;但是需要懂得计算机编程。 C…

【Java开发过程中的流程图】

流程图由一系列的图形符号和箭头组成,每个符号代表一个特定的操作或决策。下面是一些常见的流程图符号及其含义: 开始/结束符号(圆形):表示程序的开始和结束点。 过程/操作符号(矩形)&#xff…

【力扣hot100】128.最长连续序列

给定一个未排序的整数数组 nums ,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。 请你设计并实现时间复杂度为 O(n) 的算法解决此问题。 示例 1: 输入:nums [100,4,200,1,3,2] 输出:4 解…

PLC与智能制造——蛋糕增大?谁来先行?

PLC的特点 图1 PLC的特点 PLC与智能制造 “中国制造2025”把智能制造作为自动化和信息化深度融合的主攻方向,其支撑在于强大的工业自动化系统,而PLC是工业自动化系统的“大脑”,它不仅可控制机械装备和生产线,还是信息的采集器和…

synchronized和lock的区别

文章目录 synchronized和lock的区别公平锁和非公平锁可重入锁 synchronized和lock的区别 synchronized 是java的一个关键字,源码在 jvm 中,用 c 语言实现,synchronized在发生异常时会自动释放占有的锁,因此不会出现死锁。 Lock 是…

线性代数基础概念和在AI中的应用

基本概念 线性代数是数学的一个分支,专注于向量、向量空间(也称为线性空间)、线性变换和矩阵的研究。这些概念在数据科学、人工智能、工程学和物理学等多个领域都有广泛应用。以下是这些基本概念的详细解释和它们在数据处理和AI中的应用。 …

社区热议!54.8k Star开源项目,GPT-4Free : 让GPT4免费不是梦

Hello,我是Aitrainee,GPT4Free就是最近传得沸沸扬扬的那个GPT4项目。大家都知道,虽然ChatGPT是免费的,但如果你想用到那些功能更强大的大模型,比如GPT-4、gemini-pro、claude,那就只能选择付费了。 但现在&…

C语言——程序拷贝文件

问题如下: 写一个程序拷贝文件: 使用所学文件操作,在当前目录下放一个文件data.txt,写一个程序,将data.txt文件拷贝一份,生成data_copy.txt文件。 基本思路: 打开文件data.txt,读…

【11】工程化

一、为什么需要模块化 当前端工程到达一定规模后,就会出现下面的问题: 全局变量污染 依赖混乱 上面的问题,共同导致了代码文件难以细分 模块化就是为了解决上面两个问题出现的 模块化出现后,我们就可以把臃肿的代码细分到各个小文件中,便于后期维护管理 前端模块化标准…