如何使用AIOps明确Devps的问题归责

如何使用AIOps明确Devps的问题归责

news/2025/3/22 5:24:56/文章来源:https://blog.csdn.net/Site24x7/article/details/146424558

引言

拿出一个确凿的证据往往是解决背锅问题的重要办法。只有这样，才能够在没有互相指责、逃避责任或为自己及团队开脱等不良闹剧的情况下达成共识。DevOps 团队可以借助 AIOps 数据支持的可信度，让问题更清晰、背景更明确，从而一致做出更好的决策，避免陷入互相指责的局面，让团队效率得到充分保障。

现代信息技术十分复杂，应用系统往往安装在不同的分布式系统和云，以多种方式相互连接。通常情况下，故障发生并非由单一重大原因导致，而是在多种技术相互交织下导致未按预期工作。

与软件质量指标类似，MTTR（平均故障修复时间）也可看作 MTTI（平均自证清白时间），即出现问题时，团队平均花费多长时间声明自身无责，并指责相关团队和服务。互相指责很大程度上属于组织行为问题，源于缺乏问责机制、共识以及客观的协作方式。借助 Site24x7 基于人工智能的 IT 可观测性，DevOps 团队可以消除 MTTI，并大幅缩短 MTTR。下面我们来看看具体如何实现。

IT 监控中的 AIOps 是什么

DevOps 是一种开发人员和运维人员紧密协作的 IT 文化，旨在通过共同努力加快产品交付并更快地解决问题。IT 可观测性为 DevOps 团队提供指导，确保产品的开发、交付和维护能让最终用户满意。AIOps 是指在 IT 运维中，尤其是在 IT 可观测性方面运用人工智能、机器学习和数据分析技术，通过自动化操作更高效地工作，并能更快地（通常是主动地）解决问题。

DevOps 为何需要 AIOps

随着混合云、容器技术以及 Kubernetes 等编排平台的广泛应用，IT 复杂性急剧上升，这就需要一个实时可观测平台，能够整合指标、跟踪数据和日志，并实现实时查看。

其次，云原生技术、微服务、容器和各种组件产生了海量且多样的可观测数据，如果处理不当，很容易让人应接不暇。

再者，软件开发速度加快，发布频率比以往更高。这就需要持续的可观测性，通过消除薄弱环节和更新过程中的错误，确保 IT 系统的弹性。

最后，出现问题时，全面的可观测性解决方案对于实时筛选数据至关重要。它还有助于运用人工智能进行根本原因分析，主动检测异常并提供预测，从而抢占先机，节省 IT 人员的时间和精力，缩短 MTTR，轻松满足服务级别协议（SLA）。

Site24x7 上的 AIOps 从三个方面帮助 DevOps 团队拓展可观测性，成为他们 IT 工具库中不可或缺的工具：

AIOps 能更全面地展示 IT 基础设施，实现更好的监控，避免误报。

AIOps 整合多个数据点，在故障排查时提供更清晰的根本原因分析（RCA），加快恢复速度。

AIOps 通过预测功能，帮助主动做出决策，更高效地管理 IT 基础设施。

DevOps 如何使用 Site24x7 在 IT 可观测性和管理中避免互相指责

假设一个 Web 应用程序出现性能问题，导致用户加载时间变慢，影响业务。开发人员称这是服务器问题，运维团队却指责开发人员，要求他们检查应用代码是否存在低效问题。双方还都对云服务提供商和网络组件提出质疑。

在 Site24x7 的统一仪表板上，DevOps 团队可以查看相同的数据，对问题达成共识，为恢复工作迈出第一步。Site24x7 的异常仪表盘提供异常指标的快照，帮助识别重大变化和异常资源，以便调查潜在问题。

Site24x7 的 AIOps 如何帮助 DevOps 在 IT 管理中避免互相指责

完整的数字体验监控与实时洞察

Site24x7 整合了来自全球网站正常运行时间、性能、页面加载、资源使用情况以及真实用户指标的详细监控洞察，并将其与云性能和网络洞察相关联，从而呈现全面的情况。

借助人工智能快速进行故障排查，深入挖掘根本原因

Site24x7 通过分析服务器（物理或虚拟）的运行状况和性能，跟踪其 CPU、内存、磁盘使用情况及其他参数，帮助您进行全面的根本原因分析。通过映射性能指标和监控类型之间的依赖关系，简化根本原因分析过程。

深入代码层面，挖掘瓶颈并修复性能问题

Site24x7 的应用性能管理（APM）利用人工智能和机器学习的力量监控 Web 应用程序的性能，跟踪其通过 API 的流程，观察事务时间、错误和资源饱和度随时间的变化，帮助挖掘瓶颈和代码层面的问题。跨越复杂性，更快地确定根本原因。

借助 AIOps 避免误报，同时不错过任何真实警报

Site24x7 上的 AIOps 并非一成不变，它会审查每个阈值，并根据不断变化的需求动态调整。避免因僵化的错误阈值导致的误报，AIOps 会准确标记每一个真实警报，如实反映 IT 基础设施的当前状态。

依靠 AIOps，数据越多表现越好，故障排查更快

AIOps 具有自驱动能力，使用得越多效果越好，能生成更敏锐、更快速的警报，帮助更好地识别根本原因。虽然 AIOps 在少量数据的情况下就能运行，但 Site24x7 的 AIOps 在学习分析跨功能输入以发现并提醒真正问题的过程中，能更精准地标记异常，同时忽略季节性高峰（如允许的流量激增）。

借助 AIOps 预测，抢占先机

AIOps 研究磁盘使用等参数的模式，能提前 7 天预测即将发生的故障点，并针对多种服务（如 AWS）提供性能指标预测。通过您选择的媒介生成异常报告和阈值警报。

无需等待手动干预，选择自动化修复

执行自动化修复，如服务器重启或扩展，消除人为干预，节省时间，避免互相指责。AIOps 帮助 DevOps 团队在其整个架构中检测实时异常，包括区域差异、安全攻击或连接缓慢等，并基于人工智能动态执行修复操作。

以下是 DevOps 团队避免互相指责、共同努力实现业务弹性的一些最佳实践

采用数据驱动的方法

出现冲突时，领导层应避免情绪化，让数据说话。当大家共同查看数据时，就会采取一致行动。

打破部门壁垒，增强可观测性

采用全面的可观测性方法，而不是零散、孤立的方式。统一工具，切换到像 Site24x7 这样的综合 IT 可观测性平台。

促进协作，共享责任

在大多数 IT 事故中，不存在单一的责任方。要找出问题的根源，需要所有团队成员共同努力，树立共享责任意识。

自动化修复，事半功倍

使用 AIOps 实现自动化修复操作，让团队有时间探索改进流程的方法。

注重流程而非个人

将客观的错误处理和流程驱动的故障排查方法作为标准做法。不良流程会导致不良行为，纠正组织流程将大有裨益。

零信任、零指责、零推诿

基于数据准确性采用零信任策略，在调查问题时杜绝互相指责或推诿责任。严格的数据安全实践会自动减少许多互相指责的情况，并推动合规性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/37338.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Yolo系列之Yolo v3的概述、网络结构以及与v1,v2对比

Yolo系列之Yolo v3的概述、网络结构以及与v1,v2对比

Yolo v3的概述、模型理解以及与v1,v2对比目录 Yolo v3的概述、模型理解以及与v1,v2对比1 YOLOv3概述1.1 概念1.2 主要特点1.3 优缺点 2 网络结构理解2.1 核心网络框架2.2 先验框2.3 特征图2.4 Softmax层替换 3 Yolo v3与v1,v2对比3.1 网络结构3.2 多尺度预测3.3 分类器与损失函…

阅读更多...

AIGC工具平台-百叶窗卡点视频

AIGC工具平台-百叶窗卡点视频

本模块通过智能算法自动分析音频节奏，精准识别高潮卡点，并生成与音乐高度同步的动态视频。同时支持百叶窗样式的个性化设置，增强视觉冲击力，助力用户打造节奏感强、富有创意的视频作品。此外用户可灵活管理图片素材&#xff0c…

阅读更多...

【原创】通过S3接口将海量文件索引导入elasticsearch

【原创】通过S3接口将海量文件索引导入elasticsearch

在医院海量影像文件通过s3传到蓝光存储时，要找一个文件需要全部文件遍历一遍，效率非常非常低。 S3 是对象存储服务，本身不是专门为快速文件查找设计的，而 Elasticsearch 是搜索引擎，在查找特定文件或数据方面具有明显…

阅读更多...

MyBatis注解方式：从CRUD到数据映射的全面解析

MyBatis注解方式：从CRUD到数据映射的全面解析

目录 1. MyBatis是什么？2.准备工作2.1创建工程2.2 数据准备2.3 持久层代码2.4 单元测试 3.Mybatis的增删改查操作（使用注解方式）3.1 增（insert）3.2 删（delete）3.3 改（update&#xf…

阅读更多...

Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）

Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）

💖亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也…

阅读更多...

进程管理笔记1-进程线程基础知识

进程管理笔记1-进程线程基础知识

5.1 进程线程基础知识进程进程的基本定义： 进行的程序。代码经过编译，变成二进制可执行文件，运行这个可执行文件后，装载到内存中，然后CPU执行其中指令。并行和并发： 并行指两个任务并列前行&#x…

阅读更多...

【VolView】纯前端实现CT三维重建-CBCT

【VolView】纯前端实现CT三维重建-CBCT

文章目录什么是CBCTCBCT技术路线使用第三方工具使用Python实现使用前端实现纯前端实现方案优缺点使用VolView实现CBCT VolView的使用1.克隆代码2.配置依赖3.运行4.效果进阶：VolView配合Python解决卡顿1.修改VtkThreeView.vue2.新增Custom3DView.vue3.Python生成s…

阅读更多...

OpenEuler kinit报错找不到文件的解决办法

OpenEuler kinit报错找不到文件的解决办法

客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错No such file or directory: 最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复： ln -sv /lib/ld-linux-aarch64.so.1 /lib64/ld-linux-aarch64.s…

阅读更多...

国内首家，百度智能云千帆AppBuilder全面兼容MCP协议

国内首家，百度智能云千帆AppBuilder全面兼容MCP协议

百度智能云千帆 AppBuilder 已兼容 MCP 协议！作为国内首家支持 MCP 协议的大模型应用开发平台（Claude、LangGraph、Cursor、Cline、N8N等海外平台已支持），千帆 AppBuilder 完成兼容后，用户可通过千帆 AppBuilder 轻松调…

阅读更多...

uniapp自身bug | uniapp+vue3打包后 index.html无法直接运行

uniapp自身bug | uniapp+vue3打包后 index.html无法直接运行

前提： 已经修改了基础路径打开打包文件，双击运行index.html报错，无法访问页面 uniappvue2项目是可以正常运行的 vue3修改publicPath: ./后，也是可以正常访问打包文件中的index.html 点进控制台提供的链接：https:/…

阅读更多...

Ubuntu快速安装使用gRPC C++

Ubuntu快速安装使用gRPC C++

目录引言一、快速安装1. 安装必要依赖库2. 安装gRPC 二、测试使用三、参考博客引言关于gRPC随着云原生微服务的火热也流行了起来，而且学好一个gRPC框架对目前来说也是必须的了。然而对于一个基础的小白来说，这个gRPC的框架运用起来是及其的困难&…

阅读更多...

AES 简介以及 C# 和 js 实现【加密知多少系列_3】

AES 简介以及 C# 和 js 实现【加密知多少系列_3】

〇、AES 简介 AES 的全称是 Advanced Encryption Standard，意思是高级加密标准。它的出现主要是为了取代 DES（Data Encryption StandardData Encryption Standard）加密算法的，因为我们都知道 DES 算法的密钥长度是 56Bit&#xf…

阅读更多...

在Django模型中的Mysql安装

在Django模型中的Mysql安装

安装mysql驱动文章目录安装mysql驱动1.打开PowerShell 安装mysql的驱动2.安装mysqlclient驱动2.1开始安装2.2 pip list 进行验证出现mysqlclient 以及pymysql即可 3.正式安装mysql3.1打开mysql官网 www.mysql.com3.2点击下载然后划到最后点击mysql社区下载 3.3 点击适合win…

阅读更多...

AI赋能企业协作6-FizEIM的功能探索

AI赋能企业协作6-FizEIM的功能探索

本系列文章AI赋能企业协作与第一个系列IM工具对比中反复比较了国内外、商业、开源的IM工具以及IM工具的AI支持，在之前的比较对象中，由于信息偏差，Workplus（BeeWorks）已不再开源，这里向各位读者致歉&#xf…

阅读更多...

java项目之基于ssm的旅游论坛（源码+文档）

java项目之基于ssm的旅游论坛（源码+文档）

项目简介旅游论坛实现了以下功能： 用户信息管理： 用户信息新增用户信息修改景点信息管理： 景点信息添加景点信息删除景点信息修改论坛类型管理论坛类型添加论坛类型修改论坛类型删除公告类型管理： 公告类型添加公…

阅读更多...

Linux安装Elasticsearch集群-----docker安装es集群

Linux安装Elasticsearch集群-----docker安装es集群

目录技术背景 1.2 实验目标二、实验内容 1.1 服务器规划二、传统方式安装Elasticsearch集群 2.1 安装Java环境（10.1.1.6/8） 2.3 配置集群节点（以10.1.1.6） 2.4 启动服务 ES Data节点1（10.1.1.8）…

阅读更多...

【嵌入式】复刻SQFMI开源的Watchy墨水屏电子表——（2）软件部分

【嵌入式】复刻SQFMI开源的Watchy墨水屏电子表——（2）软件部分

书接上文基于乐鑫 ESP32-PICO-D4 模块的墨水屏智能手表开源项目Watchy 完成了硬件部分，接下来就是软件部分： 一开发环境配置（Arduino ESP32） 首先需要进行 Arduino ESP32 开发环境的安装配置，过程参考之前的帖子&a…

阅读更多...

关于微信小程序端base64解码问题

关于微信小程序端base64解码问题

由于atob是浏览器端的，对于微信小程序不支持，导致模拟器【开发工具】显示正常，但真机异常解析失败问题，微信小程序原有的api，官方文档中也废弃了解决方案： 调用： const decodedString ba…

阅读更多...

如何通过Odoo 18创建与配置服务器操作

如何通过Odoo 18创建与配置服务器操作

如何通过Odoo 18创建与配置服务器操作服务器操作是Odoo实现业务流程自动化的核心工具，允许你在服务器端执行自动化任务，通常由按钮点击或自动化工作流等事件触发。这些操作使用 Python 编写，能够执行复杂的业务逻辑，从而增强 Od…

阅读更多...

Windows主机、虚拟机Ubuntu、开发板，三者之间文件互传

Windows主机、虚拟机Ubuntu、开发板，三者之间文件互传

以下内容源于日常学习的整理，欢迎交流。下图是Windows主机、虚拟机Ubuntu、开发者三者之间文件互传的方式示意图： 注意，下面谈及的所有方式，都要求两者的IP地址处于同一网段，涉及到的软件资源见felm。一、Windows主…

阅读更多...

最新文章

推荐文章