AI驱动的智能运维:行业案例与挑战解析

图片

华为、蚂蚁、字节跳动如何引领智能运维?

©作者|潇潇

来源|神州问学

引言

OpenAI 发布的 ChatGPT 就像是打开了潘多拉的魔盒,释放出了生产环境中的大语言模型(LLMs)。一些新的概念:“大语言模型运维 (LLMOps)”、“智能运维平台(AIOps)”也随之迸发和迭代。与传统运维方法相比,这些新概念在管理和维护AI产品时,更强调了动态模型管理、自动化故障检测和智能化问题解决,不断深刻改变了构建和维护AI应用的方式,推动了运维工具和实践的全面进化。 

行业案例

案例1:华为基于大小模型协同的网络智能运维实践

华为搭建了基于大小模型协同的网络智能运维系统,统一自然语言交互界面,用户输入问题,运维工具输出自然语言答案。对于已知的可以用现成能力解决的问题,通过运维专用小模型进行健康度报告、健康度查询、故障闭环推荐等,对于未知问题,调用知识检索能力。

结合大小模型的输出结果,使用大模型的逻辑推理与总结归纳能力,辅助进行多源数据的关联分析,降低运维人员的理解与操作闭环难度。

图片

案例2:蚂蚁可观测Mpilot智能助手实践

蚂蚁将大模型用于可观测平台,重点选取与产品深度融合且高频使用的场景,建设了可观测Mpilot智能助手,通过三个助手Agent提供服务,分别为时序助手、日志助手和告警助手。

• 时序助手:时序助手重点用于监控指标分析,进行业务指标探索,通过定制化SQL模型的方式,允许用户以自然语言的方式快速检索监控内部的数据源;

• 日志助手:日志助手用于解读应用错误日志,并对应用报告给出分析性建设和解决方案;

• 告警助手:告警助手主要用于告警应急处理,以及告警之后的辅助故障面计算、关联告警查询、初步根因定位、应急处置流程查询等场景。

技术核心:

MaaS 函数插件服务: 提供工具,调用简化运维操作。

Ceresdb: 时序存储组件,用于智能告警和故障恢复。

Agent助手和知识库: 提供复杂的数据检索和生成任务的支持。

Mpilot的智能分析与自动化功能,能够迅速识别并解决故障,深入分析时间序列数据来发现性能瓶颈,提出有效的优化策略。根据风险的等级自动化执行任务,提升了运维工作的智能水平和响应速度。

图片

案例3:字节跳动智能运维场景AI Agent实践

字节跳动在智能运维中应用 Agent,利用大模型的规划、反思和工具能力,实现复杂任务的自治完成。

• 问题背景:核心app出现响应迟钝,部分响应时间超过7秒,严重影响用户体验。为快速定位和解决问题,字节跳动智能运维系统依赖Agent进行了系统化的故障排查和定位。

• 异常检测:Agent首先锁定问题时间范围之间,使用指标异常检测、日志异常检测、事件异常检测等工具,发现多个节点在特定时间点的指标发生突变,主机也多次发出告警信号。

• 根因分析:确定异常范围后,Agent通过思维链技术,详细规划可能的故障原因,制定检查步骤,逐一验证可能的故障点,最终确定主机的宕机是导致app响应迟钝的根本原因。

故障总结与反思:Agent通过RAG机制总结故障原因,并通过反思优化排查流程,生成详细的故障报告,并提出预防建议。

• 结果:Agent快速定位故障原因,解决app的故障问题,大幅提升运维效率,减少了系统停机时间。

图片

  一、AI在智能运维中的应用场景

1、RAG知识咨询

在智能运维领域,采用RAG技术构建高效的知识咨询系统。通过结合检索和生成模型,大模型能够从大量运维文档和知识库中提取相关信息,生成实际应用价值的回答。当运维人员遇到系统故障时,RAG知识咨询系统能够迅速检索相关故障案例和解决方案,提供详细的修复步骤和建议。在操作手册与最佳实践方面,大模型可以根据检索和生成技术提供针对特定操作的详细指南,帮助运维人员快速掌握操作和维护技巧。系统还能够实时更新运维知识库,融入最新的技术信息和解决方案,为运维人员提供最新的咨询服务,以应对不断变化的技术环境。

图片

2、Agent应用场景

在运维领域,大模型 Agent 的应用场景涵盖了从日常运维任务到复杂问题处理的多个方面:

自动化故障处理:大模型 Agent 能够通过自动化流程执行故障诊断和处理。它能够实时监控系统状态,当检测到异常时,自动识别故障原因,生成故障排查计划,并根据计划执行相应的操作,如调整配置、重启服务等。通过自我学习和优化,Agent 能够逐渐提高故障处理的准确性和效率。

智能监控和异常检测:大模型Agent 可以对多模态数据进行整合分析,包括系统指标、日志、拓扑数据等。通过异常检测算法,Agent 可以实时发现潜在问题,生成告警并进行初步的异常分析。这种智能监控能力能够大幅度降低人为干预的需求,提升系统的稳定性。

预测性维护:通过分析历史数据和实时数据,Agent 可以预测设备或系统的潜在故障。它利用机器学习模型和预测算法,识别故障发生的模式和趋势,提前发出预警,并建议相应的维护措施。这种预测性维护有助于减少突发故障,降低运维成本,并提高系统的可靠性。

操作优化:Agent 能够分析运维流程和操作数据,识别效率低下的环节或优化点。它通过智能分析和优化建议,提高系统和流程的整体效率。例如,Agent 可以优化资源配置、调整负载均衡策略,并通过自动化调整来提升系统性能。

多 Agent 协作:在复杂的运维场景中,多个 Agent 可以协作完成任务。每个 Agent 执行不同的角色和功能,例如一个负责数据监控,一个负责故障诊断,另一个负责修复操作。通过协调和合作,多 Agent 系统能够处理更为复杂的任务,提高整体运维效率。

图片

这些应用场景展示了大模型 Agent 在 AI运维中的广泛应用,涵盖了从自动化处理到智能优化的各个方面。通过有效利用 Agent 的能力,运维团队可以显著提高工作效率,降低故障率,并优化系统性能。

二、AI运维优势与挑战

AI运维的显著优势

AI运维这个概念不可否认是相当美好的,他的优点也显而易见:解放我们的双手和大脑,也就是解放人力,就这一个优点就是非常大的,而且这也应该是AI在绝大多数应用领域的优点。

AI运维面临的主要挑战

技术成熟度不足 尽管AI技术近年来取得了显著进展,但在运维领域的应用仍然处于初级阶段。AI运维依赖于复杂的算法和大规模的数据处理能力,但当前的技术水平可能还无法满足实际运维需求。尤其是在处理异常情况和故障排查时,现有的AI技术往往需要更多的优化和验证,以确保其可靠性和准确性。

数据质量和量的问题 AI运维的核心是数据,尤其是高质量、准确且全面的数据。然而,许多企业在数据收集、处理和存储方面存在问题,导致数据质量参差不齐。数据的不完整性和噪音会直接影响AI模型的表现,使得AI运维系统在实际应用中可能无法做出准确的判断和处理。

成本与投资问题 部署AI运维系统需要投入大量的资金用于硬件、软件、研发和维护。对于许多中小型企业来说,这种高昂的投入可能难以承受。同时,实施AI运维还需要技术人员进行大量的前期准备和系统调试,这些都增加了额外的成本和风险。

人机协作的挑战 在AI运维系统中,尽管AI可以承担许多任务,但完全替代人工运维仍然存在困难。运维工作往往涉及复杂的决策和判断,需要考虑多种因素。AI系统虽然可以处理常规的操作,但对于一些突发的、复杂的或需要高度判断力的问题,仍需依赖于运维人员的经验和智慧。

对现有系统的兼容性 AI运维的实施需要与现有的运维系统和工具进行兼容,但许多现有系统的架构和设计可能不完全支持新的AI技术。这种不兼容性可能导致额外的系统整合工作,增加了实施的复杂度。 

三、解决策略与未来展望

解决策略

优化模型性能:提升AI模型的训练数据质量,通过多源数据融合和数据清洗来增强模型的准确性。同时,采用先进的调试技术和优化算法,减少生成内容的偏差。

强化安全措施:实施数据加密和访问控制,确保敏感信息的安全。采用隐私保护技术,如RLHF模型对齐,确保数据在模型生成过程中不被泄露或滥用。

提高用户信任:增强模型的透明度,提供详细的决策过程解释,帮助用户理解和信任模型决策。同时,通过实际应用验证模型的有效性,逐步建立用户信任。

推进自动化:将AI技术与现有IT系统和运维流程集成,实现从故障检测到处理的全链路自动化。引入智能告警、自愈系统和决策支持工具,提升运维的效率和响应速度。

未来展望

技术进步与应用扩展:AI技术将继续演进,提供更高水平的智能化服务,扩展到更多领域如金融风控、智能投顾等。技术的发展将推动运维工作向更高效、更智能的方向迈进。

智能决策与数据驱动:通过全面的数据整合和智能分析,提供更具洞察力的决策支持。利用实时数据的智能预测优化资源配置和运维策略。

用户体验与系统优化:持续优化系统功能和用户界面,提升操作体验和效率。同时,通过技术更新和性能优化,确保系统的稳定性和高效性。

行业合作与标准化:推动AI技术的行业标准化,促进技术的一致性和广泛应用。加强与科研机构、技术公司和行业专家的合作,推动技术创新和应用发展。 

四、结论

AI技术在IT运维领域展现了显著的潜力,通过优化模型性能、强化安全措施、提高用户信任和推进自动化,可有效应对当前的运维挑战。未来,随着技术的不断进步和应用场景的扩展,AI将在智能运维中发挥更大作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/433569.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

统信服务器操作系统进入【单用户模式】

统信服务器操作系统D版、E版、A版进入单用户模式的方式。 文章目录 前言一、问题现象二、问题原因三、解决方案1. D版问题解决方案2. E版及A版问题解决方案前言 D版又称企业版、E版又称欧拉版、A版又称龙蜥版。 单用户模式主要是在 grub2 引导时编辑内核引导,一般用于修改用…

mysql索引结构操作(主键/唯一键/普通索引的创建/查询/删除),复合索引介绍(索引覆盖,索引最左匹配原则)

目录 索引操作 创建索引 主键索引 介绍 在创建表时设置主键 创建表后添加主键 唯一键索引 介绍 在创建表时设置唯一键 创建表后添加唯一键 普通索引 在创建表时指定某列为索引 创建表后添加普通索引 自主命名索引 索引创建原则 哪些列适合创建索引 不适合作为…

【Linux:共享内存】

共享内存的概念: 操作系统通过页表将共享内存的起始虚拟地址映射到当前进程的地址空间中共享内存是由需要通信的双方进程之一来创建但该资源并不属于创建它的进程,而属于操作系统 共享内存可以在系统中存在多份,供不同个数,不同进…

14 vue3之内置组件trastion全系列

前置知识 Vue 提供了 transition 的封装组件,在下列情形中,可以给任何元素和组件添加进入/离开过渡: 条件渲染 (使用 v-if)条件展示 (使用 v-show)动态组件组件根节点 自定义 transition 过度效果,你需要对transition组件的name属性自定义。…

基于BeagleBone Black的网页LED控制功能(flask+gpiod)

目录 项目介绍硬件介绍项目设计开发环境功能实现控制LED外设构建Webserver 功能展示项目总结 👉 【Funpack3-5】基于BeagleBone Black的网页LED控制功能 👉 Github: EmbeddedCamerata/BBB_led_flask_web_control 项目介绍 基于 BeagleBoard Black 开发板…

ChatGPT 推出“Auto”自动模式:智能匹配你的需求

OpenAI 最近为 ChatGPT 带来了一项新功能——“Auto”自动模式,这一更新让所有用户无论使用哪种设备都能享受到更加个性化的体验。简单来说,当你选择 Auto 模式后,ChatGPT 会根据你输入的提示词复杂程度,自动为你挑选最适合的AI模…

DataGrip远程连接Hive

学会用datagrip远程操作hive 连接前提条件: 注意:mysql是否是开启状态 启动hadoop集群 start-all.sh 1、启动hiveserver2服务 nohup hiveserver2 >> /usr/local/soft/hive-3.1.3/hiveserver2.log 2>&1 & 2、beeline连接 beelin…

缓存装饰器@cached_property

这个装饰器好像在好多包里都有,我在阅读源码的过程中,transformers.utils也有这个。查阅资料,大体上了解了它的用法。参考:[python]cached_property缓存装饰器 - faithfu - 博客园 这个装饰器用在类里面的某个方法前面&#xff0…

统信服务器操作系统【qcow2 镜像空间扩容】方案

使用 qcow2 镜像安装系统,当默认安装系统存储空间不够用时,进行自定义扩容 文章目录 准备环境扩容步骤一、检查环境信息1.查看镜像信息2.查看镜像分区信息3.确认需要扩容的分区名二、扩容1.备份镜像2.创建新的镜像文件,并指定空间3.将系统扩容到新的镜像三、扩容 lvm 分区四…

用5款AI帮你写论文,只需10分钟(附详细工具)

在当前的学术写作领域,AI技术的应用已经变得越来越普遍。借助这些工具,学生和研究人员可以显著提高写作效率,并在短时间内生成高质量的论文初稿。以下是五款值得推荐的AI论文写作工具,它们可以帮助你在10分钟内完成一篇论文&#…

【笔记】自动驾驶预测与决策规划_Part4_时空联合规划

文章目录 0. 前言1. 时空联合规划的基本概念1.1 时空分离方法1.2 时空联合方法 2.基于搜索的时空联合规划 (Hybrid A* )2.1 基于Hybrid A* 的时空联合规划建模2.2 构建三维时空联合地图2.3 基于Hybrid A*的时空节点扩展2.4 Hybrid A* :时空节…

Centos 7 搭建Samba

笔记: 环境:VMware Centos 7(网络请选择桥接模式,不要用NAT) 遇到一个问题就是yum 安装404,解决办法在下面(没有遇到可以无视这句话) # 安装Samba软件 yum -y install samba# 创建…

性能测试:性能测试计划

性能测试计划是在进行软件或系统的性能测试之前制定的详细计划和指导文件。它描述了所需性能测试的目标、范围、测试环境、资源需求、测试策略、测试用例、时间表等重要信息。 为什么要制定性能测试计划 制定性能测试计划的主要目的是确保性能测试的有效性和可靠性。以下是制…

THREE.JS法线Shader

以普通情况而论 vNormal normal;//...gl_FragColor vec4( vNormal, 1. );vNormal normal;//...gl_FragColor vec4( normalize( vNormal ) * 0.5 0.5, 1. );vNormal normalMatrix * normal;//...gl_FragColor vec4( normalize( vNormal ) * 0.5 0.5, 1. );normalMa…

【Android】布局优化—include,merge,ViewStub的使用方法

引言 1.重要性 在Android应用开发中,布局是用户界面的基础。一个高效的布局不仅能提升用户体验,还能显著改善应用的性能。随着应用功能的复杂性增加,布局的优化变得尤为重要。优化布局能够减少渲染时间,提高响应速度&#xff0c…

JavaWeb纯小白笔记02:Tomcat的使用:发布项目的三种方式、配置虚拟主机、配置用户名和密码

通过Tomcat进行发布项目的目的是为了提供项目的访问能力:Tomcat作为Web服务器,能够处理HTTP请求和响应,将项目的内容提供给用户进行访问和使用。 一.Tomcat发布项目的三种方式: 第一种:直接在Tomcat文件夹里的webapp…

K8s Calico替换为Cilium,以及安装Cilium过程(鲁莽版)

迁移CNI插件的3种办法: 1、创建一个新的集群,通过Gitops的方式迁移负载,然而,这可能涉及大量的准备工作和潜在的中断。 2、另一种方法是重新配置/etc/cni/net.d/指向Cilium。但是,现有的pod仍将由旧的…

Stable Diffusion 优秀博客转载

初版论文地址:https://arxiv.org/pdf/2112.10752 主要流程图: Latent Diffusion Models(LDMs) DDPM是"Denoising Diffusion Probabilistic Models"的缩写, 去噪扩散概率模型 博客: https://ja…

【十八】MySQL 8.0 新特性

MySQL 8.0 新特性 目录 MySQL 8.0 新特性 概述 简述 1、数据字典 2、原子数据定义语句 3、升级过程 4、会话重用 5、安全和账户管理 6、资源管理 7、表加密管理 8、InnoDB增强功能 9、字符集支持 10、增强JSON功能 11、数据类型的支持 12、查询的优化 13、公用…

【前端学习】iframe标签以及postMessage解决iframe中的跨域问题

面试中被问到跨域问题&#xff0c;并且面试官提出一个iframe嵌套页面中遇到跨域问题用纯前端解决跨域的方法。卡壳了~ 来学习一下~~ 一. iframe标签介绍 <iframe>是html的一个行内块级元素&#xff0c;像行内元素一样会在一行中水平排列&#xff0c;又可以像块元素一样设…