大模型赋能全链路可观测性:运维效能的革新之旅

目录

全链路可观测工程与大模型结合---提升运维效能

可观测性(Observability)在IT系统中的应用及其重要性

统一建设可观测数据

统一建设可观测数据的策略与流程

全链路的构成和监控形态

云上的全链路可视方案

 为什么一定是Copilot

大模型的Copilot能帮助什么”特别是在智能运维场景中的应用

全链路可观测和Copilot在日志分析中的应用

主要内容集中在如何使用先进的技术和方法来有效地分析和处理日志数据,以实现全链路的可观测性。

Chat2Data工具

更好获取可观测数据

后端辅助智能诊断系统

对运维场景中使用自然语言处理技术改善故障分析和解决过程


全链路可观测工程与大模型结合---提升运维效能

可观测性(Observability)在IT系统中的应用及其重要性

  • 首先,可观测性被定义为从系统外部输出的信息中推断系统内部运行状态的能力,这一能力对于确保系统稳定运行、及时发现并解决问题至关重要。
  • 在IT系统中,可观测性的实现依赖于四个核心要素:指标(Metrics)、日志(Logs)、调用链(Traces)和告警(Alerts)。指标提供了系统性能的量化数据,如CPU使用率、内存占用等,帮助监控系统的整体状态。日志则记录了系统的详细运行信息,为问题排查提供了丰富的线索。调用链追踪了系统调用的链路,揭示了请求的处理过程,有助于发现性能瓶颈和潜在问题。告警机制则在系统出现异常时及时通知相关人员,确保问题得到及时处理。
  • 图A为当前IT可观测数据实践的现状,即各类可观测数据往往单独建设,缺乏统一的关联和分析。而图B为IT可观测数据关联的重要性,通过整合各类可观测数据,加速信息的获取和问题的定位。这种关联不仅提高了系统的可观测性,还使得故障发现和解决过程更加迅速和高效。
  • 可观测性在“五星图”中的价值,即五种对象(指标、日志、调用链、告警和资源)之间的联动。这种联动使得系统运行状态更加透明,有助于从多个角度全面了解系统的健康状况。同时,从资源和日志的视角出发,需要获取所有的可观测数据,并进行挂载治理,以确保数据的完整性和准确性。

如何通过整合多种可观测数据来提高IT系统的可观测性,从而加速故障发现和解决的过程。在现代IT系统中,可观测性已经成为确保系统稳定运行、提升用户体验的关键能力之一。


统一建设可观测数据

 一套统一的可观测数据建设方案,其核心在于制定一套数据定义标准,以确保不同厂商和系统间能够顺畅地交换和共享数据。

  • 数据定义标准涵盖了log、trace、metric、event等多个方面,明确了这些数据的属性命名规则、数据类型、采集定义规范、序列化方式以及IT资源的标准模型。尽管Opentelemetry已成为业内通用的数据定义标准,但考虑到各厂商因历史项目建设兼容性的需求,云智慧基于其服务数百个客户的经验,提出了兼容OT的可观测数据标准。
  • 数据被细分为多个类别,包括应用系统、服务、服务实例、业务监控数据、交易数据以及基础设施数据等。每种数据类型都配备了详细的数据说明和数据来源,确保数据的准确性和可追溯性。

通过这套统一的可观测数据建设方案,企业能够实现对IT系统的全面监控和管理,提升系统的可观测性和运维效率。

统一建设可观测数据的策略与流程

提出了三个核心步骤:数据采集、数据处理和数据存储。

  • OmniAgent作为数据采集的核心组件,支持从基础设施到用户体验层各类标准IT资源的统一日志、指标和trace数据的采集。这一步骤确保了数据的全面性和一致性,为后续的数据处理和分析奠定了基础。
  • 对于除了OmniAgent标准数据之外的第三方数据,会议强调了在数据处理阶段进行治理的重要性。通过数据治理,可以确保第三方数据也能达到标准化采集的要求,从而与标准数据无缝对接,提升整体数据的质量和可用性。

经过治理的标准数据(包括日志、指标和trace)将统一进入可观测数据库。为了便于数据的读取和分析,推荐使用一套统一的语义CQL(查询语言)进行数据操作。这种统一的数据处理方式不仅提高了数据处理的效率,也降低了数据使用的门槛。还展示了一个数据处理平台的整体架构,该平台涵盖了统一采集、统一处理、统一存储和数据应用等多个环节。这一架构的提出,为可观测数据的统一建设和管理提供了清晰的路径和方案。

通过OmniAgent和数据处理平台实现可观测数据的统一建设和管理,为提升数据质量和应用效率提供了有力的支持。

全链路的构成和监控形态

会议提供了一个从服务实例出发,横纵双向拓展的完整视角。全链路概念的核心在于其横纵向的全面覆盖。横向上,它聚焦于服务调用链路关系,通过构建横向拓扑图,清晰地展示了服务之间的调用关系和业务场景。纵向上,则以IT基础设施的物理部署关系为基础,构建了服务的纵向拓扑图,让我们能够深入了解服务在基础设施层面的依赖和布局。

  • 在监控形态方面,流程图明确标出了健康性、连续性、可用性和稳定性等关键指标。其中,健康性得分高达100分,连续性达到了344天,而可用性和稳定性均获得了满分。这些指标为我们提供了服务运行状态的直观数据,有助于我们及时发现潜在问题并进行优化。
  • 流程图还详细列出了应用层、服务层、网络层、主机层和交换机层等多个层面的业务指标和CMDB关系。这些详细信息不仅有助于我们深入理解服务的运行环境和依赖关系,还能为我们提供丰富的数据支持,以便进行更深入的分析和决策。

会议提供了一个全面、深入的全链路视角,有助于更好地理解和监控服务的健康状况、可用性和稳定性,从而确保整个系统的正常运行。

云上的全链路可视方案

  1. 全链路可视方案概述:该方案旨在实现云上系统的全链路可视化,即从系统的输入到输出,每一个环节都能被监控和可视化展示。这有助于提升系统的可观测性,使得运维团队能够更快速地定位问题、分析性能瓶颈,并优化系统。
  2. 全链路可视能力架构
    • 架构包含多个关键模块:数据采集、数据处理、数据存储、数据分析、数据可视化。
    • 每个模块都承担着特定的角色,共同协作以实现全链路可视化。
    • 数据采集模块负责从系统中收集各种可观测数据,如指标、日志、调用链等。
    • 数据处理模块对数据进行清洗、转换和聚合,以便后续分析和存储。
    • 数据存储模块负责保存处理后的数据,以便长期分析和历史回溯。
    • 数据分析模块对数据进行深入挖掘,提取有价值的信息和模式。
    • 数据可视化模块将分析结果以图形化方式展示,便于用户理解和决策。
  3. 流程图解析
    • 流程图从数据采集开始,展示了数据在整个架构中的流动路径。
    • 采集到的数据经过处理后,被存储到适当的数据仓库中。
    • 数据分析模块对数据进行挖掘和分析,生成有价值的洞察。
    • 最后,这些洞察通过数据可视化模块以图形化方式呈现给用户。
  4. 方案的价值和优势:通过全链路可视化,运维团队可以更快速地定位和解决系统中的问题。方案提供了丰富的可观测数据,有助于深入分析系统性能和用户行为。
  5. 应用场景和展望
    • 该方案适用于各种规模的云上系统,特别是微服务架构和分布式系统。
    • 随着技术的不断发展,全链路可视化方案将进一步集成更多的智能分析和预测功能。未来,该方案有望成为云上系统运维的标准配置,为企业的数字化转型提供有力支持。

 为什么一定是Copilot

  1. 多因素影响
    • 服务A接口E的Latency延迟告警作为一个示例,说明Copilot需要考虑各种具体的监控指标。
    • 不同报障人员对异常的理解和解决方案的差异也被指出,反映了Copilot需要处理的主观性和多样性。
  2. 深层解决方案:代码优化、缓存以及扩容等可能的解决方案,这些都是在更技术或更深入的层面来处理问题的方法。Copilot可能考虑多种技术手段和策略来应对不同的运行状况。

Copilot作为一个复杂且多维度的概念,涉及多个难以精确定义的因素,并需要考虑多种解决方案和技术手段。Copilot的目标是作为一个普遍的软件运行状况指标,帮助用户更有效地实现其工作目标。

大模型的Copilot能帮助什么”特别是在智能运维场景中的应用

  1. 数据处理
    • 大模型能够协助在数据处理阶段进行自动化和智能化的操作。
    • 它可以帮助收集和整理来自不同源的数据,提高数据处理的效率和准确性。
    • 通过大模型的处理,数据可以更容易地被用于后续的分析和决策。
  2. 知识推理
    • 大模型具备强大的知识推理能力,可以从大量数据中提取出有用的信息和模式。
    • 它可以帮助运维团队发现潜在的问题和趋势,从而提前采取预防措施。
    • 通过知识推理,大模型还可以提供对复杂问题的深入理解和解释。
  3. 决策支持
    • 大模型可以为运维团队提供决策支持,帮助他们做出更明智、更基于数据的决策。
    • 它可以提供对不同选项的评估和预测,帮助团队选择最佳的行动方案。
    • 通过大模型的辅助,决策过程可以更加快速和准确。
  4. 大模型的优势
    • 会议强调了大模型在计算能力、处理复杂问题和提供精确结果方面的优势。
    • 这些优势使得大模型成为智能运维场景中不可或缺的工具。
    • 通过利用大模型,运维团队可以提高工作效率,减少错误,并更好地应对各种挑战。

大模型在智能运维场景中的应用和优势。通过大模型在数据处理、知识推理和决策支持方面的能力,在提高运维效率、准确性和智能化水平方面都有很重要的作用。

全链路可观测和Copilot在日志分析中的应用

主要内容集中在如何使用先进的技术和方法来有效地分析和处理日志数据,以实现全链路的可观测性。

  1. 日志聚类与分类:会议提到了日志的聚类和分类。这是一个重要的步骤,因为通过聚类,我们可以将相似的日志分组在一起,从而更容易地识别出异常或问题。分类则进一步帮助我们理解日志的性质和来源。
  2. 统计类算法与大模型:接着,介绍了使用统计类算法和大模型来识别日志中的异常。统计类算法可以帮助我们发现日志数据中的异常模式,而大模型(如深度学习模型)则可以对日志进行更深入的语义分析,从而提供更准确的问题诊断。
  3. 事后排查与日志缺失:还提到了事后排查的重要性。在某些情况下,我们可能无法立即找到相关的日志来诊断问题。这时,事后排查就显得尤为重要,它可以帮助我们回溯并找到问题的根源。同时,会议也指出了日志缺失是一个需要关注的问题,因为这可能会影响到我们的问题诊断能力。
  4. LMM Based RESTful API请求:最后,介绍了一种名为“LMM Based RESTful API请求”的技术。这项技术是为了提高日志处理能力而开发的。是一种利用大模型(LMM)来处理RESTful API请求的日志数据的方法,从而进一步提高日志分析的效率和准确性。

全链路可观测性和Copilot在日志分析中的应用。介绍了如何使用日志聚类、分类、统计类算法和大模型来有效地识别和解决日志异常,并强调了事后排查和日志缺失问题的重要性。同时,介绍了一种新的技术来提高日志处理能力

Chat2Data工具

  1. 工具的优势与应用:Chat2Data工具提供了一个便捷的方式来获取和处理数据,特别是对于非技术用户来说。它可以应用于多种场景,如系统监控、故障排查、数据分析等。

    通过大型语言模型的集成,该工具能够更准确地理解用户的意图,并提供相关的数据或执行相应的操作。
  2. 未来展望与改进:随着技术的不断发展,Chat2Data工具可能会集成更多的功能和智能特性。会提供更多的API接口和数据处理选项,以满足不同用户的需求。工具的性能和稳定性也可能会得到进一步的优化和提升。

更好获取可观测数据

  1. 数据可视化
    • 收集到的信息被转化为可视化的数据报告,这有助于更直观地理解和分析用户行为。
    • 可视化报告可能包括用户活跃度、问题类型分布、用户满意度等关键指标,为优化用户体验提供有力支持。
  2. 查询功能:该系统还提供了查询功能,用户可以通过输入关键词来查找特定的信息或问题。该系统不仅具备数据收集和分析能力,还能为用户提供便捷的查询服务,提高用户满意度。

一个旨在提高用户体验并更好地了解用户偏好和行为模式的系统。该系统通过分析聊天记录来收集用户信息,并将其转化为可视化的数据报告。


后端辅助智能诊断系统

  1. 讨论了SQL语句在数据处理和查询中的作用,以及它们如何支持智能诊断功能。
  2. 技术细节:会议探讨了实现该系统所使用的技术栈,包括数据库选择、消息队列技术、日志分析工具等。
  3. 应用场景:讨论该系统在实际运维或开发环境中的应用场景,以及它如何帮助团队提高效率或解决问题。
  4. 未来规划:最后会议讨论该系统的未来发展规划,包括计划添加的新功能、性能优化、可扩展性等。

主要围绕“后端辅助智能诊断系统”的介绍、流程步骤解析、技术细节、应用场景和未来规划展开。通过流程图,大家可以更清晰地了解该系统的整体架构和工作原理,以及它在实际运维或开发环境中的应用价值。

这样的系统能够显著提高故障排查的效率,减少人工干预,降低运维成本。

通过提高日志异常判定的准确率来帮助解决故障问题,并具有日志管理和故障记录与分析的功能。预期上,这样的系统能够为企业带来显著的运维效率提升和成本降低。

对运维场景中使用自然语言处理技术改善故障分析和解决过程

  1. 运维场景的挑战
    • 运维团队在日常工作中经常需要面对复杂的系统故障,这些故障可能涉及多个组件和层面。
    • 传统的故障分析和解决过程可能依赖于人工排查和经验判断,效率较低且易出错。
  2. LMM系统的功能:LMM系统具有智能识别特定告警的思维链的能力,这意味着系统能够理解告警背后的逻辑和关联,而不仅仅是表面的症状。LMM系统能够推荐相应的解决方案,帮助运维团队更快速地定位和解决问题。

未来展望:随着自然语言处理技术的不断发展,运维场景中的故障分析和解决过程可能会变得更加智能化和自动化。LLM和其他类似的公司或组织可能会继续探索和创新,将更多的AI技术应用于运维领域,以提高系统的稳定性和可靠性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/363124.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue+fineReport 使用前端搜索+报表显示数据

--fineReprot 将需要搜索的参数添加到模版参数 sql: --前端传递参数 注:因为每次点击搜索的结果需要不一样,还要传递一个时间戳的参数: let timesamp new Date().getTime()

云计算【第一阶段(18)】磁盘管理与文件系统 分区格式挂载(一)

目录 一、磁盘基础 二、磁盘结构 2.1、机械硬盘 2.2、固态硬盘 2.3、扩展移动硬盘 2.4、机械磁盘的一些计算(了解) 2.5、磁盘接口类型 二、Linux 中使用的文件系统类型 2.1、磁盘分区的表示 2.1.1、主引导记录(MBR) 2.1.2、Linux中将硬盘、分…

MCU的最佳存储方案CS创世 SD NAND

大家都知道MCU是一种"麻雀"虽小,却"五脏俱全"的主控。它的应用领域非常广泛,小到手机手表,大到航空航天的设备上都会用到MCU.市面上目前几个主流厂商有意法半导体(其中最经典的一款就是STM32系列)…

布尔运算00

题目链接 布尔运算 题目描述 注意点 运算符的数量不超过 19 个布尔表达式由 0 (false)、1 (true)、& (AND)、 | (OR) 和 ^ (XOR) 符号组成算出有几种可使该表达式得出 result 值的括号方法 解答思路 可以使用动态规划根据左右两侧区间不同结果相应组合数量计算得出当前…

宠物空气净化器真的有必要买吗?养宠家庭建议看完这篇再考虑入手

可爱的猫咪是爱猫人士的心头好,但猫咪们的掉毛问题却一直困扰着不少人,猫浮毛在空气中乱飘,不但污染环境,还可能引发过敏和哮喘等呼吸道疾病。 作为一个家电推荐官,我有对付猫咪浮毛、异味的神器———宠物空气净化器…

将CSV、Excel、XML文件转换为MySQL数据库

在平时的工作中,经常会遇到需要将文件数据导入到数据库中的情况。有些客户之前可能只使用Excel表格作为记录工具,但当数据量达到一定程度或者需要将数据导入到其他系统中时,就会很emo,因为Excel表格虽然方便,但在数据处理和管理方…

在 UBUNTU 22.04 上逐步构建 Postal SMTP 服务器

构建 Postal SMTP 服务器来发送批量电子邮件是电子邮件营销人员的不错选择。Postal 功能非常强大,并拥有大量开发人员的支持。它是一个用 JavaScript 和 Ruby 编写的开源邮件服务器脚本。它可用于构建内部 SMTP 服务器,就像 Mailgun、Sendgrid、Mailchim…

慢动作视频怎么制作?5种方法,轻松制作慢动作视频

在短视频风靡的当下,慢动作视频凭借其独特的视觉效果和引人入胜的节奏感,成为了吸引观众眼球的利器。你是否也想知道如何制作这种令人心动的慢动作视频呢?下面教大家5种能够制作出慢动作视频的方法,一起来学习下吧。 方法一&#…

openEuler 22.03 (LTS-SP1)服务器用ntpd同步GPS时间服务器的案例

本文记录了openEuler 22.03 (LTS-SP1)的二级时间服务器用chronyd不能自动同步GPS时间服务器,改用ntpd同步GPS时间服务器成功的案例 一、环境简述 1、本环境中有两台GPS一级时间服务器,IP如下: 192.168.188.66 192.168.188.74 2、有一台o…

分布式kettle调度管理平台简介

介绍 Kettle(也称为Pentaho Data Integration)是一款开源的ETL(Extract, Transform, Load)工具,由Pentaho(现为Hitachi Vantara)开发和维护。它提供了一套强大的数据集成和转换功能&#xff0c…

51循迹小车(蓝牙+循迹+超声波+舵机+避障L298N)

基本驱动 L298N电机驱动模块负责供电和控制电机驱动 将电池12V供电接到12V供电上,作为输入。单片机及其他器件供电可以使用5V供电,这里的GND都接到一起。 输出A和输出B接到电机上,负责给电机供电和控制电机。 通道A使能和通道B使能以及逻…

【Confluence】markdown格式转换为Confluence

简单的文本可以使用网站来快速转换,但是发现很多格式不能正确转换,所以研究了一个Py的方法来实现,如下: 安装Py插件 本方法主要借用markdown2 来实现,开始之前需要先安装一些库。 pip install markdown2 beautiful…

TCP 和 UDP 可以同时绑定相同的端口吗?

在网络编程中,TCP和UDP都可以绑定到同一个端口上进行通信。TCP和UDP是OSI模型中的传输层协议,它们分别使用不同的端口号来区分不同的应用程序或服务。 TCP(Transmission Control Protocol)提供了面向连接的、可靠的传输服务&…

python办公自动化之excel

用到的库:openpyxl 实现效果:读取单元格的值,写入单元格 代码: import openpyxl # 打开现有工作簿 workbookopenpyxl.load_workbook(现有工作簿.xlsx) # 选择一个工作表 sheetworkbook[交易表] # 读取单元格的值 cell_valueshe…

webpack【实用教程】

基础配置 配置的拆分和合并 通常 webpack 的配置文件会有3个 webpack.common.js 公共配置(会被另外两个配置文件导入并合并)webpack.dev.js 开发环境的配置webpack.prod.js 生产环境的配置 开发环境的本地服务 在 webpack.dev.js 中配置 devServer:…

钡铼BL104智慧环保多个485采集转MQTT无线传输

PLC物联网关BL104是一款专为工业环境设计的先进协议转换网关,其集成了钡铼智能技术和环保多个485采集转MQTT无线传输功能,为工业控制系统提供了高效的数据采集、传输和管理解决方案。 技术规格与功能特点 PLC物联网关BL104采用钡铼智能技术&#xff0c…

PPT怎么录制视频?这里有你想要的答案!

“有人知道ppt怎么录制视频吗?我正在准备一个关于新产品功能介绍的演示文稿,希望能将我的ppt转化为一个专业且生动的视频讲解。我尝试了一些方法,但不知道从哪里开始。有没有哪位朋友能分享一下自己录制ppt视频的经验吗?” 在数字…

前端打包配置+nginx配置实现部署及部署地址带特定前缀的几种方式

前端打包后要部署到服务器,在浏览器中可以通过url访问到我们开发的系统,通过nginx代理在工作中是一种很常用的方式。 这里以本地为例,把本地电脑当作一个服务器,实现普通部署、带特定前缀等 前端使用vue-clivue作为例子 以下内容…

Oracle中常用内置函数

一、字符串函数 CONCAT(s1, s2):连接两个字符串s1和s2。 SELECT CONCAT(Hello, World) FROM DUAL-- 结果:Hello World --或者使用 || 操作符 SELECT Hello || World FROM DUAL -- 结果:Hello World INITCAP(s):将字符串s…

OpenHarmony 5.0 纯血鸿蒙系统

OpenHarmony-v5.0-Beta1 版本已于 2024-06-20 发布。 OpenHarmony 5.0 Beta1 版本标准系统能力持续完善,ArkUI 完善了组件通过 C API 调用的能力;应用框架细化了生命周期管理能力,完善了应用拉起、跳转的能力;分布式软总线连接能力…