开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

前言

在过去的20年时间,大数据技术蓬勃发展,从最开始大公司内部的秘密武器,到现在广泛作用于几乎所有行业。通过使用大数据技术分析存量和实时的数据,能够更加全面清晰地洞察商业的本质。在商业节奏日益加快和发展越来越迅猛的今天,越来越多的企业意识到大数据分析的价值,并投入了大量的时间人力等资源。与此同时,从早期的简单报表,到搜广推(搜索广告推荐)的个性化需求,再到最近异常火爆的人机智能交互技术 ChatGPT,大数据应用对算力的要求呈指数级增长。如何以更低的成本、更加稳定地提供更高的算力,成为大数据行业需要探索和解决的核心问题。

另一方面,为了满足企业不断增长的大数据处理需求,从早期的 Hadoop、Hive,到 Spark、Presto、Flink,再到近几年火爆的数据湖、OLAP,涌现出了多种多样的大数据技术。虽然很多大数据技术都是开源的,可以通过网络获取到一些技术指南、最佳实践等,但是依旧缺乏从集群整体维度和数据处理全链路来分析和提升大数据栈“效能”的有效方法。

可观测性最早起源于应用服务,旨在随时了解整个应用栈中发生的情况。通过在网络、基础设施和应用程序中收集、关联、聚合和分析数据,以便深入了解系统的行为、性能和运行状况。可观测性可以用“观测-判断-优化-再观测”这一闭环来简单解释。可观测性是提升应用效率的基础和关键,但在大数据集群方面一直缺乏实践,这主要是由前述大数据技术的多样性和复杂性导致的。在本篇文章中,我们将介绍大数据集群领域所需的可观测性,实践大数据集群可观测所需要的条件和面临的挑战,以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。

大数据可观测性介绍

当我们提及大数据的时候,脑中会浮现出各种技术,从 Kafka 到 HDFS、OSS,再到 YARN 和目前发展更好的 Kubernetes,还有上层的各种计算引擎如 Spark,Flink 和 Tez 等,甚至是深度学习和 OLAP 等业务相关技术。

尽管大数据技术纷繁复杂,我们可以把大数据各种技术自顶向下分为如下几层:计算引擎,资源调度层,存储等几个维度。由这些相互独立又互相关联的子系统一起构建了整体的大数据系统,为企业的大数据平台提供基础设施。

大数据的可观测性指的就是通过指标采集,元数据采集等技术获取到上述各个系统的洞察数据,而不是简单的指标罗列。大数据可观测的结果能够为企业带来如下价值:

  • 通过资源分析与建议,辅助用户不断的优化,带来更合理的资源利用和更健康的集群使用
  • 通过问题提示和异常提醒,减轻开发与运维人员的工作量,为企业大数据开发带来更高的效率
  • 通过及时的规则分析、根因分析等,快速的定位大数据集群问题,减少集群因为故障带来的恢复时间

大数据可观测性场景分析

尽快前面提到,大数据可观测性可以为我们带来诸多好处,但现实情况是,很少有企业能够在大数据领域做好可观测性,甚至大部分企业还没有涉足这一领域。我们简单地分析一下大数据可观测性的使用场景。

我们先看一下企业中使用大数据应用的一个基本构成,通常企业中使用大数据的人群可以被分为如下几类:

  • 数据分析师,数据科学家以及数据工程师,可以被统称为集群用户。
  • 数据团队,包括运维团队等可以被统称为集群管理员。
  • CIO/CTO/CEO 等可以被统称为管理层。

将集群中的角色细分后,我们其实可以看到,这三种不同的角色对大数据集群需求是不一样的,下面分别介绍一下这三种角色对于可观测性的不同要求。

大数据可观测性的用户画像

集群用户的需求

集群用户直接使用集群,提交各种任务到集群中,并产出数据,是为企业获取直接价值的群体。集群用户提交的任务多种多样,从批处理的 Hive on MR, SparkSQL 到流式的 Flink 任务以及 Ad-hoc 的 Presto 任务等。集群用户通过这些计算框架等直接构建上层的应用,如用户大盘,营销热点等。

对于集群用户来说,最关心的是任务的运行情况以及优化方法,集群用户常见的需求如下:

  • 能否将我的任务更快的完成?
  • 任务失败了,究竟是什么导致的?
  • 我的任务今天跑不出来,但是之前都能跑,是什么导致的?
  • 今天的日报比昨天晚出了2个小时,是哪个流程造成的?

集群管理员的需求

集群管理员负责维护大数据集群的稳定性,包含大数据集群软件设施,甚至包括底层的 IaaS 资源的稳定运行。在企业中虽然集群管理员不直接产出具体产品,但是通过对集群的稳定性提升以及整体的效率提升,会直接的提升整个集群的使用效率,从而提升企业的竞争力。

对于集群管理员来说,他需要了解集群整体的运行状态,集群潜在的风险以及对于风险能够找到对应的负责方进行处理。集群管理员常见的需求如下:

  • HDFS中产生了大量的小文件,能否找到对应的使用方进行清理?
  • 昨天集群中占用最多计算资源的使用方是哪些,这些是否合理,能够进行多大程度的优化?
  • 哪些任务运行了最长的时间,占用最多的资源?
  • 集群现在感觉有问题,到底是什么原因导致的?是由于任务导致的,还是 HDFS 出现瓶颈?

管理层的需求

管理层不太关注大数据使用的具体技术,更关注大数据能够给企业带来的价值以及整体的投资回报比,对于成本也有着较强的需求,包括资源优化,成本分摊等。常见的管理层的需求如下:

  • 现有的集群在扩容前是否已经运行在较高的水位,是否还有优化空间?
  • 集群从哪个方面能够进行资源优化,优化的效果如何?
  • 现在集群的花费中,不同业务的占比如何,是否与产出成正比?

分析完三种角色对于大数据可观测性的不同需求,我们可以总结出,不同的角色对于大数据可观测性都有非常强的需求。但是现阶段,大数据可观测并不是大数据集群的标配,无法满足各个角色的需求。而造成这一现象的原因由于首先大数据软件栈太过繁杂,能够全部了解各个框架的人才屈指可数,而这些知识是大数据可观测性的一个前提条件。另一个原因是成本考虑,构建一整套大数据可观测系统需要多种技术,较长的链路以及复杂的技术,这对于一般的企业来说负担较重且很难量化产出。

大数据可观测性技术初探

大数据可观测性发展历程

在实践大数据可观测的过程中,需要经历四个阶段,每一个阶段的都是下一个阶段的必要组成,并为用户提供越来越多的业务价值。

  • 第一阶段,主要根据各个大数据组件提供的接口采集各个组建的 metrics 信息等,在这一阶段需要有大数据平台经验的人才来对这些 metrics 进行分析,能够得到基础的组件健康状态、组件压力状态等信息,在出现问题的时候需要分析历史的 metrics 信息进行推断,得到潜在可能的问题。
  • 第二阶段,除了采集各个组件的基础 metrics 外,还对集群中的任务,cpu 资源,调度的队列信息等进行全面的采集,除了采集外,还需要对这些信息进行关联,获取到出现问题的根本原因。在这一阶段,除了采集更多的信息外,更重要的是对采集的信息进行关联,得到问题的本质原因。
  • 第三阶段,在第二阶段的基础上,根据规则等把相应的处理方案反馈给用户,用户根据提示进行自运维操作,甚至发展到更高级的阶段,在底层的自愈系统能够自动化的对问题进行处理,减少股长时间。
  • 第四阶段,基于前面个阶段的积累,根据多种问题产生的规律总结,或者基于规则,或者基于火热的 AI 技术,能够在故障处理之前能够及时预警,及早的排除隐患,将故障消灭在发生前。

从这四个阶段说明来看,每一个阶段都是在前一个阶段完成的基础上再进行数据在加工,产生更高质量的服务,当然了,随着要求的提升,技术难度和广度也愈加复杂。

大数据可观测性的技术要求

前面提到大数据可观测性在整体技术上要求很高,普通用户对于构建这一流程存在难度,这里仔细探讨一下这方面的原因。

首先在实践大数据可观测性的过程中,需要对多种组件、引擎、调度系统都要了解。比如对于 Hive on Tez 需要了解 Tez 的状态机转换,在不同的阶段需要获取不同的 metrics 和 events;对于 Spark 需要了解各个 stage 阶段采集不同的数据;对于 HDFS 需要了解元数据 Image 解析流程;对于 ResourceManager 需要了解不同的队列在各个优先级不同的情况下的调度策略。

如果想做好全链路的大数据可观测系统,需要对整个集群中使用的各个组件,各个引擎等有着比较深入的了解,并且不像 web 应用监测形成标准化,各个大数据组件和引擎采集等互不相同,没有一个统一的标准能够进行采集,但是彼此之间却相互关联,比如一个 Hive 的任务有一个 session id,在 YARN上 是一个 ApplicationID,相互之间需要做映射处理。

其次,除了采集以为,整个的大数据可观测系统还有一个复杂的链路,如下图:

在采集系统,需要有足够的经验能够获取所需要的必要数据。

  • 入仓阶段,需要对采集的数据进行统一收集管理,方便后面的分析。
  • 分析阶段,根据收集方式的不同,可以采用实时分析或者批处理分析等。
  • 展示阶段,将分析的结果全面有效的反馈给客户,并且能够快速的迭代。

在这几个阶段中,都需要一个全链路的监控系统,保证了整个系统的稳定性和有效性。

在这个链路过程中,涉及到了大数据各个组建的内核分析,jvm 使用分析,采集链路,收集链路、流式处理分析,批处理分析,前后端技术等等,可以说相当复杂。这也是为什么大数据可观测性没有广泛的成为业界标准的原因。

阿里云EMR 在大数据可观测性的实践

自2016年阿里云推出 EMR 以来,阿里云EMR 团队一直致力于为客户提供高附加值产品,解决大数据集群的痛点,如提升性能,降低资源成本,提升运维效率等能力。发展至今,我们已经为大量客户提供了完善的半托管服务,依托于社区专家的人才积累,场景的丰富多样,我们在大数据可观测性以及大数据管理方面积累了大量的经验,为我们的大数据可观测性实践提供了坚实的基础。

在2022年12月,阿里云EMR正式发布了云原生开源大数据平台EMR 2.0,升级后的开源大数据平台在成本持平的情况下,扩缩容性能最高可提升6倍。EMR 2.0为客户提供了完善的大数据可观测性能力,通过集群监控,我们提供了完备的监控指标以及巡检项,及时的提醒用户集群中目前出现的问题。通过 EMR Doctor 健康检查,我们为客户提供全面的大数据可观测能力,提供了从存储、计算的多方面,集群维度的健康评估,为客户提供开箱即用的大数据可观测平台,辅助提升客户整体的集群使用效率,解决潜在的问题。

EMR Doctor 为阿里云EMR 客户提供较为完备的大数据可观测产品,我们提供实时和日报两种方式,为集群用户提供不同角度的可观测方案。EMR Doctor 提供的功能包括如下:

  • EMR Doctor 提供集群的日报功能,并提供量化打分、智能建议,用户可以清晰到获取到集群的健康状态以及改进建议
  • EMR Doctor 提供集群的实时检测功能,实时的对集群任务进行分析,异常检测,对组件状态进行检查分析,找到潜在的问题和改进建议
  • EMR Doctor 对多数据源进行采集、融合分析,并根据智能算法进行智能诊断分析,减少大数据平台繁重和重复的劳动

EMR Doctor 功能介绍

EMR Doctor 提供日报和实时检测两种形态的功能,从两个维度辅助客户在大数据可观测性上进行实践。

日报功能

在日报中,我们会保存30天的集群日报分析,以分数的形式定量的给客户集群打分,在日报具体报告中,我们会给客户客户具体的分析,分析到客户不同组件,不同维度的一些实际问题。

除了打分之外,我们在每个模块还提供用户对现有问题可操作的解决方案,如下图计算资源分析中,我们列举出内存利用率低的问题,并建议用户根据我们提供的作业数据进行优化。

EMR Doctor 不仅在集群维度进行打分、分析,对 metrics 数据,元数据进行分析,对于具体的细节数据,比如任务运行等,也给出了分析数据,满足使用方的需求。比如对于计算任务,我们会给出Top 50算力使用的详细说明,如 appid,sql 语句,引擎类型,算力使用,配置信息以及评分和健康状态,并根据问题进行建议。

此外,我们根据不同组大数据组件的需求,提供多种的看板,如在 hive 中我们可以对库、表问题进行分析,Hive表的一些详细信息分析如下图。

实时功能

在实时功能中,EMR Doctor 为用户提供最近5分钟粒度的集群分析,着重于集群的问题排查,尤其是多种因素引起的问题汇总,获得潜在的根因。目前,实时分析之前多种计算引擎和YARN的分析。

如下图,通过对5分钟数据的汇总,能够获得用户的一些任务问题,如数据倾斜、长尾,资源不足风险等,并且给出建议。

总结

整体产品上,EMR Doctor 为大数据客户提供一个集群维度的健康状态,让大数据集群可观测、可量化,为管理层,集群管理员以及用户提供不同的视角去了解现有集群的健康情况,满足各方的需求,从而推动大数据集群更健康的发展。此外,EMR 平台在不断的发展演进,对于大数据可观测性的实践会越发深入,更多的组件,更多的细化分析都会随着产品迭代不断加入,期望带给 EMR 客户更好的高附加值体验。

作者:燕回@阿里云

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/55127.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

英美TOP名校对IB的申请要求汇总

英美TOP名校对IB的申请要求汇总 英国大学 剑桥大学 IB要求 40-42分(满分45),HL要求为776分。 学校可能要求申请者的某些科目成绩为7,视不同专业和学院而定。 对任何要求数学的专业,申请者需选Analysis and Approa…

普迪文集团:马来西亚留学必须了解的7个真相

关于马来西亚留学很多学生和家长还是存在很多误区,今天普迪文集团小编就为大家整理了关于马来西亚留学一定要清楚的7个真相,相信看过后你会对马来西亚留学有个全新的认知。 马来西亚留学真相一: 教学质量高,可以进行学历认证 提到…

普迪文集团:最新赴马来西亚留学攻略

准备来马来西亚留学的小伙伴也要有一个行前必备清单,普迪文集团小编给大家总结了以下几点,来一起看看,都需要做哪些准备吧~ 马来西亚入境须知 入境检测要求: 目前,马来西亚新冠大流行已转为地方性流感&…

苹果“传奇”追授总统自由勋章——史蒂夫·乔布斯,未来还会有吗

其他获奖者将包括奥运选手Simone Biles和Megan Rapinoe,前美国众议员Gabrielle Giffords和演员Denzel Washington。 白宫周五表示,苹果联合创始人史蒂夫乔布斯(Steve Jobs)将被追授总统自由勋章(Presidential Medal of…

苹果乔布斯乔纳森时代彻底终结!

整理 | 胡巍巍 责编 | 唐小引 出品 | CSDN(ID:CSDNnews) 估计微博很少因为一个人的离职,而上热搜第一名。 估计苹果很少因为一个人的离职,而市值缩水 90 亿美元。 苹果设计之魂乔纳森做到了。 6月27日,苹果…

两周看完乔布斯传,说说感受

两周看完乔布斯传,说说感受 从拿书开始看到现在,一共两周时间,期间也是走走停停的看,毕竟上班加上生活中的各种事都会耽误看书的时间,而且看的也并不仔细,所以这里也就简单的说说吧。 先看一张图&#xff0…

乔布斯当场“复活”,苹果发AirPods 3和地表最强电脑芯片,秀刘海屏Macbook Pro

今夜英特尔AMD被库克用一个刘海屏笔记本吊打了,而且是被完虐。 今夜苹果的王炸终于来了!M1 Max太强了,真的杀疯了。 刚刚重磅登场的AirPods第三代、屏幕和外观史诗升级的16/14英寸MacBook Pro以及M1 Pro和M1 Max两款“地表最强芯片”&#xf…

绝密邮件曝光!看乔布斯如何拯救濒危的苹果?

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 前一阵,在微软市值突破 2 万亿美元大关时,许多报道中都提到了苹果。不仅因为苹果是美国第一家超 2 万亿美元市值的上市公司,微软和苹果之间多年来的恩怨也被翻了出…

乔布斯时代的“老人”,一个个都离开苹果了

距离 2011 年乔布斯病逝,如今已经十年了。这十年间,不论外界对苹果如何“唱衰”,但不可否认的是,库克带领下的苹果市值依旧翻了几番:在去年 8 月跨过 2 万亿美元大关之后,近日其市值更是突破 2.8 万亿、直逼…

苹果成立45周年,库克发文再次追忆乔布斯

本文转载自腾讯网 美国当地时间4月1日是苹果公司成立45周年纪念日,蒂姆库克(Tim Cook)向全体员工发送电子邮件致敬,他坚信公司的未来将更加光明。 邮件中,库克回顾了苹果的历史,称这家1976年4月1日成立的…

《乔布斯传》圈点(11)

《乔布斯传》圈点(11) 那些疯狂到以为自己能够改变世界的人,才能正在改变世界。【题记】 第三十三章、21世纪的Mac 乔布斯的怪癖之一便是对金钱的态度。1997年重回苹果时,他把自己描述为这样一种人:可以为1美元的年薪工作,为的是公…

史蒂夫·乔布斯诞辰67周年,他的这些思想仍值得我们学习

史蒂夫乔布斯(Steve Jobs,1955年2月24日—2011年10月5日 ),出生于美国加利福尼亚州旧金山,美国发明家、企业家、苹果公司联合创始人…… 2011年10月5日,史蒂夫乔布斯因患胰腺神经内分泌肿瘤病逝&#xff0c…

《乔布斯传》圈点(2)

《乔布斯传》圈点(2) 那些疯狂到以为自己能够改变世界的人,才能正在改变世界。 第四章、雅达利与印度 乔布斯能将个人魅力转化为说服力,通过个性的力量进行劝诱、胁迫以及扭曲事实。 就好像你看到一匹漂亮的马,你欣赏它,但你不想和…

《乔布斯传》圈点(12)

《乔布斯传》圈点(12) 那些疯狂到以为自己能够改变世界的人,才能正在改变世界。【题记】 第三十五章、iPhone 用软件把键盘功能全部实现在屏幕上。软件取代硬件,使得界面更加流畅而灵活。 新的设计出来了,手机的的正面完全是金刚玻璃&#xf…

《乔布斯传》圈点(1)

《乔布斯传》圈点(1) 那些疯狂到以为自己能够改变世界的人,才能正在改变世界。【题记】 时下很多人喜欢从一瞥而过的潮流时尚中获取垃圾信息;而我依然保存着学生时代的传统:喜欢那些伴我渡过童年时光的四书五经、唐诗宋词、元曲清联&#xff…

·工业 4.0 和第四次工业革命详细介绍

工业 4.0 是制造/生产及相关行业和价值创造过程的数字化转型。 目录 工业 4.0 指南 工业 4.0 与第四次工业革命互换使用,代表了工业价值链组织和控制的新阶段。 网络实体系统构成了工业 4.0 的基础(例如,「智慧机器」)。他们使用…

股指行情解读

股指IF解析 以下均为模拟数据 股指IF206合约行情解析 回顾股指IF2106今天的走势,早上低开探底,9:40到达日内最低5125点,之后再次进入区间震荡,震荡上轨5170点,震荡下轨5140点。通过观察3分钟K线&#xf…

股指期货首次和二次开户条件

不少投资者都问到,股指期货开户可以网上开通吗,还是要去柜台办理?由于股指期货具有双向交易以及T0的特点,在大盘下跌的时候也可以对冲或者赚取盈利,深受投资者关注。今天期货开户网为您详细讲解自然人申请开通股指期货…

专享策略02 | 商品股指通用套利策略(一)

量化策略开发,高质量社群,交易思路分享等相关内容 『正文』 ˇ JLB小伙伴反应,缺少套利策略的思路,那么我们专享的第二个策略我们就写一个套利对冲策略。 步骤: 计算套利品种价比的高开低收,不是价差。 …