flinkOnYarn并配置prometheus+grafana监控告警

flinkOnYarn并配置prometheus+grafana监控告警

一、相关服务版本:

flink版本:1.17.2
pushgateway版本:1.10.0
prometheus版本:3.0.0
grafana-v11.3.0

参考了网上的多个文档以及学习某硅谷的视频,总结了一下文档,希望对你有用,如有出入,欢迎评论沟通,博主看到后会第一时间回复。

二、安装flink

1、找一台安装有Yarn相关服务配置的服务器来安装flink服务。(主要是为了启动flink的历史服务器,可以查看成功或者失败的flink任务)
修改 conf/flink-conf.yaml 配置文件

jobmanager.archive.fs.dir: hdfs://bigdata/logs/flink-job
historyserver.web.address: hadoop112
historyserver.web.port: 8082
historyserver.archive.fs.dir: hdfs://bigdata/logs/flink-job
historyserver.archive.fs.refresh-interval: 5000

2、创建历史服务器数据目录:

hadoop fs -mkdir -p /logs/flink-job

3、在用户家目录中的.bash_profile 文件中添加环境变量

# flink相关配置
export HADOOP_CLASSPATH=`hadoop classpath`不行的话:再添加hadoop目录环境变量
HADOOP_HOME=/opt/module/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_CLASSPATH=`hadoop classpath`

4、启动历史服务器

bin/historyserver.sh startbin/historyserver.sh stop

历史服务器对应的web端口:

http://hadoop102:8082

5、尝试去提交flinkOnYarn作业

bin/flink run-application -t yarn-application -c com.atguigu.source.DataGeneratorDemo FlinkTutorial-1.17.2-1.0-SNAPSHOT.jar

6、修改conf/flink-conf.yaml 文件增加监控配置

metrics.reporter.promgateway.factory.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporterFactory
metrics.reporter.promgateway.host: hadoop112  # 修改为你的promgateway所在的IP地址
metrics.reporter.promgateway.port: 9091 # 对应的promgateway的端口
metrics.reporter.promgateway.jobName: myJob  # 这个jobName也可以在后面提交具体任务的时候更改
metrics.reporter.promgateway.randomJobNameSuffix: true # 用于在job_name后生成一个随机字符串,用于区分同jobName名的不同任务
metrics.reporter.promgateway.deleteOnShutdown: false  # 为true,当flink任务杀死,会一并将在promgateway上的记录删除。为false,不会删除。
#metrics.reporter.promgateway.groupingKey: k1=v1;k2=v2 # key和value值可以任意,用来区分不同的业务job任务,可以再监控时进行任务筛选
metrics.reporter.promgateway.interval: 30 SECONDS #当前flink任务运行参数多久上报一次。

三、配置监控告警 prometheus + grafana

1、下载prometheus 和 pushgateway
1.1、解压运行pushgateway,这里用的pushgateway-1.10.0

nohup ./pushgateway --web.listen-address :9091 > ./pushgateway.log 2>&1 &

1.2、解压prometheus-3.0.0,修改 prometheus.yml 配置文件,增加如下配置

  - job_name: 'pushgateway'scrape_interval: 10shonor_labels: true #加上此配置exporter节点上传数据中的⼀些标签将不会被pushgateway节点的相同标签覆盖 static_configs:- targets: ['localhost:9091']  # pushgateway的服务器地址labels:instance: pushgateway

注意:yml文件格式

在这里插入图片描述

pushgateway的 web端口:

http://hadoop112:9091

在这里插入图片描述可以查看到当前提交的flink任务的实时监控指标。

1.3、启动prometheus服务

nohup ./prometheus --config.file=prometheus.yml > ./prometheus.log 2>&1 &

prometheus web端口:

http://hadoop112:9090/targets

在这里插入图片描述可以看到pushgateway 状态为up,正常。

2、安装grafana
2.1、下载并解压,并启动grafana

nohup ./bin/grafana-server web > ./grafana.log 2>&1 &

2.2、web端口

http://hadoop112:3000默认账户:admin
默认密码:admin

2.3、配置仪表板
添加prometheus数据源
在这里插入图片描述

配置仪表板
在这里插入图片描述

这里我使用的flink_jobmanager_job_uptime 监控指标参数来判断当前任务是否存活。这里的k1就是前面在flink配置文件中配置的metrics.reporter.promgateway.groupingKey参数,当然也可以用其他字段进行筛选,
计算逻辑:当前值减去30s前的数据值,再除以1000。

((flink_jobmanager_job_uptime{ k1="v7"})-(flink_jobmanager_job_uptime{ k1="v7"} offset 30s))/1000

告警规则如下:
出发告警的条件:
1、当最新的数据值小于5
2、评估周期2分钟都小于5,
3、并且连续4分钟都小于5 ,就触发告警。
告警方式可以使邮件或者飞书等其他平台。

在这里插入图片描述
在这里插入图片描述
如有帮助,欢迎点赞加评论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/471621.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在esxi8.0中安装黑群晖的过程记录及小问题处理

问题记录 1.某种原因在网页中安装系统后,发现synology搜出来的设备还是169的地址,但是点击设置需要输入管理员账号密码才能设置ip,试了一下,账号输入admin,密码留空正常设置。 2.晚上试了一下,在全新的esxi…

基于微信小程序的公务员考试学习平台的设计与实现,LW+源码+讲解

摘 要 小程序公考学习平台使用Java语言进行编码,使用Mysql创建数据表保存本系统产生的数据。系统可以提供信息显示和相应服务,其管理小程序公考学习平台信息,查看小程序公考学习平台信息,管理小程序公考学习平台。 总之&#x…

深度学习之pytorch常见的学习率绘制

文章目录 0. Scope1. StepLR2. MultiStepLR3. ExponentialLR4. CosineAnnealingLR5. ReduceLROnPlateau6. CyclicLR7. OneCycleLR小结参考文献 https://blog.csdn.net/coldasice342/article/details/143435848 0. Scope 在深度学习中,学习率(Learning R…

2024 年(第 7 届)“泰迪杯”数据分析技能赛B 题 特殊医学用途配方食品数据分析 完整代码 结果 可视化分享

一、背景特殊医学用途配方食品简称特医食品,是指为满足进食受限、消化吸收障碍、代谢素乱或者特定疾病状态人群对营养素或者膳食的特殊需要,专门加工配置而成的配方食品,包括0月龄至12月龄的特殊医学用途婴儿配方食品和适用于1岁以上的特殊医…

数据产品:深度探索与案例剖析

​在当今数字化时代,数据产品正逐渐成为各行业发展的关键驱动力。让我们深入了解数据产品的分类与特点,以及通过典型案例分析,感受数据产品的强大魅力。 首先,数据产品主要分为报表型、分析型、平台型等不同类别。 报表型数据产品…

opc da 服务器数据 转 IEC61850项目案例

目录 1 案例说明 2 VFBOX网关工作原理 3 应用条件 4 查看OPC DA服务器的相关参数 5 配置网关采集opc da数据 6 用IEC61850协议转发数据 7 网关使用多个逻辑设备和逻辑节点的方法 8 在服务器上运行仰科OPC DA采集软件 9 案例总结 1 案例说明 在OPC DA服务器上运行OPC …

Vue3 -- 环境变量的配置【项目集成3】

环境: 在项目开发过程中,至少会经历开发环境、测试环境和生产环境(即正式环境)三个阶段。 开发环境 .env.development测试环境 .env.test生产环境 .env.production 不同阶段请求的状态(如接口地址等)不一样,开发项目的时候要经常配置代理跨…

Go八股(Ⅴ)map

1.哈希表 哈希表用来存储键值对,通过hash函数把键值对散列到一个个桶中。 Go使用与运算,桶个数m,则编号[0,m-1],把键的hash值与m-1与运算。**为了保证所有桶都会被选中,m一定为2的整数次幂。**这样m的二进制数表示一…

微信小程序——01开发前的准备和开发工具

文章目录 一、开发前的准备1注册小程序账号2安装开发者工具 二、开发者工具的使用1创建项目2 工具的使用3目录结构4各个页面之间的关系5 权限管理6提交审核和发布 一、开发前的准备 开发前需要进行以下准备: 1 注册小程序账号2激活邮箱3 信息登记4 登录小程序管理后…

stream学习

Stream流 定义 Steam流&#xff0c;用于操作集合或者数组中的数据&#xff0c;大量结合了Lamda表达式的语法风格&#xff0c;代码简洁。 重点&#xff1a; 流只能收集一次 ​ 获取Stream流 Stream流要与数据源建立连接。 1.list ​ 直接调用steam()即可 // list List<Stri…

Vulnhub靶场案例渗透[8]- HackableII

文章目录 一、靶场搭建1. 靶场描述2. 下载靶机环境3. 靶场搭建 二、渗透靶场1. 确定靶机IP2. 探测靶场开放端口及对应服务3. 扫描网络目录结构4. ftp文件上传漏洞5. 反弹shell6. 提权 一、靶场搭建 1. 靶场描述 difficulty: easy This works better with VirtualBox rather t…

Flutter 小技巧之 OverlayPortal 实现自限性和可共享的页面图层

大家对于 Overlay 可能不会陌生&#xff0c;那么 OverlayPortal 呢&#xff1f; 在 Flutter 中可以通过向 MaterialApp 下的 Overlay 添加“图层”&#xff0c;来实现比如「增加一个全局悬浮控件」或者「页面指引」之类的实现&#xff0c;这是因为 Overlay 在 Flutter 里类似于…

FlinkPipelineComposer 详解

FlinkPipelineComposer 详解 原文 背景 在flink-cdc 3.0中引入了pipeline机制&#xff0c;提供了除Datastream api/flink sql以外的一种方式定义flink 任务 通过提供一个yaml文件&#xff0c;描述source sink transform等主要信息 由FlinkPipelineComposer解析&#xff0c…

AutoDL远程连接技巧

写在前面 本次只是个人经验分享 面是我随便复制的 登录指令&#xff1a;ssh -p 38292 rootconnect.c1.seetacloud.com 登录密码&#xff1a;YBjlgzbZNou 在下面图片中&#xff1a;名称可以随便取&#xff1a; 协议一般选择SSH&#xff0c;主机名称就是后面的&#xff1b;用我的…

FPGA学习(10)-数码管

前3节视频目的是实现显示0~F的数码管仿真&#xff0c;后3节是用驱动芯片驱动数码管。 目录 1.数码管显示原理 2.代码过程 2.1仿真结果 3.串行移位寄存器原理 3.1原理 ​编辑 3.2 数据手册 3.3 先行设计思路 4.程序 4.1确定SRCLK的频率 4.2序列计数器 4.3 不同coun…

k8s 1.28.2 集群部署 docker registry 接入 MinIO 存储

文章目录 [toc]docker registry 部署生成 htpasswd 文件生成 secret 文件 生成 registry 配置文件创建 service创建 statefulset创建 ingress验证 docker registry docker registry 监控docker registry ui docker registry dockerfile docker registry 配置文件 S3 storage dr…

软件工程笔记二—— 软件生存期模型

目录 瀑布模型 瀑布模型的特点 阶段间具有顺序性和依赖性。 推迟实现的观点 质量保证的观点 瀑布模型的优点 瀑布模型的缺点 快速原型模型 快速原型模型的优点 快速原型模型的缺点 增量模型 增量模型的优点 增量构件开发 螺旋模型 完整的螺旋模型&#xff08;顺…

万字长文解读深度学习——生成对抗网络GAN

&#x1f33a;历史文章列表&#x1f33a; 深度学习——优化算法、激活函数、归一化、正则化深度学习——权重初始化、评估指标、梯度消失和梯度爆炸深度学习——前向传播与反向传播、神经网络&#xff08;前馈神经网络与反馈神经网络&#xff09;、常见算法概要汇总万字长文解读…

【MYSQL】数据库日志 (了解即可)

一、错误日志 可以通过 tail查看文件的日志的&#xff0c;如果发生错误&#xff0c;就会在日志里出现问题。 二、二进制日志&#xff08;binlog&#xff09; BINLOG记录了insert delete update 以及 alter create drop 等语句。作用是灾难时的数据恢复&#xff0c;还有就是主…

整理iPhone空间:iphone怎么删除相簿

随着时间的积累&#xff0c;我们的iPhone中不仅会堆积大量照片&#xff0c;还可能会有多个不再需要的相簿。这些相簿不仅占用存储空间&#xff0c;还可能使相册应用变得杂乱无章。本文将探讨iphone怎么删除相簿&#xff0c;并介绍精简iPhone相册的技巧&#xff0c;使你的相册管…