Prometheus各类监控及监控指标和告警规则

Prometheus各类监控及监控指标和告警规则

news/2024/12/28 21:33:46/文章来源:https://blog.csdn.net/eighters/article/details/140707649

目录

linux docker监控

linux 系统进程监控

linux 系统os监控

windows 系统os监控

配置文件&告警规则

Prometheus配置文件

node_alert.rules

docker_container.rules

mysql_alert.rules

vmware.rules

Alertmanager告警规则

consoul注册服务

Dashboard JSON文件

linux docker监控

获取的是docker stats命令的统计结果，可以页面方式展示出来。

cadvisor.tar

上传cadvisor.tar包，导入后修改tag，运行容器

docker load -i cadvisor.tardocker tag gcr.io/cadvisor/cadvisor:latest google/cadvisor:latestdocker run -d --volume=/:/rootfs:ro --volume=/var/run:/var/run:rw --volume=/sys:/sys:ro --volume=/var/lib/docker/:/var/lib/docker:ro --publish=8080:8080 --name=cadvisor google/cadvisor:latest

容器运行后如下：

访问cadvisor http://ip:8080

linux 系统进程监控

通过正则、绝对路径、名字等获取指定进程的运行状况

process-exporter-0.7.5.linux-amd64.tar.gz

参考我的另一篇文章

Prometheus监控主机进程-CSDN博客

默认端口 9256

linux 系统os监控

通过exporter获取当前系统的Cpu、内存、硬盘等OS资源

node_exporter放到指定路径后

cat /etc/systemd/system/node-exporter.service

[Unit]
Description=Prometheus Node exporter
After=network.target[Service]
ExecStart=/opt/monitoring/node_exporter[Install]
WantedBy=multi-user.target

默认端口：9100

windows 系统os监控

通过exporter获取当前系统的Cpu、内存、硬盘等OS资源

windows_exporter-0.26.0-amd64.msi

1.关闭防火墙

2.管理员模式双击执行

3.services.msc服务管理检查windows-exporter服务自动启动即可

默认端口：9182

配置文件&告警规则

/opt/monitor/prometheus目录下

Prometheus配置文件

cat /opt/monitor/prometheus/prometheus.yml 
# my global config
global:scrape_interval:     10s # By default, scrape targets every 15 seconds.scrape_timeout: 5sevaluation_interval: 10s # By default, scrape targets every 15 seconds.# scrape_timeout is set to the global default (10s).# Attach these labels to any time series or alerts when communicating with# external systems (federation, remote storage, Alertmanager).external_labels:monitor: 'zqa_monitor'# Load and evaluate rules in this file every 'evaluation_interval' seconds.
rule_files:- 'node_alert.rules'- 'mysql_alert.rules'- 'docker_container.rules'# - "first.rules"# - "second.rules"# alert
alerting:alertmanagers:- scheme: httpstatic_configs:- targets:- "alertmanager:9093"# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.- job_name: 'prometheus'# Override the global default and scrape targets from this job every 5 seconds.scrape_interval: 5sstatic_configs:- targets: ['localhost:9090']#- job_name: 'cadvisor'# Override the global default and scrape targets from this job every 5 seconds.# scrape_interval: 5s#dns_sd_configs:#- names:#  - 'tasks.cadvisor'#  type: 'A'#  port: 8080#static_configs:#     - targets: ['10.33.70.218:8080']- job_name: 'node-exporter'# Override the global default and scrape targets from this job every 5 seconds.scrape_interval: 5sstatic_configs:- targets: ['10.100.10.100:9182']consul_sd_configs:- server: '10.33.70.203:8500'services: ['node-exporter-dev']- job_name: 'mysql-exporter'scrape_interval: 5sstatic_configs:- targets: ['10.33.70.218:9104', '10.33.70.166:9104', '10.33.70.224:9104']- job_name: 'postgres-exporter'scrape_interval: 5sstatic_configs:- targets: ['123.57.190.129:9187']- job_name: 'vsphere-exporter'scrape_interval: 5sstatic_configs:- targets: ['10.33.70.22:9272']- job_name: 'es-exporter'scrape_interval: 5sstatic_configs:- targets: ['123.57.216.51:9114']- job_name: 'pushgateway'scrape_interval: 30sstatic_configs:- targets: ['39.104.94.83:19091']labels:instance: pushgatewayhonor_labels: true- job_name: "cadvisor"scrape_interval: 10smetrics_path: '/metrics'static_configs:- targets: ["47.93.21.11:8080]#- job_name: 'kafka-exporter'#  scrape_interval: 5s#  static_configs:#       - targets: [ '10.100.7.1:9308']#  - job_name: 'pushgateway'
#    scrape_interval: 10s
#    dns_sd_configs:
#    - names:
#      - 'tasks.pushgateway'
#      type: 'A'
#      port: 9091#     static_configs:
#          - targets: ['node-exporter:9100']

node_alert.rules

groups:
- name: zqaalertrules:- alert:  机器宕机expr: up == 0for: 2mlabels:severity: criticalannotations:summary: "Instance {{ $labels.instance }} down"description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 2 minutes."- alert: 负载率expr: node_load1 > 8for: 5mlabels:severity: warningannotations:summary: "Instance {{ $labels.instance }} under high load"description: "{{ $labels.instance }} of job {{ $labels.job }} is under high load."- alert: 可用内存小于5%expr: node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 < 5for: 10mlabels:severity: warningannotations:summary: Host out of memory (instance {{ $labels.instance }})description: "节点内存告警 (< 5% left)\n  VALUE = {{ $value }}\n  LABELS = {{ $labels }}"- alert:  磁盘使用率expr: (100 - ((node_filesystem_avail_bytes{device!~'rootfs'} * 100) / node_filesystem_size_bytes{device!~'rootfs'}) > 90)for: 5mlabels:severity: Highannotations:summary: "{{$labels.instance}}: High Disk usage detected"description: "{{$labels.instance}}: 硬盘使用率大于 90% (当前值:{{ $value }})"- alert: Cpu使用率expr: 100 - (avg by(instance) (rate(node_cpu_seconds_total{mode="idle"}[10m])) * 100) > 95for: 10mlabels:severity: warningannotations:summary: "{{$labels.instance}}: High Cpu usage detected"description: "{{$labels.instance}}: CPU 使用率大于 95% (current value is:{{ $value }})"# - alert: 进程恢复#   expr: ceil(time() - max by(instance, groupname) (namedprocess_namegroup_oldest_start_time_seconds)) < 60#   for: 0s#   labels:#     severity: warning#   annotations:#     summary: "进程重启"#     description: "进程{{ $labels.groupname }}在{{ $value }}秒前重启过"- alert: 进程退出告警# expr: max by(instance, groupname) (rate(namedprocess_namegroup_oldest_start_time_seconds{groupname=~"^vsftpd.*|^proxy.*|^goproxy.*|^lizhu_monitor*|^lizhu_agent*|^lizhurunner*"}[5m])) < 0expr: namedprocess_namegroup_num_procs{groupname=~"^vsftpd.*|^proxy.*|^goproxy.*|^lizhu_monitor*|^lizhu_agent*|^lizhurunner*"} == 0for: 30slabels:severity: warningannotations:summary: "进程退出"description: "进程{{ $labels.groupname }}退出了"  #  - alert: 进程退出告警
#    expr: max_over_time(namedprocess_namegroup_oldest_start_time_seconds{groupname=~"^vsftpd.*|^proxy.*|^goproxy.*|^lizhu_monitor.*|^lizhu_agent.*|^lizhurunner.*"}[1d]) < (time() - 10*60)
#    for: 1s
#    labels:
#      severity: warning
#    annotations:
#      description: 进程组 {{ $labels.groupname }} 中的进程在最近10分钟内退出了
#      summary: 进程退出#- alert: 机器硬盘读取速率#  expr: sum by (instance) (rate(node_disk_read_bytes_total[2m])) / 1024 / 1024 > 200#  for: 5m#  labels:#    severity: warning#  annotations:#    summary: Host unusual disk read rate (instance {{ $labels.instance }})#    description: "Disk is probably reading too much data (> 50 MB/s)\n  VALUE = {{ $value }}\n  LABELS = {{ $labels }}"#- alert: 机器硬盘写入速率#  expr: sum by (instance) (rate(node_disk_written_bytes_total[2m])) / 1024 / 1024 > 120#  for: 2m#  labels:#    severity: warning#  annotations:#    summary: Host unusual disk write rate (instance {{ $labels.instance }})#    description: "Disk is probably writing too much data VALUE = {{ $value }}\n  LABELS = {{ $labels }}"- alert: HostOomKillDetectedexpr: increase(node_vmstat_oom_kill[1m]) > 0for: 0mlabels:severity: warningannotations:summary: Host OOM kill detected (instance {{ $labels.instance }})description: "OOM kill detected\n  VALUE = {{ $value }}\n  LABELS = {{ $labels }}"- alert: Esxi主机连接丢失expr: vmware_host_power_state != 1for: 1m labels:severity: criticalannotations:summary: "Esxi 物理机IP: {{ $labels.host_name }} 丢失连接"description: "VMware host {{ $labels.host_name }} is not connected to the virtualization platform."

docker_container.rules

groups:
- name: zqaalertrules:- alert: ContainerAbsentexpr: absent(container_last_seen)for: 5mlabels:severity: warningannotations:summary: "无容器 容器:{{$labels.instance }}"description: "5分钟检查容器不存在,当前值为:{{ $value }}"- alert: ContainerCpuUsageexpr: (sum(rate(container_cpu_usage_seconds_total{name!=""}[3m])) BY(instance, name)*100 ) > 300for: 2mlabels:severity: warningannotations:summary: "容器cpu使用率告警,容器:{{$labels.instance }}"description: "容器cpu使用率超过300%,当前值为:{{ $value }}"- alert: ContainerMemoryUsageexpr: (sum(container_memory_working_set_bytes{name!=""})BY (instance, name) /sum(container_spec_memory_limit_bytes > 0) BY (instance, name) * 100 ) > 80for: 2mlabels:severity: warningannotations:summary: "容器内存使用率告警,容器:{{$labels.instance }}"description: "容器内存使用率超过80%,当前值为:{{ $value }}"- alert: ContainerVolumeIOUsageexpr: (sum(container_fs_io_current{name!=""}) BY (instance, name) * 100) >80 for: 2mlabels:severity: warningannotations:summary: "容器存储IO使用率告警,容器:{{$labels.instance }}"description: "容器存储IO使用率超过80%,当前值为:{{ $value }}"- alert: ContainerHighThrottleRateexpr: rate(container_cpus_cfs_throttled_seconds_total[3m]) > 1 for: 2mlabels:severity: warningannotations:summary: "容器限制告警,容器:{{$labels.instance }}"description: "容器被限制,当前值为:{{ $value }}"

mysql_alert.rules

groups:
- name: zqaalertrules:- alert:  Mysql 宕机expr: mysql_up == 0for: 1mlabels:severity: criticalannotations:summary: MySQL down (instance {{ $labels.instance }})description: "MySQL instance is down on {{ $labels.instance }}\n  VALUE = {{ $value }}\n  LABELS = {{ $labels }}"- alert: MysqlTooManyConnections(>80%)expr: max_over_time(mysql_global_status_threads_connected[1m]) / mysql_global_variables_max_connections * 100 > 80for: 2mlabels:severity: warningannotations:summary: MySQL too many connections (> 80%) (instance {{ $labels.instance }})description: "More than 80% of MySQL connections are in use on {{ $labels.instance }}\n  VALUE = {{ $value }}\n  LABELS = {{ $labels }}"- alert: MysqlHighThreadsRunningexpr: max_over_time(mysql_global_status_threads_running[1m]) / mysql_global_variables_max_connections * 100 > 60for: 2mlabels:severity: warningannotations:summary: MySQL high threads running (instance {{ $labels.instance }})description: "More than 60% of MySQL connections are in running state on {{ $labels.instance }}\n  VALUE = {{ $value }}\n  LABELS = {{ $labels }}"- alert: Mysql慢查询expr: increase(mysql_global_status_slow_queries[1m]) > 0for: 60mlabels:severity: warningannotations:summary: MySQL slow queries (instance {{ $labels.instance }})description: "MySQL server mysql has some new slow query.\n  VALUE = {{ $value }}\n  LABELS = {{ $labels }}"

vmware.rules

- name: VMware Host Connection Staterules:- alert: HostDisconnectedexpr: vmware_host_power_state == "connected"for: 5m # 规定主机连接状态必须持续5分钟才会触发警报labels:severity: warningannotations:summary: "VMware host {{ $labels.instance }} disconnected"description: "VMware host {{ $labels.instance }} is not connected to the virtualization platform."

Alertmanager告警规则

通过定义组来监控组内机器

cat vim /opt/monitor/alertmanager/config.yml


global:resolve_timeout: 5msmtp_from: 'ops@xxx.com'smtp_smarthost: 'smtp.feishu.cn:465'smtp_auth_username: 'ops@xxx.com'smtp_auth_password: 'ydWhsFDk3pF50TZg'smtp_require_tls: falsesmtp_hello: 'ZQA监控告警'route:group_by: ['zqaalert']group_wait: 60s # 在触发第一个警报后，等待相同分组内的所有警报的最长时间group_interval: 10m   # 系统每隔10分钟检查一次是否有新的警报需要处理repeat_interval: 60m  # 在发送警报通知后，在重复发送通知之间等待的时间。设置为1小时意味着如果同一组内的警报在 1小时再次触发receiver: 'web.hook'
receivers:
#- name: 'web.hook.prometheusalert'
- name: 'web.hook'webhook_configs:- url: 'http://10.33.70.22:9094/prometheusalert?type=fs&tpl=prometheus-fs&fsurl=https://open.feishu.cn/open-apis/bot/v2/hook/7fe7f42d-242b-42eb-837c-028cfc84adb8'

consoul注册服务

* */1 * * * ip addr | awk '/^[0-9]+: / {}; /inet.*global/ {print gensub(/(.*)\/(.*)/, "\\1", "g", $2)}' |grep "10.33"|head -1|xargs -i curl -X PUT -d  '{"id": "node-exporter-{}","name": "node-exporter-dev","address": "{}","port": 9100,"tags": ["env-dev"],"checks": [{"http": "http://{}:9100/metrics", "interval": "5s"}]}'  http://consul.intra.xxx.net/v1/agent/service/register

有现成的consoul容器，运行即可

Dashboard JSON文件

以下是我认为比较好用的 grafana 的 dashboards文件

Grafana dashboards | Grafana Labs

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/384467.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

GD 32 流水灯

GD 32 流水灯

前言： 通过后面的学习掌握了一些逻辑架构的知识，通过复习的方式将学到的裸机任务架构的知识运用起来，同时巩固前面学到的知识，GPIO的配置等。开发板上LED引脚使用示意图注：此次LED灯的点亮凡是是高电平点亮&#xff…

阅读更多...

如何解决ChromeDriver 126找不到chromedriver.exe问题

如何解决ChromeDriver 126找不到chromedriver.exe问题

引言在使用Selenium和ChromeDriver进行网页自动化时，ChromeDriver与Chrome浏览器版本不匹配的问题时有发生。最近，许多开发者在使用ChromeDriver 126时遇到了无法找到chromedriver.exe文件的错误。本文将介绍该问题的原因，并提供详细的解决…

阅读更多...

【第一天】计算机网络 TCP/IP模型和OSI模型，从输入URL到页面显示发生了什么

【第一天】计算机网络 TCP/IP模型和OSI模型，从输入URL到页面显示发生了什么

TCP/IP模型和OSI模型这两个模型属于计算机网络的体系结构。 OSI模型是七层模型，从上到下包括： 应用层，表示层，会话层，传输层，网络层，数据链路层，物理层 TCP/IP模型是四层模型&…

阅读更多...

uniapp原生插件开发实战——iOS打开文件到自己的app

uniapp原生插件开发实战——iOS打开文件到自己的app

用原生开发获取文件的名称、路径等能力封装为一个插件包供前端使用首先根据ios插件开发教程，创建一个插件工程，template 选framework 开始编写代码： iOS 9 及以下版本会调用以下方法： - (BOOL)application:(UIApplication *_N…

阅读更多...

关键词查找【Boyer-Moore 算法】

关键词查找【Boyer-Moore 算法】

1、【Boyer-Moore 算法】【算法】哪种算法有分数复杂度？- BoyerMoore字符串匹配_哔哩哔哩_bilibili BM算法的精华就在于BM(text, pattern),也就是BM算法当不匹配的时候一次性可以跳过不止一个字符。即它不需要对被搜索的字符串中的字符进行逐一比较，而…

阅读更多...

HTML前端面试题之＜iframe＞标签

HTML前端面试题之＜iframe＞标签

面试题：iframe 标签的作用是什么?有哪些优缺点 ? 讲真，刷这道面试题之前我根本没有接触过iframe，网课没讲过，项目实战没用过，但却在面试题里出现了！好吧，我只能说：前端路漫漫&…

阅读更多...

2024年软件系统与信息处理国际会议（ICSSIP 2024）即将召开！

2024年软件系统与信息处理国际会议（ICSSIP 2024）将于2024年10月25-27日在中国昆明举行。引领技术前沿，共谋创新未来。ICSSIP 2024将汇聚来自世界各地的专家学者，他们将在会上分享最新的研究成果、技术突破及实践经验。会议议题涵盖…

阅读更多...

DataEase一键部署：轻松搭建数据可视化平台

DataEase一键部署：轻松搭建数据可视化平台

DataEase是一个开源的数据可视化和分析工具，旨在帮助用户轻松创建和共享数据仪表盘。它支持多种数据源，包括关系型数据库，文件数据源，NoSQL数据库等，提供强大的数据查询、处理和可视化功能。DataEase 不仅是一款数据可…

阅读更多...

通信原理-思科实验四：静态路由项配置实验

通信原理-思科实验四：静态路由项配置实验

实验四静态路由项配置实验一：实验内容二：实验目的三、实验原理四、实验步骤选择三个2811型号的路由器 R1、R2、R3 路由器默认只有两个快速以太网接口，为路由器R1和R3增加快速以太网接口模块NM-1FE-TX，安装后检查路由器的接…

阅读更多...

【电源专题】结合锂电池相关资料和华为手机聊聊锂离子电池使用条件限制

【电源专题】结合锂电池相关资料和华为手机聊聊锂离子电池使用条件限制

在文章：【电源专题】锂电池的特点和工作原理中我们讲到了一些关于锂电池种类和特点、工作原理等。但是对于锂离子电池使用条件限制却没有介绍，本文基于手机产商锂离子电池使用条件-电池性能和应用介绍 | 华为官网 (huawei.com)提供的介绍文档再次深入学习锂离子电池的一些特…

阅读更多...

bug+测试用例

bug+测试用例

bug的概念： 1.当且仅当规格说明是存在的并且正确，程序与规格说明之间的不匹配才是错误。 2.当需求规格说明书没有提到的功能，判断标准以最终用户为准；当程序没有实现其最终用户合理预期的功能要求时，就是软件错误 bug…

阅读更多...

区块链浏览器开发指南分享

区块链浏览器开发指南分享

01 概括区块链浏览器是联盟链上的一种数据可视化工具，用户可以通过web页面，直接在浏览器上查看联盟链的节点、区块、交易信息和子链信息、标识使用信息等，用以验证交易等区块链常用操作。 02功能模块区块链网络概览区块链网络概览显示…

阅读更多...

【Linux】进程IO|系统调用|open|write|文件描述符fd|封装|理解一切皆文件

【Linux】进程IO|系统调用|open|write|文件描述符fd|封装|理解一切皆文件

目录编辑前言系统调用 open 参数flags 参数mode write 追加方式 read close 文件描述符打开多个文件并观察其文件描述符 C语言文件操作理解一切皆文件理解open操作前言各类语言的文件操作其实是对系统调用的封装我们经常说，创建一个文件&a…

阅读更多...

【数据结构】顺序表（杨辉三角、简单的洗牌算法）

【数据结构】顺序表（杨辉三角、简单的洗牌算法）

🎇🎉🎉🎉点进来你就是我的人了博主主页：🙈🙈🙈戳一戳，欢迎大佬指点！ 欢迎志同道合的朋友一起加油喔 💪💪💪 谢谢你这么帅…

阅读更多...

MySQL可重复读的隔离机制下是否彻底解决了幻读？

MySQL可重复读的隔离机制下是否彻底解决了幻读？

答案：没有彻底解决。一、什么是幻读？ 当同一个查询在不同时间产生不同的结果集时，事务中就会出现幻读问题。幻读关注的是记录数量的不同。不可重复读关注的是记录内容的不同。二、快照读和当前读 InnoDB引擎的默认隔离级别是可重复读&…

阅读更多...

音视频入门基础：H.264专题（17）——FFmpeg源码获取H.264裸流文件信息（视频压缩编码格式、色彩格式、视频分辨率、帧率）的总流程

音视频入门基础：H.264专题（17）——FFmpeg源码获取H.264裸流文件信息（视频压缩编码格式、色彩格式、视频分辨率、帧率）的总流程

音视频入门基础：H.264专题系列文章： 音视频入门基础：H.264专题（1）——H.264官方文档下载音视频入门基础：H.264专题（2）——使用FFmpeg命令生成H.264裸流文件音视频入门基础&…

阅读更多...

Spark 运行架构

Spark 运行架构

运行架构 Spark 框架的核心是一个计算引擎，整体来说，它采用了标准的 master-slave 结构。上图中的 Driver 表示 master ，负责管理整个集群中的作业任务调度；Executor 则是 slave，负责实际执行任务； 核心组…

阅读更多...

深入解析：百数平台图表联动功能设置与实战应用

深入解析：百数平台图表联动功能设置与实战应用

在当今数据驱动的时代，图表的联动功能已成为数据分析的得力助手。通过深度整合各类图表，如柱形图、折线图、饼图、雷达图、条形图、透视图、面积图、双轴图、地图以及漏斗图等，我们实现了图表之间的无缝衔接，使得数据的呈现与探索…

阅读更多...

Spring Boot的Web开发

Spring Boot的Web开发

目录 Spring Boot的Web开发 1.静态资源映射规则第一种静态资源映射规则 2.enjoy模板引擎 3.springMVC 3.1请求处理 RequestMapping DeleteMapping 删除 PutMapping 修改 GetMapping 查询 PostMapping 新增 3.2参数绑定一.支持数据类型: 3.3常用注解一.Request…

阅读更多...

【Ant Design Pro】快速上手

【Ant Design Pro】快速上手

初始化初始化脚手架：快速开始官方默认使用 umi4，这里文档还没有及时更新（不能像文档一样选择 umi 的版本），之后我选择 simple。然后安装依赖。在 package.json 中： "start": "cross-e…

阅读更多...

最新文章

推荐文章