大数据-之LibrA数据库系统告警处理(ALM-12045 网络读包丢包率超过阈值)

告警解释

系统每30秒周期性检测网络读包丢包率,并把实际丢包率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包丢包率连续多次(默认值为5)超过阈值时产生该告警。

用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”修改阈值。

平滑次数为1,网络读包丢包率小于或等于阈值时,告警恢复;平滑次数大于1,网络读包丢包率小于或等于阈值的90%时,告警恢复。

该告警检测默认关闭。若需要开启,请根据“检查系统环境”步骤,确认该系统是否可以开启该告警发送。

告警属性

告警ID

告警级别

可自动清除

12045

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

NetworkCardName

产生告警的网口名。

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

业务性能下降或者个别业务出现超时问题。

风险提示:在SUSE内核版本3.0以上或RedHat 7.2版本,由于系统内核修改了网络读包丢包数的计数机制,在该系统下,即使网络正常运行,也可能会导致该告警出现,对业务无影响,建议优先按照“检查系统环境”进行排查。

可能原因
  • 操作系统问题。
  • 网卡配置了主备bond模式。
  • 告警阈值配置不合理。
  • 网络环境异常。
处理步骤

查看网络丢包率

  1. 使用PuTTY工具,以omm用户登录集群中任意非告警节点,执行ping 告警节点IP地址 -c 100命令检查网络中是否存在丢包。

     说明: 
    • 告警节点IP地址:根据告警定位信息中的HostName字段值,在FusionInsight Manager的“主机管理”界面查询对应的IP地址,管理平面和业务平面IP都需要检查。
    • -c参数:检查次数,默认100次。
    • 是,执行步骤 10。
    • 否,执行步骤 2。

检查系统环境

  1. 使用PuTTY工具,以omm用户登录主OMS节点或者告警所在节点。
  2. 执行cat /etc/*-release命令,确认操作系统的类型。

    • RedHat,执行步骤 4。
       
    • SuSE,执行步骤 5。
       
    • 其他,执行步骤 10。

  3. 执行cat /etc/redhat-release命令,查询操作系统版本是否为RedHat 7.2。

     
    • 是,不能开启告警发送,执行步骤 6。
    • 否,执行步骤 10。

  4. 执行cat /proc/version命令,查询SuSE内核版本是否为3.0及以上。

    # cat /proc/version
    Linux version 3.0.101-63-default (geeko@buildhost) (gcc version 4.3.4 [gcc-4_3-branch revision 152973] (SUSE Linux) ) #1 SMP Tue Jun 23 16:02:31 UTC 2015 (4b89d0c)
    • 是,不能开启告警发送,执行步骤 6。
    • 否,执行步骤 10。

  5. 登录FusionInsight Manager,进入“系统设置 > 配置 > 阈值配置”页面。
  6. 在“阈值配置”页面左侧树形结构中选择“网络读信息 > 网络读包率信息 > 读包丢包率”,在弹出的右侧信息中,查看“发送告警”是否已经勾选。
  • 是,说明开启了告警发送,执行步骤 8。
  • 否,已经关闭告警发送,执行步骤 9。

 7.在弹出的右侧信息中,去勾选“发送告警”,屏蔽对“网络读包丢包率超过阈值”的检测,操作后的结果如下图所示。

  1. 8.在FusionInsight Manager的“告警管理”界面,搜索“12045”告警,将未自动清除的该告警全部手动清除,处理完毕。

检查网卡是否配置了主备bond模式

  1. 使用PuTTY工具,以omm用户登录告警所在节点,执行ls -l /proc/net/bonding命令,查看该节点是否存在“/proc/net/bonding”目录。

    • 是, 如下所示,则该节点配置了bond模式,执行步骤 11。
      # ls -l /proc/net/bonding/
      total 0
      -r--r--r-- 1 root root 0 Oct 11 17:35 bond0
    • 否,如下所示,则该节点未配置bond模式,执行步骤 13。
      # ls -l /proc/net/bonding/
      ls: cannot access /proc/net/bonding/: No such file or directory

  2. 执行cat /proc/net/bonding/bond0命令,查看配置文件中Bonding Mode参数的值是否为fault-tolerance。

    说明:

    bond0为bond配置文件名称,请以步骤 10查询出的文件名称为准。

    # cat /proc/net/bonding/bond0 
    Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011)Bonding Mode: fault-tolerance (active-backup)
    Primary Slave: eth1 (primary_reselect always)
    Currently Active Slave: eth1
    MII Status: up
    MII Polling Interval (ms): 100
    Up Delay (ms): 0
    Down Delay (ms): 0Slave Interface: eth0
    MII Status: up
    Speed: 1000 Mbps
    Duplex: full
    Link Failure Count: 1
    Slave queue ID: 0Slave Interface: eth1
    MII Status: up
    Speed: 1000 Mbps
    Duplex: full
    Link Failure Count: 1
    Slave queue ID: 0
    • 是,该环境的网卡为主备bond模式,执行步骤 12。
    • 否,执行步骤 13。

  3. 检查该告警详情中NetworkCardName参数对应的网卡是否为备网卡。

    • 是,备网卡的告警无法自动恢复,请在告警管理页面手动清除该告警,处理完毕。
    • 否,执行步骤 13。 

 说明:

备网卡判断方式:查看配置文件/proc/net/bonding/bond0,NetworkCardName参数对应的网卡名称等于其中一个Slave Interface,但是不等于Currently Active Slave(当前主网卡),则该网卡为备网卡

检查阈值设置是否合理。

  1. 登录FusionInsight Manager,查看该告警阈值是否合理(默认0.5%为合理值,用户可以根据自己的实际需求调整)。

    • 是,执行步骤 16。
    • 否,执行步骤 14。

  2. 根据实际服务的使用情况在“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”中更改告警阈值。如图1所示。

    图1 设置告警阈值

  3. 等待5分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行步骤 16。

检查网络是否异常。

  1. 联系系统管理员,检查网络是否存在异常。

    • 是,恢复网络故障,执行步骤 17。
    • 否,执行步骤 18。

  2. 等待5分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行步骤 18。

收集故障信息。

  1. 在主集群的FusionInsight Manager界面,单击“系统设置 > 日志下载”。
  2. 在“服务”下拉框中勾选“Manager”,单击“确定”。
  3. 设置“主机”为告警所在节点和主OMS节点。
  4. 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟,单击“下载”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/192084.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python】【应用】Python应用之一行命令搭建http、ftp服务器

🐚作者简介:花神庙码农(专注于Linux、WLAN、TCP/IP、Python等技术方向)🐳博客主页:花神庙码农 ,地址:https://blog.csdn.net/qxhgd🌐系列专栏:Python应用&…

041:vue中 el-table每个单元格包含多个数据项处理

第041个 查看专栏目录: VUE ------ element UI 专栏目标 在vue和element UI联合技术栈的操控下,本专栏提供行之有效的源代码示例和信息点介绍,做到灵活运用。 (1)提供vue2的一些基本操作:安装、引用,模板使…

基于SSM的超市积分管理系统的设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

JavaWeb——HTML常用标签

目录 1. 标题标签 2. 段落标签 3. 换行/分割线标签 4. 列表标签 4.1. 有序列表 4.2. 无序列表 5. 超链接标签 6. 多媒体标签 6.1. img 图片标签 6.2. audio 音频标签 6.3. video 视频标签 7. 表格标签(重点) 8. 表单标签(重点) 1. 标题标签 …

vue3配置环境变量,小白简单易学

环境变量的意义就是防止我们更新打包的时候写错变量,合并代码这些一系列问题 首先看看效果 左边是本地测试环境,右边是打包后的生产环境,写这个环境变量的好处就是,你在本地开发的时候变量随便改,不会影响生产环境&am…

数字货币swap交易所逻辑系统开发分析方案

随着数字货币市场的快速发展, Swap交易所已成为一种重要的交易方式。本文将对数字货币Swap交易所逻辑系统开发进行分析,并探讨其优势、开发难点和解决方案。 一、数字货币Swap交易所逻辑系统开发的优势 数字货币Swap交易所是一种点对点的交易方式&#x…

【STM32/FreeRTOS】SysTick定时器及FreeRTOS系统节拍

目录 一、SysTick定时器 1、SysTick寄存器介绍 (1)控制及状态寄存器 (2)重装载数值寄存器 (3)当前数值寄存器 2、SysTick寄存器配置函数 二、FreeRTOS中的SysTick定时器 1、SysTick配置函数及分析 …

使用阿里云服务器学习Docker

首先我这里选择的系统服务器是CentOS 7.9 64位 因为centos系统里面的安装指令是:yum,而非apt-get. yum install docker -y试着建立一个容器: docker run -d -p 80:80 httpd启动docker的守护进程: sudo systemctl start docker 查看Docke…

【教3妹学编辑-mysql】mybatis查询条件遇到的坑及解决方案

2哥 :3妹,今天怎么下班这么晚啊。 3妹:嗨,别提了,今天线上出bug了, 排查了好久。 2哥:啊,什么问题呀? 3妹:我们内部的一个管理系统报错了, 最近排查下来是myb…

IDEA 使用Reset Current Branch to Here 进行git 版本控制,图文操作

文章目录 一、总结区别(只针对本地仓库操作)Soft详细解释文件版本冲突处理 Mixed详细解释Hard详细解释Keep详细解释文件版本冲突处理 二、其他Revert commit 参考文档 一、总结区别(只针对本地仓库操作) Soft详细解释 Soft操作只…

mysql之正则表达式匹配

题目: 今天在牛客网看到一道关于数据库正则表达式匹配的问题,发现自己一点不会做。 正则表达式: 一、正则表达式 MySQL 正则表达式通常是在检索数据库记录的时候,根据指定的匹配模式匹配记录中 符合要求的特殊字符串。MySQL 的…

【实例分割】用自己数据集复现经典论文YOLACT

YOLACT:You Only Look At CoefficienTs 🏆论文下载:paper 🏆代码下载:code 🏆论文详解:YOLACT 目录 🍂🍂1.安装环境 🍂🍂2.数据准备 &…

揭秘 DCNN——AlexNet

来源 — gifs.com 一、说明 还记得 2012 年的 ImageNet 视觉识别挑战赛吗?当然,你知道!经过大量的反复试验和实验,研究员 Alex Krizhevsky 及其合著者 Ilya Sutskever 和 Geoffrey E. Hinton(他真正理解了深度学习中…

【科研新手指南4】ChatGPT的prompt技巧 心得

ChatGPT的prompt心得 写在最前面chatgpt咒语1(感觉最好用的竟然是这个,简单方便快捷,不需要多轮对话)chatgpt思维链2(复杂任务更适用,简单任务把他弄复杂了)机理chatgpt完整咒语1(感…

Maven依赖管理项目构建工具的安装与配置

本篇来自尚硅谷的笔记,在线视频观看:Maven依赖管理项目构建工具,更多笔记欢迎访问:小熊学Java 一、Maven简介 1、为什么学习Maven 1.1、Maven是一个依赖管理工具 ①jar 包的规模 随着我们使用越来越多的框架,或者框…

微服务简单理解与快速搭建

分布式和微服务 含义 微服务架构 微服务架构风格是一种将一个单一应用程序开发为一组小型服务的方法,每个服务运行在自己的进程中,服务间通信采用轻量级通信机制(通常用HTTP资源API)。这些服务围绕业务能力构建并且可通过全自动部署机制独立部署。这些服…

消息队列简介

什么是消息队列?(Message queue,简称MQ) 从字面理解就是一个保存消息的一个容器。那么我们为何需要这样一个容器呢? 其实就是为了解耦各个系统,我们来举个例子: 有这么一个简单的场景,系统A负…

OpenAI调查ChatGPT故障;向量搜索的优势与局限

🦉 AI新闻 🚀 OpenAI调查ChatGPT故障,发布新AI产品GPTs和GPT-4 Turbo 摘要:OpenAI的ChatGPT和其他服务出现故障,经过调查后发现是由于DDoS攻击导致的异常流量模式。OpenAI在首届开发者大会上发布了新的AI产品GPTs&am…

基于入侵杂草算法优化概率神经网络PNN的分类预测 - 附代码

基于入侵杂草算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于入侵杂草算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于入侵杂草优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针对PNN神…

如何使用Cpolar+Tipask,在ubuntu系统上搭建一个私人问答网站

文章目录 前言2.Tipask网站搭建2.1 Tipask网站下载和安装2.2 Tipask网页测试2.3 cpolar的安装和注册 3. 本地网页发布3.1 Cpolar临时数据隧道3.2 Cpolar稳定隧道(云端设置)3.3 Cpolar稳定隧道(本地设置) 4. 公网访问测试5. 结语 前…