超融合系统疑难故障定位与解决实践 3 例(含信创技术栈)

当 IT 系统出现故障,问题定位往往是运维人员最头疼的环节。尤其是超融合系统,由于整体涉及的技术栈比较复杂,且有越来越多的用户基于信创环境进行部署,非常考验厂商和技术人员的专业能力:厂商研发和售后工程师不仅应能快速定位自家产品的问题,还可帮助用户定位和解决相关硬件、存储、虚拟化、宿主机操作系统等不同层面的故障。

得益于核心组件的自主研发能力、深度的信创生态支持和专业的技术团队实力,SmartX 可为用户提供“全栈”的超融合系统故障定位与解决支持,帮助用户解决基础设施软硬件(含信创技术栈)多个层面的技术问题。下面,我们将通过 3 个案例,分享 SmartX 技术人员在硬件、虚拟化平台和虚拟机层面的故障定位与处理经验。

服务器硬件层问题定位与解决案例

某制造企业:存储出现过长延迟,SmartX 工程师分析日志发现“可疑”SSD

某制造业用户在使用 SmartX 超融合时多次触发“存储平均延迟超过 2s”的告警(未产生使用影响)。得到联系后,SmartX 工程师为客户提供了远程排查,发现所有节点均存在零星的 Slow I/O,但并没有检测到异常磁盘。工程师进一步检查了各个节点的日志,发现在发生 Slow I/O 时存在异常日志:

hci-fault-locating-1.png

一线工程师与开发团队共同分析后,判断该日志为 SSD I/O 太慢导致的。经过进一步排查,工程师排除了 HBA 卡的问题,在检查 SSD 时,发现服务器厂商提供的硬件与客户要求的不一致,可能由于 SSD 兼容性问题导致 I/O 延迟。随后 SmartX 帮助用户多次与服务器供应商及硬件厂商沟通、测试,证实该 SSD 确实不符合客户预期,且由于硬盘自身的资源回收机制存在问题,会导致性能下降,因此触发了告警。SmartX 随即协助客户完成了 SSD 更换,有效解决了这一问题。

信创技术栈虚拟化平台层问题定位与解决案例

某金融机构:虚拟机突然暂停,SmartX 工程师发现 KVM 内存申请问题并提供 Kernel Patch

某金融机构在 ARM 架构信创环境部署 SmartX 超融合集群(基于原生虚拟化 ELF),在正常运行时,发生虚拟机暂停现象,从运维管理界面观察到虚拟机处于暂停状态,无法 ping 通,无法对外提供服务。

为了方便故障排查,同时保证当前业务的正常进行,SmartX 工程师利用 SmartX 超融合快速克隆功能新建一台虚拟机供用户临时使用,随后协助用户进行远程诊断。在检查日志时,SmartX 工程师发现“kernel: kvm[74555]: Unexpected L2 read permission error”记录,且发生时间与虚拟机暂停的时间点基本吻合。基于这一线索,工程师高度怀疑虚拟机暂停与 KVM 有关,并协调服务器厂商一起进行问题排查。

hci-fault-locating-2.png

为了避免再发生虚拟机暂停的情况,SmartX 先为用户提供了一个临时方案,该方案能够在 2 分钟内发现暂停的虚拟机,并以邮件方式通知管理员,由管理员操作恢复虚拟机。同时,SmartX 开发团队在进一步分析后发现了问题原因:当虚拟机里产生缺页中断,会进入 KVM 申请内存,这时 KVM 对内存页交换条件进行了错误判断,导致虚拟机申请内存失败,进而导致暂停。

定位问题后,SmartX 开发团队在一周内就提供了 Kernel Patch,通过仅修改判断条件而不改动 Kernel 和 Swap 的方式解决了该问题。用户在测试集群更新 Patch 包后,虚拟机正常运行,并于 3 周后对生产集群进行了升级,再未出现虚拟机暂停的情况。

信创技术栈虚拟机层问题定位与解决案例

某金融机构:信创集群切换虚拟网络后网卡丢失,SmartX 工程师多次测试定位网卡热插拔速率

某金融用户信创超融合集群(基于 ARM 架构的信创操作系统)在编辑虚拟网卡关联网络后,发生虚拟机网卡丢失的现象。SmartX 工程师在初步检查后,发现用户原 POC 环境中并未出现该问题,再次测试验证后,初步判断该问题是由于跨 VDS 修改网卡网络导致的:在正式集群中,虚拟机网卡关联网络跨越了不同的 VDS,可能存在虚拟机内部无法识别网卡的情况,而 POC 环境不存在跨 VDS 的情况。

为了进一步准确根因,SmartX 研发团队检查了 Guest OS 内部日志,并开展了多次复现测试,针对虚拟机开关机状态、虚拟 PCI 插槽、热插拔时间间隔等因素进行逐一排查。最后发现,仅当 Guest OS 为某国产操作系统特定版本时,基于同一虚拟 PCI 插槽执行热拔设备后立即执行热插设备操作,操作系统的 Kernel pciehp 驱动中断处理异常,会导致热插设备被自动卸载。后经研发团队反复测试,将安全热插拔间隔时间确定在 3 秒及以上。

针对这一问题,SmartX 为用户提供了 Patch,确保用户在该操作系统上能够正常进行网络切换,随后与操作系统厂商进行了沟通,由操作系统厂商进一步定位并修复了该问题。

SmartX 超融合:自研核心技术助力全栈故障根因

SmartX 技术团队卓越的故障定位与解决能力,不仅源自于过硬的专业技能,更得益于 SmartX 核心组件自主研发,和信创技术栈的深度适配:

  • 超融合核心组件 100% 自主可控,SmartX 一线工程师和开发团队具备过硬的基础设施软硬件技术实力和丰富的故障根因经验,帮助用户解决多个层面的技术问题。
  • 深度适配国产主流 CPU 架构、操作系统、数据库与中间件,可为用户提供针对信创技术栈的技术支持。
  • SmartX 超融合的高可用与简易运维特性,可在降低故障定位难度的同时保障业务连续性。

欲详细了解 SmartX 超融合信创适配与运维支持特性,请阅读:

  • SmartX 超融合和分布式存储支持哪些信创硬件?如何选型配置?
  • 志凌海纳 SmartX 在信创:已成为金融机构“轻量信创云底座”首选
  • 一文了解 SmartX 超融合硬盘健康检测机制与运维实践
  • 一文了解 SmartX 超融合勒索攻击应对方案​​​​​​

您还可点击阅读电子书《超融合技术原理与特性解析合集:管理与运维》,了解 SmartX 超融合如何通过磁盘健康检测、存储性能管理、弹性扩容等特性,降低用户运维压力。

阅读原文:超融合系统疑难故障定位与解决实践 3 例(含信创技术栈)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/244450.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C/C++】C/C++编程——C++ 开发环境搭建

C的开发环境种类繁多,以下是一些常见的C 集成开发环境: AppCode :构建与JetBrains’ IntelliJ IDEA 平台上的用于Objective-C,C,C,Java和Java开发的集成开发环境CLion:来自JetBrains的跨平台的C/C的集成开…

天津大数据培训班推荐,数据分析过程的常见错误

大数据”是近年来IT行业的热词,目前已经广泛应用在各个行业。大数据,又称海量信息,特点是数据量大、种类多、实时性强、数据蕴藏的价值大。大数据是对大量、动态、能持续的数据,通过运用分析、挖掘和整理,实现数据信息…

keil5 查看stm32 寄存器的值

1 查看芯片内部寄存器的值,首先是在仿真状态下,首先仿真,程序运行。 2 点击菜单栏的 View -> System viewer ,右侧便会出现芯片的所有寄存器(如果没有,需要添加),点击要查看的寄存器,便会出…

ARM安装与项目结构

1. 安装环境 参考E:\peixunQianrushi\arm\ziliao\FS4412新版(学生资料)\环境相关资料 这边建议全部默认路径 安装注意事项: 1、在接下来的安装过程中,对于使用win10、win8的操作系统的用户,所有的安装请均以管理员身份…

014-信息打点-JS架构框架识别泄漏提取API接口枚举FUZZ爬虫插件项目

014-信息打点-JS架构&框架识别&泄漏提取&API接口枚举&FUZZ爬虫&插件项目 #知识点: 1、JS前端架构-识别&分析 2、JS前端架构-开发框架分析 3、JS前端架构-打包器分析 4、JS前端架构-提取&FUZZ 解决: 1、如何从表现中的JS提取…

pytorch(二)梯度下降算法

文章目录 优化问题梯度下降随机梯度下降 在线性模型训练的时候,一开始并不知道w的最优值是什么,可以使用一个随机值来作为w的初始值,使用一定的算法来对w进行更新 优化问题 寻找使得目标函数最优的权重组合的问题就是优化问题 梯度下降 通…

Canvas-Editor 实现类似 Word 协同编辑

前言 对于word的协同编辑,已经构思很久了,但是没有找到合适的插件。今天推荐基于canvas/svg 的富文本编辑器 canvas-editor,能实现类似word的基础功能,如果后续有更好的,也会及时更新。 Canvas-Editor 效果图 官方文…

终极解决Flutter项目运行ios项目报错Without CocoaPods, plugins will not work on iOS or macOS.

前言 最近在开发Flutter项目,运行ios环境的时候报错没有CocoaPods,安卓环境可以正常运行,当时一脸懵逼,网上搜索了一下,有给我讲原理的,还有让我安装这插件那插件的,最终把电脑搞得卡死&#x…

【spring】代码生成器

📝个人主页:五敷有你 🔥系列专栏:spring ⛺️稳中求进,晒太阳 代码生成器(本质IO流) 在mybatis的逆向工程生成model和mapper接口和xml文件后,还需要反复的写Service的接口和…

UE5 C++学习笔记 FString FName FText相互转换

1.FString 是UE里的String。最接近std::string, 唯一可以修改的字符串类型。性能更低 TEXT(string) TEXT宏,作用是将字符串转换成Unicode,切记UE中使用字符串输出要使用该宏 2. FName 是UE里特有的类型。它更注重于表示名称不区分大小写,不…

元数据管理在数据仓库中的实践应用

一、什么是数据仓库的元数据管理? 1、什么是元数据? 元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。 抽象的描述:一组用于描述数据的数据组,该数据组的一切信息都描述了该数据的某方面特征,则该数据组即可被称为元数据。 举几个…

MyBatis的逆向工程的创建,generator插件的使用和可能出现的一些问题,生成的实体类多出.java 1 .java 2这种拓展文件的处理方案

目录 创建逆向工程的步骤 ①添加依赖和插件 ②创建MyBatis的核心配置文件 ③创建逆向工程的配置文件 ④执行MBG插件的generate目标 数据库版本8有可能出现的问题: 1、生成的实体类多了.java 1 .java 2的拓展文件... 2、生成的属性与表中字段不匹配&#xff…

kafka(一)快速入门

一、kafka(一)是什么? kafka是一个分布式、支持分区、多副本,基于zookeeper协调的分布式消息系统; 二、应用场景 日志收集:一个公司可以用Kafka收集各种服务的log,通过kafka推送到各种存储系统…

在markdown中添加视频的两种方法

查看专栏目录 Network 灰鸽宝典专栏主要关注服务器的配置,前后端开发环境的配置,编辑器的配置,网络服务的配置,网络命令的应用与配置,windows常见问题的解决等。 文章目录 方式一源代码: 方式二结尾语网络的梦想 markd…

多维时序 | Matlab实现GWO-TCN-Multihead-Attention灰狼算法优化时间卷积网络结合多头注意力机制多变量时间序列预测

多维时序 | Matlab实现GWO-TCN-Multihead-Attention灰狼算法优化时间卷积网络结合多头注意力机制多变量时间序列预测 目录 多维时序 | Matlab实现GWO-TCN-Multihead-Attention灰狼算法优化时间卷积网络结合多头注意力机制多变量时间序列预测效果一览基本介绍程序设计参考资料 效…

【设计并实现一个满足 LRU (最近最少使用) 缓存约束的数据结构】

文章目录 一、什么是LRU?二、LinkedHashMap 实现LRU缓存三、手写LRU 一、什么是LRU? LRU是Least Recently Used的缩写,意为最近最少使用。它是一种缓存淘汰策略,用于在缓存满时确定要被替换的数据块。LRU算法认为,最近…

多输入多输出 | Matlab实现SSA-CNN麻雀算法优化卷积神经网络多输入多输出预测

多输入多输出 | Matlab实现SSA-CNN麻雀算法优化卷积神经网络多输入多输出预测 目录 多输入多输出 | Matlab实现SSA-CNN麻雀算法优化卷积神经网络多输入多输出预测预测效果基本介绍模型背景程序设计参考资料 预测效果 基本介绍 Matlab实现SSA-CNN麻雀算法优化卷积神经网络多输入…

cmd输入python直接弹出windows应用商店

明明已经安装好了python,并且也确认配置好了python的环境变量,但是在cmd里输入python后,直接弹出windows商店,python获取界面,其实只需要关闭系统里的应用执行别名设置,最近出来的电脑系统里是自带开启了py…

.NET国产化改造探索(六)、银河麒麟操作系统中安装多个.NET版本

随着时代的发展以及近年来信创工作和…废话就不多说了,这个系列就是为.NET遇到国产化需求的一个闭坑系列。接下来,看操作。 上一篇文章介绍了如何在银河麒麟操作系统上,使用Nginx.NET程序实现自启动。本文介绍下如何在一个环境中,…

【React】组件性能优化、高阶组件

文章目录 React性能优化SCUReact更新机制keys的优化render函数被调用shouldComponentUpdatePureComponentshallowEqual方法高阶组件memo 获取DOM方式refs如何使用refref的类型 受控和非受控组件认识受控组件非受控组件 React的高阶组件认识高阶函数高阶组件的定义应用一 – pro…