更多银河麒麟操作系统产品及技术讨论,欢迎加入银河麒麟操作系统官方论坛
https://forum.kylinos.cn
了解更多银河麒麟操作系统全新产品,请点击访问
麒麟软件产品专区:https://product.kylinos.cn
开发者专区:https://developer.kylinos.cn
文档中心:https://document.kylinos.cn
服务器环境以及配置
【内核版本】
4.19.90-25.25.v2101.ky10.x86_64
【OS镜像版本】
银河麒麟高级服务器操作系统 v10 sp2 0524
【第三方软件】
Vastbase 数据库 G100 V2.2.10 PSU6
现象描述
虚拟机部署v10sp2系统,宿主机为欧拉定制系统。虚拟机运行Vastbase数据库软件,在03:10:04数据库执行了对表dwd_rq_jg_xjjl_all_delta_1824281295409119232(对应物理文件11747991)的删除操作,08:00:17数据库将数据写入表t_yh(对应物理文件11749618),在次日08点,读取表t_yh时异常。
经数据库厂商排查发现,文件的11749618的第5619个数据块中,存储了已经删除文件11747991的第8186个数据块的数据。同时明确在08:00:17前,有pwrite和fsync相关系统调用,且没有返回报错。cp操作11749618文件,同样也是包含了被删除的文件数据,认为存在数据丢失导致数据库应用异常的可能。
现象分析
日志分析
分析系统日志信息,在03:10:04执行删除操作,排查系统日志信息,未发现文件系统异常日志信息,如下图:
同时,排查08:00:17前后日志,均未发现文件系统异常日志信息,如下图:
截止到30日08左右访问该文件,期间均未发现文件系统异常日志信息,如下图:
xfs日志分析
获取了出现问题设备的xfs日志信息,最新的日志信息显示是次月29日的,
将mtime时间转化,0x67201014(16进制)= 1730154516(十进制)
使用在线时间转换工具,转换如下:
由于xfs文件系统日志区域是循环使用的,较早之前的日志均被覆盖了,未发现有效日志信息。
异常文件分析
针对故障文件11749618,使用xfs_bmap文件获取其在磁盘上的位置信息及inode信息如下:
以上,文件系统已经给文件11749618分配了磁盘空间,且inode对应元数据信息正常,crc校验正确。同时使用xfs_reapir -n对文件系统进行检查,没有文件系统损坏的报错。
其他信息排查
同时,重点排查了磁盘IO压力信息,内存使用情况,及CPU使用信息,分别如下:
均未发现异常信息。
宿主机日志排查
针对收集到的宿主机系统日志进行排查,未发现有效日志信息。需要请云平台厂商进一步分析排查是否存在数据丢失的问题。
分析结果
通过以上分析,在异常时间节点附近未发现异常日志信息,排除虚拟机操作系统存在异常导致丢数据的可能。同时由于虚拟机的数据存储过程涉及到宿主机及网络存储,不排除数据库存在故障,或云平台存储故障,导致数据丢失,还需数据库厂商及云平台厂商进一步排查。