MySQL 通过 systemd 启动时 hang 住了……

mysqld:哥,我起不来了……

作者:贲绍华,爱可生研发中心工程师,负责项目的需求与维护工作。其他身份:柯基铲屎官。

爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。

本文约 2100 字,预计阅读需要 7 分钟。

引言

正如题目所述,在自动化测试场景下,通过 systemd 无法启动 MySQL。

连续 kill -9 结束实例进程,检测 mysqld 在退出后是否会被正确拉起。

具体信息如下:

  1. 主机信息:CentOS 8(Docker 容器)
  2. 使用 systemd 的方式管理 mysqld 进程
  3. systemd service 的运行模式为:forking
  4. 启动命令如下:
# systemd 启动命令
sudo -S systemctl start mysqld_11690.service# systemd service 内的 ExecStart 启动命令
/opt/mysql/base/8.0.34/bin/mysqld --defaults-file=/opt/mysql/etc/11690/my.cnf --daemonize --pid-file=/opt/mysql/data/11690/mysqld.pid --user=actiontech-mysql --socket=/opt/mysql/data/11690/mysqld.sock --port=11690

现象描述

启动命令持续 hang 住,既不成功,也无任何返回,尝试几次后均无法手动复现该场景。

下图为复现场景,service 端口号不一致请忽略。

MySQL 错误日志无任何信息。查看 systemd service 状态,发现启动脚本中由于缺少参数 MAIN PID,执行失败。

systemd 最后输出的信息为:New main PID 31036 does not exist or is a zombie

原因总结

systemd 启动 mysqld 的过程中,会先根据 service 模板中的配置,执行:

  1. ExecStart(启动 mysqld
  2. mysqld 启动创建 pid 文件
  3. ExecStartPost(自定义的一些后置脚本:调整权限、将 pid 写入 cgroup 等)

步骤 2-3 的中间态,也就是 pid 文件刚创建出来时,主机上接收到了自动化测试下发的命令:sudo -S kill -9 $(cat /opt/mysql/data/11690/mysqld.pid)

由于这个 pid 文件和 pid 进程确实存在(如果不存在 kill 命令或 cat 会报错),自动化的 CASE 认为 kill 操作已成功结束。但由于 mysqld.pid 这个文件是由 MySQL 自身维护的,在 systemd 的视角中,还需要继续等待 步骤 3 完成,才认为启动成功。

systemd 使用 forking 模式时,会根据子进程的 PID 值判断服务是否成功启动。

如果子进程成功启动,并且没有发生意外退出,则 systemd 会认为服务已启动,并将子进程的 PID 作为 MAIN PID

而如果子进程启动失败或意外退出,则 systemd 会认为服务未能成功启动。

结论

在执行 ExecStartPost 时,由于子进程 ID 31036 已经被 kill 掉,后置 shell 缺少了启动参数,但 ExecStart 步骤已完成,导致 MAIN PID 31036 成为了只存在于 systemd 里的 僵尸进程

排查过程

当遇到这个问题时是有点懵的,简单检查了一下内存、磁盘基本信息。符合预期并没有出现资源不足的情况。

先从 MySQL 的 Error Log 看看有什么发现。查看结果如下:

...无关内容省略...
2024-02-05T05:08:42.538326+08:00 0 [Warning] [MY-010539] [Repl] Recovery from source pos 3943309 and file mysql-bin.000001 for channel ''. Previous relay log pos and relay log file had been set to 4, /opt/mysql/log/relaylog/11690/mysql-relay.000004 respectively.
2024-02-05T05:08:42.548513+08:00 0 [System] [MY-010931] [Server] /opt/mysql/base/8.0.34/bin/mysqld: ready for connections. Version: '8.0.34'  socket: '/opt/mysql/data/11690/mysqld.sock'  port: 11690  MySQL Community Server - GPL.
2024-02-05T05:08:42.548633+08:00 0 [System] [MY-013292] [Server] Admin interface ready for connections, address: '127.0.0.1'  port: 6114
2024-02-05T05:08:42.548620+08:00 5 [Note] [MY-010051] [Server] Event Scheduler: scheduler thread started with id 5

通过观察 Error Log 发现并无任何有用信息,因为启动的时间点之后无任何日志信息输出。

查看 systemctl status 确认服务当前状态:

下图为正常情况下的 status 信息:

通过对比后,整理两条有用信息:

  1. 后置 shell 由于缺少 -p 参数导致执行失败(-p 参数为 MAIN PID,也就是 fork 子进程启动后的 PID)。
  2. systemd 无法获取 PID 31036,不存在或者为僵尸进程。

先来检查进程 IDmysqld.pid 看看:

确认线索:

  1. PID 31036 不存在
  2. mysqld.pid 文件存在,且文件内容为 31036
  3. top 命令查看不存在僵尸进程

还需要获取更多的线索来确认原因,检查 journalctl -u 内容,看看是否有帮助:

sh-4.4# journalctl -u mysqld_11690.service
-- Logs begin at Mon 2024-02-05 04:00:35 CST, end at Mon 2024-02-05 17:08:01 CST. --
Feb 05 05:07:54 udp-11 systemd[1]: Starting MySQL Server...
Feb 05 05:07:56 udp-11 systemd[1]: Started MySQL Server.
Feb 05 05:08:31 udp-11 systemd[1]: mysqld_11690.service: Main process exited, code=killed, status=9/KILL
Feb 05 05:08:31 udp-11 systemd[1]: mysqld_11690.service: Failed with result 'signal'.
Feb 05 05:08:32 udp-11 systemd[1]: Starting MySQL Server...
Feb 05 05:08:36 udp-11 systemd[1]: Started MySQL Server.
Feb 05 05:08:37 udp-11 systemd[1]: mysqld_11690.service: Main process exited, code=killed, status=9/KILL
Feb 05 05:08:37 udp-11 systemd[1]: mysqld_11690.service: Failed with result 'signal'.
Feb 05 05:08:39 udp-11 systemd[1]: Starting MySQL Server...
Feb 05 05:08:42 udp-11 u_set_iops.sh[31507]: /etc/systemd/system/mysqld_11690.service.d/u_set_iops.sh: option requires an argument -- p
Feb 05 05:08:42 udp-11 systemd[1]: mysqld_11690.service: New main PID 31036 does not exist or is a zombie.

这里的 journalctl -u 内容也只描述了现象,无法分析具体原因,与 systemctl status 的内容相差不多,帮助不大。

查看 /var/log/messages 系统日志内容:

发现循环报出了一些内存方面的错误信息,通过搜索后发现该错误可能为硬件问题。询问了自动化测试的同事后,得到结论:

  1. 场景为偶发问题,执行 4 次用例,2 次成功,2 次失败
  2. 每次执行均为同一台宿主机,同一份容器镜像
  3. 失败时 hang 住的容器为同一个

既然有成功执行的结果,这里就先忽略硬件问题导致的。

既然提到了容器,此时想到了 cgroup 会不会映射宿主机的时候出现了问题?在上边排查的 systemctl status 中,观察可知 cgroup 映射的宿主机目录为:CGroup: /docker/3a72b2cdc7bd9beb1c7b2abec24763046604602a38f0fcb7406d17f5d33353d2/system.slice/mysqld_11690.service

检查父级文件夹 system.slice 的读写权限并无异常。先暂时排除 cgroup 的映射问题(因为主机上还有其他 systemd 接管的 service 也在使用同一份 cgroup)。

打算试试 pstack 能不能看到 systemd 具体 hang 在了哪个地方,3048143systemctl startpid

sh-4.4# pstack 3048143
#0  0x00007fdfaef33ade in ppoll () from /lib64/libc.so.6
#1  0x00007fdfaf7768ee in bus_poll () from /usr/lib/systemd/libsystemd-shared-239.so
#2  0x00007fdfaf6a8f3d in bus_wait_for_jobs () from /usr/lib/systemd/libsystemd-shared-239.so
#3  0x000055b4c2d59b2e in start_unit ()
#4  0x00007fdfaf7457e3 in dispatch_verb () from /usr/lib/systemd/libsystemd-shared-239.so
#5  0x000055b4c2d4c2b4 in main ()

观察发现 start_unit 比较可疑,start_unit() 函数位于可执行文件中,它用于启动 systemd units,并没有什么帮助。

根据已有线索,推测后可知:

  1. mysqld.pid 文件存在,则表示之前确实有一个 mysqld 且进程号为 31036 的进程被启动了
  2. 进程启动后被自动化用例 kill -9 结束掉
  3. systemd 获取到了一个已经被结束的 MAIN PID,后置 shell 执行失败,fork 流程失败

通过梳理 systemd 启动流程的步骤,推测可能性。MySQL 实例只有在 mysqld 成功启动后才会生成 mysqld.pid 文件,所以可能是在后续步骤里被意外 kill -9 结束掉导致的。

复现方式

既然没什么其他头绪和线索了,打算根据推测结论尝试复现一下试试。

4.1 调整 systemd mysql serivce 模板

编辑模板文件 /etc/systemd/system/mysqld_11690.service,在 mysqld 启动后,sleep10 秒,方便在这时间窗口内模拟kill掉实例进程的场景。

4.2 配置重载

执行 systemctl daemon-reload 令变更生效。

4.3 场景重现

  1. [ssh seesion A] 首先准备一个新的容器,做好相关配置后执行 sudo -S systemctl start mysqld_11690.service 启动一个 mysqld 进程,此时会因为 sleep 的原因 hang 住会话。
  2. [ssh seesion B] 在另一个会话窗口,start 命令 hang 住时,检查 mysqld.pid 文件,一旦文件被创建后,立刻执行 sudo -S kill -9 $(cat /opt/mysql/data/11690/mysqld.pid)
  3. 此时观察 systemctl status,表现与预期一致

解决方式

kill 掉 hang 住的 systemctl start 命令,执行 systemctl stop mysqld_11690.service,这可以让 systemd 主动结束僵尸进程,虽然 stop 命令可能会报错但这并不影响。

等待 stop 执行完成后再次使用 start 命令启动,恢复正常。

更多技术文章,请访问:https://opensource.actionsky.com/

关于 SQLE

SQLE 是一款全方位的 SQL 质量管理平台,覆盖开发至生产环境的 SQL 审核和管理。支持主流的开源、商业、国产数据库,为开发和运维提供流程自动化能力,提升上线效率,提高数据质量。

SQLE 获取

类型地址
版本库https://github.com/actiontech/sqle
文档https://actiontech.github.io/sqle-docs/
发布信息https://github.com/actiontech/sqle/releases
数据审核插件开发文档https://actiontech.github.io/sqle-docs/docs/dev-manual/plugins/howtouse

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/326463.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Docker学习】重启容器的docker restart

命令: docker container restart 描述: 重启一个或多个容器 用法: docker container restart [OPTIONS] CONTAINER [CONTAINER...] 别名: docker restart(docker的一些命令可以简写,docker restart就等同于docker cont…

SQLZOO:The JOIN operation

数据表:game-gaol-eteam game idmdatestadiumteam1team210018 June 2012National Stadium, WarsawPOLGRE10028 June 2012Stadion Miejski (Wroclaw)RUSCZE100312 June 2012Stadion Miejski (Wroclaw)GRECZE100412 June 2012National Stadium, WarsawPOLRUS... goal …

UE4_照亮环境_不同雾效的动态切换

一、问题及思路: 我们在一个地图上,经常切换不同的区域,不同的区域可能需要不同的色调,例如暖色调的野外或者幽暗的山洞,这两种环境上,雾效的选用肯定不一样,夕阳西下的户外用的就是偏暖的色调&…

【小白的大模型之路】基础篇:Transformer细节

基础篇:Transformer 引言模型基础架构原论文架构图EmbeddingPostional EncodingMulti-Head AttentionLayerNormEncoderDecoder其他 引言 此文作者本身对transformer有一些基础的了解,此处主要用于记录一些关于transformer模型的细节部分用于进一步理解其具体的实现机…

LeetCode_栈和队列相关OJ题目

✨✨所属专栏:LeetCode刷题专栏✨✨ ✨✨作者主页:嶔某✨✨ 上一篇:数据结构_栈和队列(Stack & Queue)-CSDN博客 有效的括号 解析: 这里我们用数组实现的栈来解决这个问题,在有了栈的几个基础接口之后,我们运用这…

【Chrome实用命令笔记】

文章目录 Chrome实用命令笔记1、chrome基本介绍2. 打开开发者工具(DevTools)方法一:快捷键方法二:右键菜单方法三:浏览器设置 2. 开发者工具面板Elements面板Console面板Sources面板Network面板Performance面板Memory面…

(done) Beam search

参考视频1:https://www.bilibili.com/video/BV1Gs421N7S1/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c7355c5490fc600 (beam search 视频) 参考博客1:https://jasonhhao.github.io/2020/06/19/…

Springboot项目如何创建单元测试

文章目录 目录 文章目录 前言 一、SpringBoot单元测试的使用 1.1 引入依赖 1.2 创建单元测试类 二、Spring Boot使用Mockito进行单元测试 2.1 Mockito中经常使用的注解以及注解的作用 2.2 使用Mockito测试类中的方法 2.3 使用Mockito测试Controller层的方法 2.4 mock…

通过 Java 操作 redis -- list 列表基本命令

目录 使用命令 lpush,lrange,rpush 使用命令 lpop 和 rpop 使用命令 blpop,brpop 使用命令 llen 关于 redis list 列表类型的相关命令推荐看Redis - list 列表 要想通过 Java 操作 redis,首先要连接上 redis 服务器&#xff…

电信网关配置管理系统 rewrite.php 文件上传致RCE漏洞复现

0x01 产品简介 中国电信集团有限公司(英文名称“China Telecom”、简称“中国电信”)成立于2000年9月,是中国特大型国有通信企业、上海世博会全球合作伙伴。电信网关配置管理系统是一个用于管理和配置电信网络中网关设备的软件系统。它可以帮助网络管理员实现对网关设备的远…

【Android】源码解析Activity的结构分析

源码解析Activity的结构分析 目录 1、Activity、View、Window有什么关联?2、Activity的结构构建流程3 源码解析Activity的构成 3.1 Activity的Attach方法3.2 Activity的OnCreate 4、WindowManager与View的关系总结 1、一个Activity对应几个WindowManage&#xff0…

【MySQL数据库开发设计规范】之字段设计规范

欢迎点开这篇文章,自我介绍一下哈,本人姑苏老陈 ,是一名JAVA开发老兵。 本文收录于 《MySQL数据库开发设计规范》专栏中,该专栏主要分享一些关于MySQL数据库开发设计相关的技术规范文章,定期更新,欢迎关注&…

【C++】string类的使用④(字符串操作String operations || 常量成员Member constants)

🔥个人主页: Forcible Bug Maker 🔥专栏: STL || C 目录 前言🔥字符串操作(String operations)c_strdataget_allocatorcopyfindrfindfind_first_offind_last_offind_first_not_offind_last_not…

Dockerfile实践java项目

目的:用java项目测试dockerfil部署(前提是安装好了docker) 部署准备文件如下 1. java项目 java项目demo地址 https://gitee.com/xiaoqu_12/dockerfileDemo.git 或者百度网盘直接下载打包好的jar包 链接:https://pan.baidu.com/s/…

ES扩缩容

ES扩容 1.1 页面扩容ES1 1.2 拷贝插件及ssl文件 JSON [ec_admin@kde-offline3 ~]$ sudo rsync -avP /usr/kde_ec/2.3.6.6-1/elasticsearch1/plugins/* kde-offline6:/usr/kde_ec/2.3.6.6-1/elasticsearch1/plugins/ ;echo $? [ec_admin@kde-offline3 ~]$ sudo rsync -avP /us…

JavaScript 进阶(一)

一、作用域 1. 局部作用域 (1)函数作用域 、 (2)块作用域 2. 全局作用域 3. 作用域链 g 作用域可以访问 f 作用域(子访问父),但是 f 作用域,不能访问 g 作用域(父…

内容与图像一对多问题解决

场景复现 分析: 其实这是两给表,一个内容表,一个图片表,一对多的关系。 解决思路: 1. 先上传图片拿到图片的List集合ids,返回值是集合的ids,给到前端 2. 再添加内容表的数据生成了id,遍历查…

工程师工具箱系列(3)Arthas

文章目录 工程师工具箱系列(3)Arthas安装与准备Arthas插件使用场景查看某个变量值ognl方式调用Bean方法tt(TimeTunel)方式调用Bean的方法ognl调用带参数方法 资源总览 工程师工具箱系列(3)Arthas Java诊断利器 安装与准备 window…

强化学习——马尔可夫过程的理解

目录 一、马尔可夫过程1.随机过程2.马尔可夫性质3.马尔可夫过程4.马尔可夫过程示例 参考文献 一、马尔可夫过程 1.随机过程 随机过程是概率论的“动态”版本。普通概率论研究的是固定不变的随机现象,而随机过程则专注于那些随时间不断变化的情况,比如天…

M 有效算法

M 有效算法 本题考验二分知识&#xff0c;思路是二分k的取值&#xff0c;就按第一组样例来说当我们k取值为1的时候我们遍历数组想让|8-x|<k1的话x的取值范围是7-9&#xff0c;想让|3-x|<k2的话x的取值范围是1-5&#xff0c;两者x的区间不重合&#xff0c;说明肯定没有x能…