记一次java进程频繁挂掉问题排查修复

前言

最近业务部门有个java服务进程会突然无缘无故的挂掉,然后这个服务会产生一堆类似hs_err_pid19287.log这样的日志。业务部门负责人就把hs_err_pidxxx的日志发给我,让我帮忙看下问题。本文就来回顾一下,我是如何帮业务部门进行问题排查

排查历程

首先hs_err_pidxxx的日志有提示如下内容

我就让业务部门那边配置下ulimit 。具体步骤如下

vim /etc/security/limits.conf# 在最后追加
* soft nofile 327680
* hard nofile 327680

不过业务部门负责人跟我反馈说,他们早就加过了,但是不管用。

接着继续分析hs_err_pidxxx的日志内容

看到新生代的内存出现100%,就问业务负责人说,你们是不是jvm内存设置比较小,结果得到的反馈是他们最近刚进行内存扩容,也进行了相应的jvm设置,内存肯定够,而且程序日志并没有oom的相关日志信息。

于是继续分析hs_err_pidxxx的日志内容,

看着大量的thread_blocked,感觉看到问题要被修复的曙光,于是跟业务负责人说,你们代码可能存在堵塞了,业务负责人说这个服务运行多年了,而且其他机子好好的,如果有这个问题,正常早就暴露出来了。

从这个hs_err_pidxxx日志,我能得到就这些信息。看着业务负责人的由期待再到眼神无光,我大大的感受他有一种所托非人的感觉。后面我跟他说,不然你jdk升级一个小版本,其实我只是试探,毕竟升级jdk,带来收益的时候,可能也带来风险,尤其在运行多年的项目上。没想到业务负责人回答说正有此意。

后面业务负责人就拿那台有问题机子进行jdk升级,事情就暂时告了一段落

问题后续

后来同部门的架构师在某次吃饭和我提起业务部门这个问题,我才发现业务部门升级jdk后,仍然没用。于是业务负责人找了部门的架构师进行求助。知道这个事后,我就主动去找业务部门负责人,问他问题解决没啊,得到他否定的答案后。

本着负责到底的心,我先向他们要来他们宿主机的messages日志。就是位于/var/log/messages。看到如下信息

里面日志有个abrt-server。这边科普一下。

什么是abrt-server

abrt是centos操作系统中的一个错误报告和跟踪工具。它可以自动收集应用程序和系统的错误信息,并生成错误报告。当系统发生错误时,abrt会收集相关的信息,如错误消息、堆栈跟踪、核心转储等。它会生成一个错误报告,包含了这些信息以及其他有用的调试信息。

它的记录保存在内核core文件,随着时间推移,core文件会不断变大,会占用磁盘空间。我们可以使用 abrt-cli list 确认core状态对应的进程及触发时间。并通过abrt-cli rm 【文件包】进行删除

示例:

abrt-cli rm /var/spool/abrt/oops-2022-09-27-14:22:55-13596-0

回归正题,我们通过/var/log/messages里面的内容

通过搜索资料,得知这个错误是因为无法创建ccpp文件导致。但这个是不是导致java进程频繁挂掉的原因,于是我们做了这么一步,将无法创建ccpp文件的时间点和生成的hs_err_pidxxx时间点做个对比

时间点基本上是吻合的,而且/var/log/messages里面还有一段

Executable '/usr/local/tomcat/jdk1.8.0_291/bin/java' doesn't belong to any package and ProcessUnpackaged is set to 'no'

后与业务负责人确认,这个jdk确实是目前这个业务所使用的jdk。综上基本上可以确定是因为无法创建ccpp文件导致,导致该业务的java进程频繁挂掉的原因之一

如何修复

方法一:将ProcessUnpackaged改为yes

这个参数的意思是表示ABRT将非rpm安装程序(如源代码包等)识别为未打包程序,会生成相关的警告和错误日志,因而会更好地抓住一些程序的 bug。如果为no,表示ABRT将不会跟踪和报告那些在未打包的应用程序中发生的崩溃信息,而只针对现有的软件包进行跟踪。因此,使用yes选项能够扩展 ABRT 的范围,提高异常程序的捕捉数量,但同时可能也会导致一些误报

sed -i 's/ProcessUnpackaged = no/ProcessUnpackaged = yes/g' /etc/abrt/abrt-action-save-package-data.conf&& systemctl restart abrtd.service

或者分步执行也可以

vim /etc/abrt/abrt-action-save-package-data.conf
ProcessUnpackaged = yes  
systemctl restart abrtd.service

不过这边还有个细节要注意,核心转储文件的默认最大大小为5000,我们可以按实际情况调整,也可以设置为0,为0表示核心转储文件的大小不作限制,不过设置为0有个风险点是可能会磁盘空间占满,因为core的文件正常比较大

可以通过如下配置,修改MaxCrashReportsSize参数

vim /etc/abrt/abrt.confMaxCrashReportsSize = 0   systemctl restart abrtd.service

或者执行如下命令

sed -i "s/MaxCrashReportsSize = 5000/MaxCrashReportsSize = 0/g"  /etc/abrt/abrt.conf && systemctl restart abrtd.service

方法二:禁用abrtd

abrt-hook-ccpp在进行执行崩溃转储操作时,使用的内存有可能会超过预期或系统能够提供的内存限制,导致影响其他应用程序。因此我们也可以直接执行如下命令,禁用abrtd

systemctl stop abrt-ccpp.service
systemctl disable abrt-ccpp.service
systemctl status abrt-ccpp.service

总结

执行了如上操作,业务部门观察了一段时间,没有再发现java进行频繁挂掉问题。

此外不管是容器化部署还是传统的宿主机部署,当出现问题时,没头绪时,我们可以通过查看/var/log底下的各种日志进行梳理。如下链接

https://www.cnblogs.com/deverz/p/8779357.html

是各种var/log的描述说明,感兴趣的小伙伴可以看看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/321713.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PyGame 文字显示问题及解决方法

在 Pygame 中显示文字时可能会遇到一些问题,例如文字显示不清晰、字体不正确或者文字位置不准确等。以下是一些常见的问题及其解决方法,具体情况可以看看情况。 1、问题背景 一位用户在使用 PyGame 库进行游戏开发时,遇到了一个问题&#xf…

Chromium编译指南2024 Windows11篇-GN 工具生成构建文件(六)

前言 在《Chromium编译指南2024(五)》我们已经获取了 Chromium 的源代码并且同步了相关的第三方依赖。 现在,我们将进一步学习如何使用 GN 工具生成构建文件,为后续的编译工作做好准备。 1. 使用gn工具生成构建文件 再次在Win…

第一个C++项目

文章目录 一、新建项目1.打开软件,选择“创建新项目”2.新建项目栏中,按自己的需求来设置项目模板,项目名称和文件存放位置,设置好后点击“确认”3. 点击“Next”4. 按照自己需求设置,设置完后,点击“Next”…

R语言【Tidyverse、Tidymodel】机器学习

机器学习已经成为继理论、实验和数值计算之后的科研“第四范式”,是发现新规律,总结和分析实验结果的利器。机器学习涉及的理论和方法繁多,编程相当复杂,一直是阻碍机器学习大范围应用的主要困难之一,由此诞生了Python…

《ESP8266通信指南》12-Lua 固件烧录

往期 《ESP8266通信指南》11-Lua开发环境配置-CSDN博客 《ESP8266通信指南》10-MQTT通信(Arduino开发)-CSDN博客 《ESP8266通信指南》9-TCP通信(Arudino开发)-CSDN博客 《ESP8266通信指南》8-连接WIFI(Arduino开发…

Python数据分析案例44——基于模态分解和深度学习的电负荷量预测(VMD+BiGRU+注意力)

案例背景 承接之前的案例,说要做模态分解加神经网络的模型的,前面纯神经网络的缝合模型参考数据分析案例41和数据分析案例42。 虽然我自己基于各种循环神经网络做时间序列的预测已经做烂了.....但是还是会有很多刚读研究生或者是别的领域过来的小白来问…

Java集合 总结篇(全)

Java集合 集合底层框架总结 List 代表的有序,可重复的集合。 ArrayList -- 数组 -- 把他想象成C中的Vector就可以,当数组空间不够的时候,会自动扩容。 -- 线程不安全 LinkedList -- 双向链表 -- 可以将他理解成一个链表,不支持…

广州工业冷风机在通风降温的优点

工业冷风机在通风降温方面具有一些显著的优点,以下是对其优点的分析: 优点: 高效降温:工业冷风机采用水蒸发原理,通过将热空气经过湿帘或水幕冷却,迅速降低空气温度,具有高效降温的特点。成本…

DCEP数字人民币:中国法定区块链中数字货币

一、背景 作为全球第二大经济体,中国在数字货币领域的发展一直备受关注。近年来,中国政府积极推动数字货币的研究和试点工作,逐步开放数字货币交易试点,并计划推出中国唯一合法数字货币——数字人民币(RMB Coin&#…

47.Redis学习笔记

小林coding -> 图解redis的学习笔记 文章目录 Rediswindwos安装docker安装redis启动redis使用RDM访问虚拟机中的redispython连接redis缓存穿透、击穿、雪崩基本数据类型高级数据类型高并发指标布隆过滤器分布式锁Redis 的有序集合底层为什么要用跳表,而不用平衡…

AI预警未来:山体滑坡与塌方事故的潜在发现者

在科技日新月异的今天,人工智能(AI)的应用已经渗透到了我们生活的各个领域。而在防灾减灾的领域中,AI技术的引入无疑为我们打开了一扇新的大门。以梅大高速大埔往福建方向K11900m附近发生的路面塌方灾害为例,我们不禁思…

C++ | Leetcode C++题解之第74题搜索二维矩阵

题目&#xff1a; 题解&#xff1a; class Solution { public:bool searchMatrix(vector<vector<int>>& matrix, int target) {int m matrix.size(), n matrix[0].size();int low 0, high m * n - 1;while (low < high) {int mid (high - low) / 2 l…

UART、TIMER

UART简介&#xff08;通用异步收发器&#xff0c;通常称串口&#xff09; UART&#xff0c;是一种串行、异步、全双工的通信协议&#xff0c;在嵌入式领域应用的非常广泛。 UART作为异步串行通信协议的一种&#xff0c;工作原理是将传输数据的每个二进制位一位接一位地传输。…

五一 大项目

Docker 中的 Nginx 服务为什么要启用 HTTPS 一安装容器 1 安装docker-20.10.17 2 安装所需的依赖 sudo yum install -y yum-utils device-mapper-persistent-data lvm23 添加Docker官方仓库 sudo yum-config-manager --add-repo https://download.docker.com/linux/centos…

言出身随!人情世故:利益交换与人脉的重要性——早读(逆天打工人爬取热门微信文章解读)

巴黎输了&#xff0c;看了比赛还得加班 引言Python 代码第一篇 洞见 认知越高的人&#xff0c;越懂得感恩第二篇 冯站长之家 2024年5月8日&#xff08;周三&#xff09;三分钟新闻早餐结尾 智慧赋予我决策的明灯 勇气则是我行动的盾牌 在细雨中骑行 是我以智慧选择的道路 用勇气…

富唯智能复合机器人:CNC铝块上下料安全新标准

在CNC铝块加工过程中&#xff0c;上下料环节的安全问题一直是企业关注的焦点。富唯智能复合机器人的应用&#xff0c;为这一环节树立了新的安全标准。 传统的上下料方式往往依赖于人工操作&#xff0c;存在着较大的安全隐患。而富唯智能复合机器人采用先进的视觉识别技术和精准…

前端如何设置div可滚动,且设置滚动条颜色

在前端中&#xff0c;设置 div 为可滚动并通过 CSS 自定义滚动条的颜色并不是所有浏览器都直接支持的功能&#xff0c;因为滚动条的样式在很大程度上取决于操作系统和浏览器的默认样式。然而&#xff0c;你可以使用某些 CSS 属性来尝试自定义滚动条的外观&#xff0c;这些属性在…

一分钟教你学浪app视频怎么缓存

你是否在学浪app上苦苦寻找如何缓存视频的方法&#xff1f;你是否想快速、轻松地观看自己喜欢的视频内容&#xff1f;那么&#xff0c;让我们一起探索一分钟教你如何缓存学浪app视频的技巧吧&#xff01; 学浪下载工具我已经打包好了&#xff0c;有需要的自己下载一下 学浪下…

OpenAI的搜索引擎要来了!

最近的报道和业界泄露信息显示&#xff0c;OpenAI正秘密研发一款新的搜索引擎&#xff0c;可能叫SearchGPT或Sonic&#xff0c;目标是挑战Google的搜索霸权。预计这款搜索引擎可能在5月9日即将到来的活动中正式亮相。 SearchGPT的蛛丝马迹 尽管OpenAI对SearchGPT尚未表态&…

如何在Hostease的Linux虚拟主机上永久移除WordPress网站

最近有遇到客户咨询如何移除Linux虚拟主机上的WordPress网站的&#xff0c; 因为原先的站点长时间不更新&#xff0c;被恶意篡改&#xff0c;跳转到了一个博彩网站上&#xff0c;本身网站也比较旧了&#xff0c;客户也不准备修复&#xff0c;准备重新建站。但是又怕移除不干净&…