java.net.SocketInputStream.socketRead0 卡死导致 tomcat 线程池打满的问题

0 TL;DR;

  • 问题与原因:某些特定条件下 java.net.SocketInputStream.socketRead0 方法会卡死,导致运行线程一直被占用导致泄露
  • 采用的方案:使用监控线程异步监控卡死事件,如果发生直接关闭网络连接释放链接以及对应的线程

1. 问题

一个服务 tomcat 线程池线程总是不释放,之前只能靠重启服务缓解
(这个服务的作用是对第三方网站做一个类似于适配器模式的封装,简单的说就是请求打到该服务,该服务请求第三方网站,将数据组织成需要的格式返回,是整个爬虫系统的一个环节)
在这里插入图片描述

2. 定位

jstack 导出 stack.info,观察这些卡死的 tomcat 线程在做什么

第一类状态如下,这种状态是 tomcat 空闲线程,状态是 TIMED_WAITING 在等待新任务到来进行处理

"http-nio-8080-exec-1810" #16955528 daemon prio=5 os_prio=0 tid=0x00007f2de4707000 nid=0x239136 waiting on condition [0x00007f2700887000]java.lang.Thread.State: TIMED_WAITING (parking)at sun.misc.Unsafe.park(Native Method)- parking to wait for  <0x00000001c31000e0> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)at java.util.concurrent.locks.LockSupport.parkNanos(LockSupport.java:215)at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.awaitNanos(AbstractQueuedSynchronizer.java:2078)at java.util.concurrent.LinkedBlockingQueue.poll(LinkedBlockingQueue.java:467)at org.apache.tomcat.util.threads.TaskQueue.poll(TaskQueue.java:89)at org.apache.tomcat.util.threads.TaskQueue.poll(TaskQueue.java:33)at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:1073)at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1134)at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)at org.apache.tomcat.util.threads.TaskThread$WrappingRunnable.run(TaskThread.java:61)at java.lang.Thread.run(Thread.java:750)

第二类状态如下,这种状态是 tomcat 在执行某项工作,状态是 RUNNALBE

如果反复观察某些特定的线程状态(例如这里的 http-nio-8080-exec-1811)通过 State 是否会改变以及业务日志是否卡在某个位置之后不动了,基本就可以定位哪些线程出了问题

"http-nio-8080-exec-1811" #16955529 daemon prio=5 os_prio=0 tid=0x00007f2de4709000 nid=0x239137 runnable [0x00007f2700784000]java.lang.Thread.State: RUNNABLEat java.net.SocketInputStream.socketRead0(Native Method)at java.net.SocketInputStream.socketRead(SocketInputStream.java:116)at java.net.SocketInputStream.read(SocketInputStream.java:171)at java.net.SocketInputStream.read(SocketInputStream.java:141)at org.apache.http.impl.io.SessionInputBufferImpl.streamRead(SessionInputBufferImpl.java:137)at org.apache.http.impl.io.SessionInputBufferImpl.fillBuffer(SessionInputBufferImpl.java:153)at org.apache.http.impl.io.SessionInputBufferImpl.readLine(SessionInputBufferImpl.java:280)at org.apache.http.impl.conn.DefaultHttpResponseParser.parseHead(DefaultHttpResponseParser.java:138)at org.apache.http.impl.conn.DefaultHttpResponseParser.parseHead(DefaultHttpResponseParser.java:56)at org.apache.http.impl.io.AbstractMessageParser.parse(AbstractMessageParser.java:259)at org.apache.http.impl.DefaultBHttpClientConnection.receiveResponseHeader(DefaultBHttpClientConnection.java:163)at org.apache.http.impl.conn.CPoolProxy.receiveResponseHeader(CPoolProxy.java:157)at org.apache.http.protocol.HttpRequestExecutor.doReceiveResponse(HttpRequestExecutor.java:273)at org.apache.http.protocol.HttpRequestExecutor.execute(HttpRequestExecutor.java:125)at org.apache.http.impl.execchain.MainClientExec.createTunnelToTarget(MainClientExec.java:485)at org.apache.http.impl.execchain.MainClientExec.establishRoute(MainClientExec.java:410)at org.apache.http.impl.execchain.MainClientExec.execute(MainClientExec.java:236)at org.apache.http.impl.execchain.ProtocolExec.execute(ProtocolExec.java:186)at org.apache.http.impl.execchain.RetryExec.execute(RetryExec.java:89)at org.apache.http.impl.execchain.RedirectExec.execute(RedirectExec.java:110)at org.apache.http.impl.client.InternalHttpClient.doExecute(InternalHttpClient.java:185)at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:83)at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:108)
... (省略)

最终发现,线程卡在了 java.net.SocketInputStream.socketRead0(Native Method),那么其含义是什么呢?

3. 原因与方案

参考如下文章:https://medium.com/tier1app-com/threads-stuck-in-java-net-socketinputstream-socketread0-d0a2183b4a1c

可以想象你给一个人打电话的场景,她接了电话但是有的时候并没有说话,而是你在等待她说话。那么从电话打通到电话挂断,你等待她说话的时间基本都是 socketRead0() API 在做的事情

由于这是一个底层的方法,所以很多应用都会用到这个方法。当你的应用一直无法读取到完整的数据时,就会看起来卡在了 socketRead0() 这个方法上

那么这个问题该如何解决呢,面的参考资料提供了一些方案,我还参考了另外一部分可行方案方案(来自:https://stackoverflow.com/questions/28785085/how-to-prevent-hangs-on-socketinputstream-socketread0-in-java),汇总如下

3.1 设置合适的参数

jvm 参数:

  • Dsun.net.client.defaultConnectTimeout
  • Dsun.net.client.defaultReadTimeout

代码层面的层参数

  • setSoTimeout
  • setStaleConnectionCheckEnabled(用于清理长时间占用的链接,已经过时废弃,目前直接默认开启的)

备注:有人指出,这是 JVM 在 Linux 上实现阻塞套接字超时存在 bug,poll 或者 select 可能会错误的通知数据可用的消息,这时除非服务器断开连接,否则将无限期的等待下去。而这种情况无法通过简单的参数设置,解决该问题。

3.2 网络或者服务侧的问题

有的时候可能是因为网络设施、负载均衡或者对方服务本身的问题,导致这一现象,这时应该用一些网络抓包工具(例如 Wireshark)发现并解决这些问题

由于我的服务本身是请求第三方网站,该方案并没有什么帮助

3.3 将网络客户端由阻塞替换为非阻塞客户端

可以使用 Grizzly 或者 Netty 客户端,来替换原有的 http 客户端(我是用的是 httpclient),但这通常涉及到整体系统的重构和测试,代码改动量过大

3.4 单独启动线程检测处理超时,如果超时就想办法中断处理流程

这是一个虽然丑陋但是可靠的方案,也是我所采用的方案。逻辑简单,增加监控线程,处理那些卡死的线程。

4. 示例代码

逻辑是每次请求之前调用 addToWatch 方法异步的监控是否在合理的时间范围内 HttpClient 已经关闭了

如果超过了超时时间,就直接关闭 HttpClient,这样原本处于等待状态的 java.net.SocketInputStream.socketRead0 会接收到中断而终止(这个中断消息是我猜的,但是实际来看是有效的)


@Slf4j
public class HttpClientWatcher {private static final ThreadPoolExecutor WATCH_THREAD_POOL = new ThreadPoolExecutor(20, 50, 1000L, TimeUnit.MILLISECONDS,new LinkedBlockingQueue<>(10000),new ThreadPoolExecutor.DiscardPolicy());@Data@Builderstatic class CloseableHttpClientWrapper {private CloseableHttpClient httpClient;@SuppressWarnings("UnusedAssignment")private volatile boolean closed = false;}public static void addToWatch(CloseableHttpClientWrapper wrapper, int timeoutMillis) {if (wrapper == null || wrapper.getHttpClient() == null || wrapper.isClosed()) {return;}WATCH_THREAD_POOL.execute(() -> watch(wrapper, timeoutMillis));// 打印线程池状态,用来调整线程池参数log.info("In addToWatch, activeCount: {}, poolSize: {}, queueSize: {}", WATCH_THREAD_POOL.getActiveCount(),WATCH_THREAD_POOL.getPoolSize(), WATCH_THREAD_POOL.getQueue().size());}public static void watch(CloseableHttpClientWrapper wrapper, int timeoutMillis) {final long timeoutTimestamp = System.currentTimeMillis() + Math.min(10L * timeoutMillis, 10 * 60 * 1000L);while (System.currentTimeMillis() < timeoutTimestamp) {if (wrapper.isClosed()) {return;}ThreadUtil.sleep(50, TimeUnit.MILLISECONDS);}// 这里单独判断一次,是因为担心在 sleep 的时候,httpClient 已经被关闭了if (wrapper.isClosed()) {return;}// 超时尝试关闭try {wrapper.getHttpClient().close();} catch (Exception e) {log.error("关闭HttpClient失败", e);}}}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/323469.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Burp Suite 抓包,浏览器提示有软件正在阻止Firefox安全地连接到此网站

问题现象 有软件正在阻止Firefox安全地连接到此网站 解决办法 没有安装证书&#xff0c;在浏览器里面安装bp的证书就可以了 参考&#xff1a;教程合集 《H01-启动和激活Burp.docx》——第5步

WhisperCLI-本地部署语音识别系统;Mis开源LLM推理平台;Dokploy-开源版Vercel;Mem-大规模知识图谱

1. Whisper-cli&#xff1a;可本地部署的开源语音识别系统 近日&#xff0c;Ruff的开发团队发布了一款名为Whisper cpp cli的全新语音识别系统&#xff0c;该系统已在GitHub Repo上开源。这是一款完全自主研发的语音转文字系统&#xff0c;基于Whisper技术构建。Ruff团队一直以…

Istio基础知识

一、什么是Istio Istio 提供⼀种简单的⽅式来为已部署的服务建⽴⽹络&#xff0c;该⽹络具有 负载均衡、服务间认证、监控等功能&#xff0c;只需要对服务的代码进⾏⼀点或不需要做任何改动。想要让服务⽀持 Istio&#xff0c;只需要在您的环境中部署⼀个特殊的 sidecar 代 理&…

netsh命令

netsh是本地或远程计算机Windows 2000网络组件的命令行和脚本实用程序。为了存档或配置其他服务器&#xff0c;netsh实用程序也可将配置脚本保存在文本文件中。netsh实用程序是一个外壳&#xff0c;通过附加的“netsh帮助DLL”可支持多个Windows 2000组件。 有两种方式可以运行…

从 Servlet 到 DispatcherServlet(SpringMvc 容器的创建)

DispatcherServlet 的继承体系 SpringMvc 是一个具有 Spring 容器&#xff08;ApplicationContext&#xff09;的 Servlet。其中&#xff0c;HttpServlet 属于 JDK 的内容&#xff0c;从 HttpServletBean 开始&#xff0c;便属于 Spring 体系中的内容。 HttpServletBean&…

unity制作app(5)--发送数据给数据库

这个之前做过&#xff0c;先不做照片的。下一节再做带照片的。 第一步 收集数据 1.先做一个AppModel结构体&#xff0c;这个结构体需要单做的。 using System; using System.Collections.Generic; using System.Linq; using System.Text; //using Assets.Model; public clas…

Unity 性能优化之GPU Instancing(五)

提示&#xff1a;仅供参考&#xff0c;有误之处&#xff0c;麻烦大佬指出&#xff0c;不胜感激&#xff01; 文章目录 前言一、GPU Instancing使用方法二、使用GPU Instancing的条件三、GPU Instancing弊端四、注意五、检查是否成功总结 前言 GPU Instancing也是一种Draw call…

探索C++的string:从基础到深入

文章目录 string类string类的接口string的常见构造string类对象的容量操作string类的遍历及访问操作string类对象的修改操作string类的非成员函数 总结 string类 C中的string类是一个非常重要的字符串处理工具&#xff0c;它提供了一种方便且灵活的方式来处理字符串。它位于标…

影响视频视觉质量的因素——各类视觉伪影

模糊效应&#xff08;Blurring Artifact&#xff09; 图像模糊&#xff08;blurring&#xff09;&#xff1a;平滑图像的细节和边缘产生的现象&#xff0c;模糊对于图像来说&#xff0c;是一个低通滤波器&#xff08;low-pass filter&#xff09;。一般而言&#xff0c;用户更…

炒美股怎么开户?

近年来&#xff0c;随着国内投资者对境外投资需求的不断增长&#xff0c;炒美股逐渐成为许多投资者的选择。然而&#xff0c;随着监管政策的不断完善&#xff0c;传统的互联网券商开户方式已经不再适用。那么&#xff0c;对于想要入场美股市场的投资者来说&#xff0c;该如何开…

2. Linux 基本指令(上)|ls|pwd|cd|tree|touch|mkdir|rmdir|rm

前言 计算机软硬件体系结构 层状结构应用软件Word&#xff0c;Matlab操作系统Windows&#xff0c;Linux设备驱动声卡驱动硬件CPU&#xff0c;内存&#xff0c;磁盘&#xff0c;显示器&#xff0c;键盘 操作系统概念 操作系统 是一款进行软硬件资源管理的软件 例子 比如在学…

vue2实现右键菜单功能——vue-diy-rightmenu——基础积累

五一之前遇到一个需求&#xff0c;就是关于要实现自定义右键菜单的功能&#xff0c;普通的右键展示的菜单有【返回/前进/重新加载/另存为】等&#xff0c;希望实现的效果就是右键出现自定义的菜单&#xff0c;比如【编辑/删除/新增】等。 遇到这种的需求&#xff0c;可以直接去…

光伏设备制造5G智能工厂数字孪生可视化平台,推进行业数字化转型

光伏设备制造5G智能工厂数字孪生可视化平台&#xff0c;推进行业数字化转型。光伏设备制造5G智能工厂数字孪生可视化平台是光伏行业数字化转型的重要一环。通过数字孪生平台&#xff0c;光伏设备制造企业可以实现对生产过程的全面监控和智能管理&#xff0c;提高生产效率&#…

C++ | Leetcode C++题解之第77题组合

题目&#xff1a; 题解&#xff1a; class Solution { public:vector<int> temp;vector<vector<int>> ans;vector<vector<int>> combine(int n, int k) {// 初始化// 将 temp 中 [0, k - 1] 每个位置 i 设置为 i 1&#xff0c;即 [0, k - 1] 存…

软件测试行业的变革与自我成长

随着科技的不断进步和市场的快速变化&#xff0c;软件测试行业也迎来了前所未有的变革。近期&#xff0c;一些大型互联网公司如阿里Lazada、字节跳动等纷纷宣布裁员计划&#xff0c;让不少软件测试从业者感受到了前所未有的压力与焦虑。面对这样的行业现状&#xff0c;我们不禁…

1707jsp电影视频网站系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 校园商城派送系统 是一套完善的web设计系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统采用web模式&#xff0c;系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发&#xff0c;数…

Web安全研究(七)

NDSS 2023 开源地址&#xff1a;https://github.com/bfpmeasurementgithub/browser-fingeprint-measurement 霍普金斯大学 文章结构 introbackground threat model measurement methodology step1: traffic analysisstep2: fingerprint analysis dataset attack statisticsbro…

当CV遇上transformer(二)MAE模型及源码分析

当CV遇上transformer(二)MAE模型 2020年10月&#xff0c;Dosovitskiy首次将纯Transformer的网络结构应用于图像分类任务中(ViT)&#xff0c;并取得了当时最优的分类效果&#xff0c;其研究成果是Transformer完全替代标准卷积的首次尝试。大神何恺明在2021年11月基于(ViT)架构&…

单单单单单の刁队列

在数据结构的学习中&#xff0c;队列是一种常用的线性数据结构&#xff0c;它遵循先进先出&#xff08;FIFO&#xff09;的原则。而单调队列是队列的一种变体&#xff0c;它在特定条件下保证了队列中的元素具有某种单调性质&#xff0c;例如单调递增或单调递减。单调队列在处理…

AWS Lambda 第一个例子Hello (JAVA)

什么是Serverless&#xff08;无服务器计算&#xff09; 行业通常所说的Serverless&#xff0c;主要是指“无服务器计算&#xff08;Serverless Computing&#xff09;”。无服务器计算&#xff0c;并不是真的不需要服务器&#xff0c;而是说&#xff0c;对于用户&#xff0c;…