一次 Netty 不健壮导致的无限重连分析

由于 OOM 导致不健壮的 Netty 一系列诡异的行为,这次的问题分析会比上次那个更有意思一点。(备注:本文 Netty 版本是上古时代的 3.7.0.Final)

现象描述

开发的同学反馈 dubbo 客户端无法调用远程的服务,抓包来看,客户端一直在建连,每次建连成功 3 秒以后就主动断开连接。

这个现象就很奇怪了,默认情况下 dubbo 消费端对属于同一个 provider 的不同 service 只会共享一条 tcp 连接进行通信,此处就是为了跟 provider 端建立这个连接。

为什么这里三次握手成功以后会断开连接呢?这个现象其实挺诡异的,于是想到用 strace 看一下背后到底发生了什么。

strace -f -T -p 238289 -o strace-new.238289.out

在 strace 中找 connect 相关的调用,根据线程号过滤对应的日志,可以看到发生了哪些系统调用:

一开始就创建一个 socket,将该套接字设置为非阻塞,随后调用 connect 发起建立,因为是非阻塞套接字,connect 这里不阻塞直接返回 -1,随后开始等待 3s,如果 3s 内没有能建立成功,futex 超时退出。

但是这个跟抓包的行为就不一致了,从包上看,duboo 服务端有回复 SYN+ACK,但是 java 应用认为我没有收到,3s 超时。

同时,这里整个 strace 日志中没有看到对应 fd 相关 epoll_ctl 调用,也就是没有人把这个 fd 加入到 epoll 的事件监听中。

正常来说,我们的一个非阻塞的 connect 编程是这样的。(以下代码来自 ChatGPT,错了别赖我)

// 设置 socket 为非阻塞模式
int set_nonblocking(int fd) {// 省略
}// 连接服务器
int connect_to_server(const char *hostname, int port) {int sockfd;struct sockaddr_in serv_addr;struct hostent *server;// 创建 socketsockfd = socket(AF_INET, SOCK_STREAM, 0);// 设置 socket 为非阻塞模式set_nonblocking(sockfd)// 尝试连接服务器if (connect(sockfd, (struct sockaddr *) &serv_addr, sizeof(serv_addr)) < 0) {if (errno != EINPROGRESS) { // 非阻塞下会返回这个错误码return -1;}}return sockfd;
}// 使用 epoll 监听 socket 连接的状态
int wait_for_connection(int sockfd) {int epfd, nfds;struct epoll_event ev, events[1];// 创建 epoll 实例epfd = epoll_create(1);// 将 socket 添加到 epoll 的事件监听集合中memset(&ev, 0, sizeof(ev));ev.events = EPOLLOUT | EPOLLET;ev.data.fd = sockfd;if (epoll_ctl(epfd, EPOLL_CTL_ADD, sockfd, &ev) < 0) {return -1;}// 监听事件for (;;) {nfds = epoll_wait(epfd, events, 1, -1);if (nfds == -1) {return -1;}// 检查连接是否成功if (events[0].events & EPOLLOUT) {return sockfd;}}return -1;
}int main(int argc, char *argv[]) {const char *hostname = "localhost";int port = 8080;// 创建并连接到服务器int sockfd = connect_to_server(hostname, port);if (sockfd < 0) {return 1;}// 使用 epoll 监听 socket 连接的状态sockfd = wait_for_connection(sockfd);if (sockfd < 0) {return 1;}// 连接成功,在这里执行你想要的操作
printf("Connection established!\n");// 关闭 socket
close(sockfd);return 0;
}

目前的思路大概就清楚了:没有人调用 epoll 相关的函数去注册事件,导致内核收到 SYN+ACK 包以后,没有程序感兴趣去处理。

为什么没有向 epoll 注册事件

上面是建连是 Dubbo 的重连线程来实现的,重连线程的主要作用是检测和管理网络连接的状态,如果发现连接断开或异常,就会尝试重新建立连接。先来看一下重连线程做了什么,重连线程的创建位于 com.alibaba.dubbo.remoting.transport.AbstractClient类中。

Dubbo 内部用 ScheduledThreadPoolExecutor 线程池运行 reconnect 线程。 这个重连线程会调用 com.alibaba.dubbo.remoting.transport.netty.NettyClient.doConnect 发起建连。

ClientBootstrap.connect 不会直接为 channel 注册事件,而是生成了一个 RegisterTask 放入了 NioClientBoss 的 taskQueue 中,等待被处理。

通过注入 stack java.util.concurrent.ConcurrentLinkedQueue offer -n 1 就可以发现,确实如此。

如果 RegisterTask 的 run 方法被执行时,才是真正的注册事件。

现在可以推断出 RegisterTask 的 run 没有被调用。

继续看 taskqueue 是如何消费的,就知道 run 为什么没有被执行了。这个队列是在 org.jboss.netty.channel.socket.nio.AbstractNioSelector#processTaskQueue 中消费的

这个方法是被 org.jboss.netty.channel.socket.nio.AbstractNioSelector#run 调用的,实际是实现类 org.jboss.netty.channel.socket.nio.NioClientBoss,这个类也是一个 runnable,启动后生成一个名为 New I/O boss #N 的线程,内部是一个无限循环消费 taskqueue 以及处理就绪事件。

下一步就是进一步确认 taskqueue 是不是确实没有消费,这个可以通过 dump 内存的方式来验证,看看 taskqueue 里面的数据有没有变化。

这下实锤了,接下来去 dump 线程堆栈,看看 New I/O boss 线程还在不在。

通过 jstack 对比确认,无限重连的服务确实没有 New I/O boss 线程。

结合服务在半夜定时任务时堆内存 OOM 的日志,可以合理怀疑因为 OOM 导致 New I/O boss 线程退出,没有能继续执行 run 方法消费队列,导致非阻塞建连 connect 以后没有用 epoll_ctl 注册感兴趣事件。

通过分析,run 方法是有捕获 Throwable 异常的,如果有 OutOfMemoryError 会进入 catch 中,理论上线程不会挂掉。但是好死不死 catch 块还有逻辑,有 logger 去打印 warn 日志,这里如果再次抛出 OutOfMemoryError,那就凉凉。

如何修改

  1. 优化代码,杜绝 OOM
  2. 完善 Netty 对 OOM 的处理逻辑,核心线程退出以后重建
  3. 升版本。。。

后记

只要能复现的基本上都可以被解决,稳定复现的那就更容易了。这个问题出现的概率比上次那个大量 CLOSE_WAIT 情况更低,但是好在开发的同学没改 bug,昨天又出现了。

Dubbo 版本真难升啊,不好用。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29518.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

G2SAT: Learning to Generate SAT Formulas论文精读

0. Abstract SAT&#xff08;布尔可满足&#xff09;问题被证明是一个经典的np完全问题&#xff0c;作为一个计算机科学的基本问题&#xff0c;在决策、验证和理论证明等很多方面都有应用。目前的SAT求解器的开发和评估依赖于现有的有限的现实问题&#xff0c;且现有的手工制作…

【论文精读】A Survey on Knowledge Graphs Representation, Acquisition and Applications

A Survey on Knowledge Graphs Representation, Acquisition and Applications 前言Abstract1. INTRODUCTIONII. OVERVIEWA. A Brief History of Knowledge BasesB. Definitions and NotationsC. Categorization of Research on Knowledge GraphD. Related Surveys III. KNOWLE…

SharpContour论文精读

SharpContour: A Contour-based Boundary Refinement Approach for Efficient and Accurate Instance Segmentation 论文链接&#xff1a;[2203.13312] SharpContour: A Contour-based Boundary Refinement Approach for Efficient and Accurate Instance Segmentation (arxiv…

【论文精读】HumanNeRF

目录 Abstract1.Introduction2.Related workHuman specific renderingNeural radiance fieldsHuman-specific neural renderingConcurrent work 3.Representing a Human as a Neural FieldCanonical volumeSkeletal motionNon-rigid motionPose correction 4.Optimizing a Huma…

GAN论文精读以及基础讲解

GAN精读论文&#xff1a;Neurips-2014-Generative Adversarial Nets 根据李沐老师的讲解加上笔者个人的理解做的一个笔记&#xff0c;希望能够对想了解GAN的求学者有所帮助&#xff01; 一、标题、作者、期刊 论文的标题名为Generative Adversarial Nets&#xff0c;中文解释…

我在工作群和ChatGPT聊了会天,找到了升职加薪的新思路

ChatGPT 大火&#xff01; 我们知道&#xff0c;基于 AIGC 的 ChatGPT 可以整合信息并“回复”给我们所需的很多类答案&#xff0c;比如写论文、作诗、画画&#xff0c;不过现在&#xff0c;ChatGPT 已经从火出圈的现象级 AI 应用&#xff0c;迅速被更多开发者融入到更多产品工…

容联七陌:ChatGPT大模型能力为智能客服带来新方向

科技云报道原创。 近几个月来&#xff0c;大众对ChatGPT预期的持续走高&#xff0c;也影响到了智能客服领域公司的命运。 一方面&#xff0c;ChatGPT的出现为智能客服场景带来了更加“智能”的可能性&#xff1b;但另一方面&#xff0c;有人认为ChatGPT完全可以替代现有的智能…

ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿

本文来源 机器之心 编辑&#xff1a;泽南 视觉模型有很大的提升空间&#xff0c;研究者们在以往的 LLM 中学到经验教训&#xff0c;认为扩展是一个很有前途的方法。来自谷歌的研究者将 ViT 扩展到 22B 参数量&#xff0c;这是迄今为止报道的最大的视觉主干。 与自然语言处理类…

Android之Android studio实现智能聊天机器人

Android实现智能聊天机器人 最近在做项目中,突然来了灵感,要做一个聊天机器人.聊天机器人在很多大型App上都有使用,比如QQ群里的QQ小冰,淘宝京东等App上在没有人工客服之前会有机器人跟你聊天,根据你发的问题关键词,向你推荐一些答案,可以省下很多人工的时间以及减小服务器的压…

图像复原之维纳滤波

基本原理 图像复原是图像处理的重要组成部分&#xff0c;由于图像在获取和传输过程中通常不可避免的要受到一些噪声的干扰&#xff0c;因此在进行其他图像处理以及图像分析之前&#xff0c;应该尽量将图像复原到其原始真实状态。图像复原的关键问题是在于建立退化模型。图像退…

图像复原

1图像复原的而理论模型 定义&#xff1a;在成像过程中&#xff0c;由于成像系统各种因素的影响&#xff0c;可能使获得的图像不是真实景物的完善影像。图像在形成、传播和保存过程中使图像质量下降的过程&#xff0c;称为图像退化。图像复原就是重建退化的图像&#xff0c;使其…

UBI.city白皮书发布与空投领取方法

在经历了至少5次的全面推翻与重构后&#xff0c;UBI.city的方案终于可以发布了。 UBI.city简介 UBI.city是去中心化组织的动态治理协议&#xff0c;白皮书可在官网 www.ubi.city 中查阅。 随着The DAO在2016年募集了1170万枚ETH&#xff08;价值约2.45亿美元&#xff09;&am…

WhatsApp被禁用操作教程|实操WhatsApp解封的过程|2023三月

我是上周被WhatsApp被禁用了&#xff0c;按照网上的方法&#xff0c;点击Support提交&#xff0c;会自动跳转一个邮件&#xff0c;发送到WhatsApp官方&#xff0c;我满心欢喜地等待解封&#xff0c;以为会像大家说的那样&#xff0c;第二天可以解封。 就是点击那个 支持 提交了…

微信网页版解封方法

最近&#xff0c;微信又推出了网页版的【文件传输助手】&#xff0c;也就是说&#xff0c;无需登录客户端的微信&#xff0c;即可进行文件或图片的传输。 网址是 https://filehelper.weixin.qq.com网址巨长&#xff0c;咋一看&#xff0c;又长又难记&#xff0c;玩个锤子 经…

微信小程序-获取用户头像信息以及修改用户头像

这里主要用到button的open-type功能&#xff0c;官网已有说明&#xff1a; 给button设置open-type"chooseAvatar"&#xff0c;来使bindchooseavatar方法生效&#xff0c;在bindchooseavatar指定的函数中获取用户的头像信息 <button open-type"chooseAvata…

小程序中新版本的获取用户头像与昵称:bind:chooseavatar

前言&#xff1a; 自从微信官方把获取用户昵称与头像的功能改动以后&#xff0c;给我们开发和用户的操作又增加了很多负担&#xff0c;但是没办法&#xff0c;只能使用最新的使用方法了。 小程序用户头像昵称获取规则调整公告 新版实现效果&#xff1a; 注意&#xff0c;真机…

关于QQ群头像以及微信讨论组头像的工具类

QQ群头像以及微信讨论组头像工具类介绍 介绍&#xff1a; 由于段时间公司项目需求&#xff0c;在翻了网上很多代码后发现&#xff0c;很多人用的是自定义View的办法来实现此类头像的效果&#xff0c;但是&#xff0c;这样一来就必须改变项目中原有的控件&#xff0c;而且当需要…

桌面宠物!

电脑桌宠&#xff1a; 天选姬 下载地址&#xff1a;https://www.asus.com.cn/supportonly/FA506QR/HelpDesk_download/ 选择系统&#xff0c;点击软件程序下的查看更多&#xff0c;选择天选姬桌面大鹅&#xff08;Desktop Goose&#xff09; 下载地址&#xff1a;https://wwu.…

微信小程序最新调用用户头像以及昵称

众所周知&#xff1a;微信小程序开发是面对“公告”编程&#xff0c;小程序的api更新迭代之快&#xff0c;让人叫苦不堪&#xff0c;&#xff0c;&#xff0c; 最近开发小程序项目时&#xff0c;获取用户头像和昵称的方式发生了很大的改变&#xff1a; 它居然绑定到一个 butt…

微信小程序新版头像昵称API [保存用户头像到服务器]

根据微信官方文档的说法&#xff0c;2022年10月之后&#xff0c;原本的获取昵称和头像的api&#xff0c;也就是wx.getUserProfile和wx.getUserInfo将停止支持&#xff0c;在那之后发布和更新的小程序必须停止使用这两个api。 这两个api获得的用户头像均为一个url&#xff0c;指…