线上 kafka rebalance 解决

        

        上周末我们服务上线完毕之后发生了一个kafka相关的异常,线上的kafka频繁的rebalance,详细的报错我已经贴到下面,根据字面意思:消费者异常 org.apache.kafka.clients.consumer.CommitFailedException: 无法完成提交,因为消费者组已经重新平衡并将分区分配给另一个成员。这意味着连续调用 poll() 之间的时间超过了配置的 max.poll.interval.ms,通常意味着轮询循环在消息处理上花费了太多时间。您可以通过增加会话超时时间或通过减少 poll() 返回的批次的最大大小(使用 max.poll.records)来解决这个问题。

        当然我们的解决方案也是从两个方面展开,分别是“开源” + “截流”。开源就是通过增加处理时间的配置。截流就是通过每一批次的处理数量。上线之后报警消失。通过这次的问题,正好总结一下频繁kafka rebalance 解决方案,希望可以帮助到大家。

consumer ex org.apache.kafka.clients.consumer.CommitFailedException:Commit cannot be completed since the group has already rebalanced and assigned the partitions to another member. This means that the time between subsequent calls to poll() was longer than the configured max.poll.interval.ms, which typically implies that the poll loop is spending too much time message processing. You can address this either by increasing the session timeout or by reducing the maximum size of batches returned in poll() with max.poll.records.

        Kafka是一个高性能、分布式的消息队列系统,但在实际应用中,有时会遇到频繁发生Rebalance的问题。本文将介绍Rebalance的原因、影响以及解决该问题的技术方案。

1. 什么是Kafka的Rebalance

        Kafka的Rebalance是指在消费者组中新增或移除消费者时者消费者所订阅的Topic的分区数量发生变化时,Kafka会重新分配分区给消费者,以实现负载均衡。Rebalance的目的是确保每个消费者都能平均地处理分区,提高整体的消费能力,以实现负载均衡和高可用性。

        在Rebalance过程中,Kafka会根据配置的Rebalance策略(如Range或RoundRobin)来决定如何分配分区给消费者。具体的分配算法会根据消费者组内的消费者数量、消费者的订阅关系和分区的分配情况来确定。

Rebalance的过程包括以下几个步骤:

  1. 消费者加入或退出消费者组:当有新的消费者加入或退出消费者组时,Kafka会触发Rebalance操作。
  2. 分区分配计算:Kafka会根据配置的Rebalance策略和消费者组内的消费者数量,计算出每个消费者应该负责处理的分区。
  3. 分区分配通知:Kafka会将分区分配结果通知给消费者,告知它们负责处理的分区。
  4. 消费者重新分配分区:消费者收到分区分配通知后,会重新分配自己负责处理的分区,并开始消费数据。
  5. 消费者消费数据:消费者根据分配到的分区,从对应的分区中拉取数据并进行消费。

2. Rebalance的原因

        Rebalance的发生通常有以下几个原因:

2.1 消费者组中新增或移除消费者

        当消费者组中新增或移除消费者时,Kafka会触发Rebalance操作。新增消费者会导致分区重新分配,而移除消费者会导致其所负责的分区重新分配给其他消费者。

2.2 分区的增加或减少

        当主题的分区数量发生变化时,Kafka也会触发Rebalance操作。新增分区会导致分区重新分配,而减少分区会导致一些消费者无法分配到分区。

2.3 消费者心跳超时

        Kafka通过心跳机制来检测消费者是否存活。如果消费者长时间未发送心跳,Kafka会认为该消费者已经宕机,并将其分区重新分配给其他消费者。

3. Rebalance的影响

        Rebalance的频率和耗时取决于多个因素,包括消费者组内的消费者数量、消费者的启停频率、Topic的分区数量和分区的分配情况等。频繁的Rebalance可能会导致消费者在重新分配分区的过程中发生停顿,影响系统的稳定性和性能。因此,合理配置和调优Rebalance相关的参数和策略,对于提高Kafka集群的稳定性和性能非常重要。

3.1 消费延迟增加

        Rebalance会导致消费者重新分配分区,消费者需要重新建立与分区的关联关系,这个过程需要一定的时间。频繁的Rebalance会增加消费延迟,影响消息的实时性。

3.2 消费者重复消费

        在Rebalance期间,消费者可能会重复消费一些消息。当一个消费者失去分区时,它可能无法及时提交消费位移,导致其他消费者接管该分区时,会重新消费已经消费过的消息。

3.3 消费者失去分区

        在Rebalance期间,消费者可能会失去分区,导致消息无法被及时消费。这会导致消息堆积,进一步影响整体的消费能力。

4. 解决频繁Rebalance的技术方案

        为了解决频繁发生Rebalance的问题,可以采取以下技术方案:

4.1 增加消费者组的稳定性

消费者组的稳定性对于减少Rebalance非常重要。可以通过以下方式增加消费者组的稳定性:

  • 避免频繁地新增或移除消费者,尽量保持消费者组的稳定性。
  • 设置合理的心跳超时时间,避免误判消费者宕机。
  • 避免消费者长时间阻塞,及时处理消费任务。

4.2 增加分区的稳定性

分区的稳定性也对减少Rebalance非常重要。可以通过以下方式增加分区的稳定性:

  • 避免频繁地增加或减少分区,尽量保持分区数量的稳定。
  • 合理规划分区的分配策略,避免某些消费者负载过重或无法分配到分区。

4.3 动态调整消费者组和分区的配置

根据实际情况,动态调整消费者组和分区的配置,可以有效减少Rebalance的频率。可以通过以下方式进行配置调整:

  • 根据消费者组的负载情况,适时增加或减少消费者的数量。
  • 根据主题的负载情况,适时增加或减少分区的数量。

4.4 使用Kafka的自动Rebalance策略

Kafka提供了多种Rebalance策略,可以根据实际需求选择合适的策略。可以通过配置文件或代码来指定Rebalance策略,以减少Rebalance的频率。

5. 相关配置

        Kafka提供了一些相关的配置参数,可以用于调整和控制Rebalance的行为。下面是一些常用的Kafka Rebalance相关配置参数的详细说明:

  1. group.initial.rebalance.delay.ms:
  • 类型:long
  • 默认值:0
  • 描述:设置消费者组初始Rebalance的延迟时间,单位为毫秒。默认值为0,表示立即触发Rebalance。增加延迟时间可以给消费者更多的时间加入消费者组,减少Rebalance的频率。
  1. group.max.rebalance.delay.ms:
  • 类型:long
  • 默认值:300000(5分钟)
  • 描述:设置消费者组最大Rebalance的延迟时间,单位为毫秒。默认值为300000,表示最多延迟5分钟触发Rebalance。增加延迟时间可以减少Rebalance的频率,但也会增加消费者加入或退出消费者组的等待时间。
  1. partition.assignment.strategy:
  • 类型:String
  • 默认值:

org.apache.kafka.clients.consumer.RangeAssignor

  • 描述:设置Rebalance的策略。Kafka提供了多种策略可供选择,包括

org.apache.kafka.clients.consumer.RangeAssignor(按照分区范围分配)和

org.apache.kafka.clients.consumer.RoundRobinAssignor(轮询分配)。可以根据实际需求选择合适的策略。

  1. num.partitions:
  • 类型:int
  • 默认值:1
  • 描述:设置Topic的分区数量。通过增加分区数量可以减少Rebalance的频率,但需要注意分区数的增加可能会导致消费者端的负载增加。在创建Topic时,可以通过指定分区数量来设置。

        这些配置参数可以通过在Kafka的配置文件(如server.properties)中进行设置,或者通过编程方式在消费者端进行配置。根据实际需求和场景,可以调整这些参数的值来优化Rebalance的行为,提高Kafka集群的稳定性和性能。

        需要注意的是,调整这些配置参数时需要综合考虑系统的负载、消费者组的规模和消费者的启停情况等因素,以避免引入新的问题或影响系统的正常运行。在进行调优时,建议先进行测试和评估,以确保调整后的配置能够满足实际需求。

6. 调优策略

  1. 监控消费者组的消费情况:通过监控消费者组的消费情况,可以及时发现消费者的启停情况,避免因消费者的频繁启停导致Rebalance的频繁发生。
  2. 预估消费者组的消费能力:通过预估消费者组的消费能力,可以合理配置消费者的数量和分区的数量,避免因消费者数量和分区数量不匹配导致Rebalance的频繁发生。
  3. 配置合适的Rebalance超时时间:根据实际情况,调整Rebalance超时时间,避免Rebalance的频繁触发。

7. 结论

        频繁发生Rebalance会对Kafka的性能和稳定性产生一定的影响,因此解决该问题非常重要。本文介绍了Rebalance的原因、影响以及解决该问题的技术方案。通过增加消费者组和分区的稳定性,动态调整配置以及使用合适的Rebalance策略,可以有效减少Rebalance的频率,提高Kafka的性能和稳定性。       

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/185839.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《第三期(先导课)》之《Python 开发环境搭建》

文章目录 《第 1 节 初始Python》《第 6 节 pip包管理工具》 《第 1 节 初始Python》 。。。 《第 6 节 pip包管理工具》 pip是Python的包管理工具,用于安装、升级和管理Python包。 pip是Python标准库之外的一个第三方工具,可以从Python Package Index(PyPI)下载和安装各种P…

C4D移动坐标轴位置的技巧

我们所创建的模型,刚创建的时候中心的位置就是中心坐标的位置了,如图所示 我们可以选择一个视图模式更好的观察效果 文章源自四五设计网-https://www.45te.com/35303.html 然后将模型给C掉 这样模型变成了可以编辑的模式后,选择左侧的坐标选…

软件测试|selenium执行js脚本

JavaScript是运行在客户端(浏览器)和服务器端的脚本语言,允许将静态网页转换为交互式网页。可以通过 Python Selenium WebDriver 执行 JavaScript 语句,在Web页面中进行js交互。那么js能做的事,Selenium应该大部分也能…

SLAM从入门到精通(被忽视的基础图像处理)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 工业上用激光slam的多,用视觉slam的少,这是大家都知道的常识。毕竟对于工业来说,健壮和稳定是我们必须要考虑的…

MySQL的表格去重,史上最简便的算法,一看就会

首先,表格my_tab02存在很多重复的数据: #表格的去重 方法一: 详细内容传送门:表格的去重 -- 思路: -- 1.先创建一张临时表 my_tmp,该表的结构和my_tab02一样 -- 2.把my_tmp的记录通过distinct关键字 处理后 把记录复…

Spring Boot 请求/actuator/beans 无法访问 返回404

问题复现 在保证项目加入了spring-boot-starter-actuator依赖,并成功启动后。通过浏览器进行访问,返回如下图结果: 问题排查 1. 查看日志 从日志中可以看到基于路径’/actuator’下只暴露了一个端点 2. 访问http://localhost:8080/actua…

机器视觉opencv答题卡识别系统 计算机竞赛

0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 答题卡识别系统 - opencv python 图像识别 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分…

改进YOLOv5:结合ICCV2023|动态蛇形卷积,构建不规则目标识别网络

🔥🔥🔥 提升多尺度、不规则目标检测,创新提升 🔥🔥🔥 🔥🔥🔥 捕捉图像特征和处理复杂图像特征 🔥🔥🔥 👉👉👉: 本专栏包含大量的新设计的创新想法,包含详细的代码和说明,具备有效的创新组合,可以有效应用到改进创新当中 👉👉👉: �…

C++ http协议POST body raw 字段向服务器发送请求

环境:ubuntu系统c使用http协议不是很方便,通过curl库我们可以很方便使用http协议,由于我的请求方式比较特殊,在网上没有找到相关的资料,之前使用python实现过一版,但是当设备数量超过100台时,程…

操作系统 day08(进程通信)

进程通信的概念 进程间通信是指两个进程之间产生数据交互进程通信需要操作系统的支持,由于进程是分配系统资源(包括内存地址)的单位,因此各进程拥有的内存地址空间相互独立。同时为了保证安全,一个进程不能直接访问另…

Android Glide transform旋转rotate圆图CircleCrop,Kotlin

Android Glide transform旋转rotate圆图CircleCrop,Kotlin import android.graphics.Bitmap import android.os.Bundle import android.util.Log import android.widget.ImageView import androidx.appcompat.app.AppCompatActivity import com.bumptech.glide.load…

vue 子页面通过暴露属性,实现主页面的某事件的触发

目录 1.前言2.代码2-1 子页面2-2 主页面 1.前言 需求:当我在子页面定义了一个定时器,点击获取验证码,计时器开始倒计时,在这个定时器没有走完,退出关闭子页面,再次进入子页面,定时器此时会被刷…

代码随想录 Day41 动态规划09 LeetCode T121 买卖股票的最佳时机 T122 买卖股票的最佳时机II

前言 这两题看起来是不是有点眼熟,其实我们在贪心章节就已经写过了这两道题,当时我们用的是将利润分解,使得我们始终得到的是最大利润 假如第 0 天买入,第 3 天卖出,那么利润为:prices[3] - prices[0]。 相当于(prices[3] - prices[2]) (pri…

自动化实战 - 测试个人博客系统

前言 本篇使用Selenium3Junit5对个人博客进行自动化测试,如有错误,请在评论区指正,让我们一起交流,共同进步! 文章目录 前言一.web自动化测试用例二.测试准备1.注册界面自动化测试测试过程中遇到的Bug: 2.登录界面自动…

【云备份|| 日志 day5】文件热点管理模块

云备份day5 热点管理模块 热点管理模块 服务器端的热点文件管理是对上传的非热点文件进行压缩存储,节省磁盘空间。 而热点文件的判断在于上传的文件的最后一次访问时间是否在热点判断时间之内,比如如果一个文件一天都没有被访问过我们就认为这是一个非…

采集Prestashop独立站

这是一个用Lua编写的爬虫程序,用于采集Prestashop独立站的内容。爬虫程序使用代理信息:proxy_host: jshk.com.cn。 -- 首先,我们需要导入所需的库 local http require(socket.http) local url require(socket.url)-- 然后,我们…

jenkins原理篇——成员权限管理

大家好,我是蓝胖子,前面几节我讲述了jenkins的语法以及我是如何使用jenkins对测试和正式环境进行发布的。但正式环境使用jenkins还有一点很重要,那就是权限管理。正式环境的权限往往不能对所有人开放,以及要做到每次发布都是谁在操…

Android T窗口动画显示和退出流程(更新中)

序 如何创建一个窗口动画?我们通过先从APP创建一个窗口,以这个窗口的创建过程的窗口动画为例 这个demo就是点击BUTTON显示窗口,点击CLOSE WINDOW关闭窗口,下面简述关键代码 //定义WindowManager和LayoutParams private Window…

官方Redis视图化工具Redisinsight

一、下载最新版本的 docker pull redislabs/redisinsight mkdir /data/redisinsight docker run -d -u root -p 8001:8001 -v /etc/localtime:/etc/localtime -v /data/redisinsight:/db --restartunless-stopped redislabs/redisinsight:latest 二、浏览器打开 http://192…

网际报文协议ICMP及ICMP重定向实例详解

目录 1、ICMP的概念 2、ICMP重定向 3、利用ICMP重定向进行攻击的原理 4、如何禁止ICMP重定向功能? 4.1、在Linux系统中禁用 4.2、在Windows系统中禁用 5、关于ICMP重定向的问题实例 VC常用功能开发汇总(专栏文章列表,欢迎订阅&#xf…