分布式 - 消息队列Kafka:Kafka消费者分区再均衡(Rebalance)

文章目录

      • 01. Kafka 消费者分区再均衡是什么?
      • 02. Kafka 消费者分区再均衡的触发条件?
      • 03. Kafka 消费者分区再均衡的过程?
      • 04. Kafka 如何判定消费者已经死亡?
      • 05. Kafka 如何避免消费者的分区再均衡?
      • 06. Kafka 消费者分区再均衡有什么影响?
      • 07. Kafka 消费者分区再均衡的两种机制?
      • 08. kafka 消费者分区再均衡协议
      • 09. kafka 消费者分区再均衡流程
      • 10. Kafka 消费者组固定成员是什么?
      • 11. Kafka 消费者分区再均衡的4种场景

01. Kafka 消费者分区再均衡是什么?

消费者群组里的消费者共享主题分区的所有权。当一个新消费者加入群组时,它将开始读取一部分原本由其他消费者读取的消息。当一个消费者被关闭或发生崩溃时,它将离开群组,原本由它读取的分区将由群组里的其他消费者读取。

分区的所有权从一个消费者转移到另一个消费者的行为称为再均衡。再均衡非常重要,它为消费者群组带来了高可用性和伸缩性(你可以放心地添加或移除消费者)。不过,在正常情况下,我们并不希望发生再均衡。

Rebalance 本质上是一组协议,它规定了一个消费者组是如何达成一致来分配订阅 主题的所有分区的。假设某个组下有20个消费者实例,该组订阅了一个有着100个分区的主题。正常情况下,Kafka会为每个消费者平均分配5个分区。这个分配过程就被称为 Rebalance。

Rebalance 就是说如果消费组里的消费者数量有变化或消费的分区数有变化,kafka 会重新分配消费者消费分区的关系。

02. Kafka 消费者分区再均衡的触发条件?

主题发生变化(比如管理员添加了新分区)会导致分区重分配。Kafka 消费者端的 Rebalance 操作会在以下情况下发生:

① 消费者组中新增或减少了消费者;

② 消费者所订阅的主题的分区数量发生变化;

③ 消费者订阅的主题个数发生变化;

后面两个通常都是运维的主动操作,所以它们引发的 Rebalance 大都是不可避免的。实际上大部分情况下,导致分区再均衡的原因都是消费者组成员数量发生变化。

03. Kafka 消费者分区再均衡的过程?

Rebalance 是通过消费者群组中的称为“群组首领”消费者客户端进行的。

① 选择群组首领:当一个消费者想要加入消费者群组时,它会向群组协调器发送 JoinGroup 请求。第一个加入群组的消费者将成为群组首领。

② 消费者通过向被指派为群组协调器(Coordinator)的 Broker 定期发送心跳来维持它们和群组的从属关系以及它们对分区的所有权。

③ 群组首领从群组协调器获取群组的成员列表(列表中包含了所有最近发送过心跳的消费者,它们被认为还“活着”),并负责为每一个消费者分配分区。它使用实现了PartitionAssignor接口的类来决定哪些分区应该被分配给哪个消费者。

④ 分区分配完毕之后,群组首领会把分区分配信息发送给群组协调器;

⑤ 群组协调器再把这些信息发送给所有的消费者。每个消费者只能看到自己的分配信息,只有群组首领会持有所有消费者及其分区所有权的信息。

04. Kafka 如何判定消费者已经死亡?

消费者会向被指定为群组协调器的broker(不同消费者群组的协调器可能不同)发送心跳,以此来保持群组成员关系和对分区的所有权关系。心跳是由消费者的一个后台线程发送的,只要消费者能够以正常的时间间隔发送心跳,它就会被认为还“活着”。

如果消费者在足够长的一段时间内没有发送心跳,那么它的会话就将超时,群组协调器会认为它已经“死亡”,进而触发再均衡。如果一个消费者发生崩溃并停止读取消息,那么群组协调器就会在几秒内收不到心跳,它会认为消费者已经“死亡”,进而触发再均衡。在这几秒时间里,“死掉”的消费者不会读取分区里的消息。在关闭消费者后,协调器会立即触发一次再均衡,尽量降低处理延迟。

05. Kafka 如何避免消费者的分区再均衡?

真实应用场景中引发 rebalance 最常见的原因就是消费者组中新增或减少了消费者,特别是consumer崩溃的情况。这里的崩溃不一定就是指 consumer进程“挂掉”或consumer进程所在的机器宕机。以下两种情况也被视为消亡,我们要做的就是如何避免这两种不必要的 Rebalance 出现。

① 未及时发送心跳

由于消费者未能及时发送心跳,导致消费者被提出消费者组而导致的Rebalance,因此需要仔细地设置session.timeout.ms 和 heartbeat.interval.ms的值,这里给出一些推荐数值,可以“无脑”地应用在生产环境中。

(1) 设置 session.timeout.ms = 6s。
(2) 设置 heartbeat.interval.ms = 2s。

要保证消费者实例在被判定为死亡之前,能够发送至少 3 轮的心跳请求,即 session.timeout.ms >= 3 * heartbeat.interval.ms。将 session.timeout.ms 设置成 6s 主要是为了让 Coordinator 能够更快地定位已经挂掉的 Consumer。毕竟,我们还是希望能尽快揪出那些“尸位素餐”的 Consumer,早日把它们踢出 Group。

② 消费者消费时间过长,无法在指定的时间内完成消息的处理

之前有一个客户,在他们的场景中,消费者消费数据时需要将消息处理之后写入到 MongoDB。显然这是一个很重的消费逻辑。MongoDB 的一丁点不稳定都会导致消费者程序消费时长的增加。此时,max.poll.interval.ms 参数值的设置显得尤为关键。如果要避免非预期的 Rebalance,你最好将该参数值设置得大一点,比你的下游最大处理时间稍长一点。就拿 MongoDB 这个例子来说,如果写 MongoDB 的最长时间是 7 分钟,那么你可以将该参数设置为 8 分钟左右。

06. Kafka 消费者分区再均衡有什么影响?

① 影响消费者组的消费速度和吞吐量:消费者重新分配分区,可能会导致消费者停止消费一段时间,直到重新分配完成。

② 可能会产生消息重复消费:

因为Consumer消费分区消息的offset提交过程,不是实时的,由参数auto.commit.interval.ms控制提交的最小频率,默认是5000,也就是最少每5s提交一次。我们试想以下场景:提交位移之后的 3 秒发生了 Rebalance ,在 Rebalance 之后,所有 Consumer 从上一次提交的位移处继续消费,但该位移已经是 3 秒前的位移数据了,故在 Rebalance 发生前 3 秒消费的所有数据都要重新再消费一次。虽然可以通过减少 auto.commit.interval.ms 的值来提高提交频率,但这么做只能缩小重复消费的时间窗口,不可能完全消除它。

遗憾的是,目前kafka社区对于Reblance带来的影响,也没有彻底的解决办法。只能通过避免不必要的Rebalance减少影响。

07. Kafka 消费者分区再均衡的两种机制?

根据消费者群组所使用的分区分配策略的不同,再均衡可以分为两种类型。

① 主动再均衡 (range 分区分配策略和 round-robin 分区分配策略)

在进行主动再均衡期间,所有消费者都放弃当前分配到的分区所有权,即停止读取消息。消费者重新加入群组,获得重新分配到的分区,并继续读取消息。这样可以确保消费者群组中的每个消费者都获得相同数量的分区,从而实现负载均衡。但这个过程会导致整个消费者群组在一个很短的时间窗口内不可用,这个时间窗口的长短取决于消费者群组的大小和几个配置参数。

② 协作再均衡(sticky 分区分配策略)

Kafka协作再均衡(也称为增量再均衡)用于在消费者组成员发生变化时重新分配分区。 协作再均衡机制只会重新分配发生变化的分区,而不是所有分区(比如一个消费者退出消费者组后,它所消费的分区会重新分区给其他消费者)。

协作再均衡通常是指将一个消费者的部分分区重新分配给另一个消费者,其他消费者则继续读取没有被重新分配的分区。在协作再均衡中,消费者群组首领会通知所有消费者,它们将失去部分分区的所有权,然后消费者会停止读取这些分区,并放弃对它们的所有权。接着,消费者群组首领会将这些没有所有权的分区分配给其他消费者,从而实现分区的重新分配。虽然这种增量再均衡可能需要进行几次迭代,直到达到稳定状态,但它避免了主动再均衡中出现的“停止世界”停顿。这对大型消费者群组来说尤为重要,因为它们的再均衡可能需要很长时间。

08. kafka 消费者分区再均衡协议

rebalance 本质上是一组协议。group 与 coordinator 共同使用这组协议完成group的rebalance。最新版本Kafka中提供了下面5个协议来处理rebalance相关事宜。

① JoinGroup请求:consumer请求加入组。
② SyncGroup请求:group leader把分配方案同步更新到组内所有成员中。
③ Heartbeat请求:consumer定期向coordinator汇报心跳表明自己依然存活。
④ LeaveGroup请求:consumer主动通知coordinator该consumer即将离组。
⑤ DescribeGroup 请求:查看组的所有信息,包括成员信息、协议信息、分配方案以及订阅信息等。该请求类型主要供管理员使用。coordinator不使用该请求执行rebalance。

在rebalance过程中,coordinator主要处理consumer发过来的JoinGroup和SyncGroup请求。当consumer主动离组时会发送LeaveGroup请求给coordinator。

在成功rebalance之后,组内所有consumer都需要定期地向coordinator发送Heartbeat请求。而每个 consumer也是根据 Heartbeat请求的响应中是否包含REBALANCE_IN_PROGRESS来判断当前group是否开启了新一轮rebalance。

09. kafka 消费者分区再均衡流程

目前 rebalance主要分为两步:加入组和同步更新分配方案。

① 加入组:组内所有 consumer 向 coordinator 发送 JoinGroup请求。当收集全 JoinGroup请求后,coordinator从中选择一个 consumer 担任group的leader,并把所有成员信息以及它们的订阅信息发送给leader。特别需要注意的是,group 的 leader 和coordinator 不是一个概念。leader 是某个consumer 实例,coordinator 通常是Kafka 集群中的一个 broker。另外 leader 而非coordinator负责为整个group的所有成员制定分配方案。

在这里插入图片描述

② 同步更新分配方案:group 的 leader 开始制定分配方案,即根据前面提到的分配策略决定每个consumer都负责哪些topic的哪些分区。一旦分配完成,leader会把这个分配方案封装进 SyncGroup 请求并发送给 coordinator。比较有意思的是,组内所有成员都会发送 SyncGroup请求,不过只有 leader发送的 SyncGroup请求中包含了分配方案。coordinator 接收到分配方案后把属于每个 consumer 的方案单独抽取出来作为SyncGroup请求的response返还给各自的consumer。

在这里插入图片描述

10. Kafka 消费者组固定成员是什么?

在默认情况下,消费者的群组成员身份标识是临时的。当一个消费者离开群组时,分配给它的分区所有权将被撤销;当该消费者重新加入时,将通过再均衡协议为其分配一个新的成员ID和新分区。

可以给消费者分配一个唯一的group.instance.id,让它成为群组的固定成员。通常,当消费者第一次以固定成员身份加入群组时,群组协调器会按照分区分配策略给它分配一部分分区。当这个消费者被关闭时,它不会自动离开群组——它仍然是群组的成员,直到会话超时。当这个消费者重新加入群组时,它会继续持有之前的身份,并分配到之前所持有的分区。群组协调器缓存了每个成员的分区分配信息,只需要将缓存中的信息发送给重新加入的固定成员,不需要进行再均衡。

如果两个消费者使用相同的group.instance.id加入同一个群组,则第二个消费者会收到错误,告诉它具有相同ID的消费者已存在。

如果应用程序需要维护与消费者分区所有权相关的本地状态或缓存,那么群组固定成员关系就非常有用。如果重建本地缓存非常耗时,那么你肯定不希望在每次重启消费者时都经历这个过程。更重要的是,在消费者重启时,消费者所拥有的分区不会被重新分配。在重启过程中,消费者不会读取这些分区,所以当消费者重启完毕时,读取进度会稍稍落后,但你要相信它们一定会赶上。

需要注意的是,群组的固定成员在关闭时不会主动离开群组,它们何时“真正消失”取决于session.timeout.ms参数。你可以将这个参数设置得足够大,避免在进行简单的应用程序重启时触发再均衡,但又要设置得足够小,以便在出现严重停机时自动重新分配分区,避免这些分区的读取进度出现较大的滞后。

11. Kafka 消费者分区再均衡的4种场景

① 新成员加入组:

在这里插入图片描述

② 组成员崩溃:

组成员崩溃和组成员主动离开是两个不同的场景。因为在崩溃时成员并不会主动地告知 coordinator 此事,coordinator 有可能需要一个完整的 session.timeout 周期才能检测到这种崩溃,这必然会造成 consumer 的滞后。可以说离开组是主动地发起 rebalance;而崩溃则是被动地发起rebalance。

在这里插入图片描述

③ 组成员主动离开组:

在这里插入图片描述

④ 提交位移:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/87509.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MATLAB从文件得出数据并计算吸收光谱

这一系列就是科研用的真实程序了,也是对自己的一个备忘录 真的收购每次都重写了 但真的文件太多了找不到啊!!! 好吧是我废物 废话不多说,这就开始 基础的清理: clear clc close all 读取文件中的数据…

SpringBoot案例-部门管理-修改

目录 前言 查看页面原型,明确需求 页面原型 需求 阅读接口文件 思路分析 功能接口开发 控制层(Controller类) 业务层(Service类) 业务类 业务实现类 持久层(Mapper类) 接口测试 前…

LNMP环境介绍和搭建

一.LNMP简介 1.含义 2.工作原理 二.部署LNMP环境 1.Nginx环境 (1)上传nginx包,下载编译安装工具并解包到指定目录(tar 参数 tar包 - C 目录路径) (2) 开始编译安装,每次编译后…

HTTP代理编程:Python实用技巧与代码实例

今天我要与大家分享一些关于HTTP代理编程的实用技巧和Python代码实例。作为一名HTTP代理产品供应商,希望通过这篇文章,帮助你们掌握一些高效且实用的编程技巧,提高开发和使用HTTP代理产品的能力。 一、使用Python的requests库发送HTTP请求&a…

25. K 个一组翻转链表

25. K 个一组翻转链表 题目-困难难度示例1. 链表转列表 -> 计算 -> 列表转链表2. 反转合并 题目-困难难度 给你链表的头节点 head ,每 k 个节点一组进行翻转,请你返回修改后的链表。 k 是一个正整数,它的值小于或等于链表的长度。如果…

mac harbor的安装

harbor的安装 为什么要整这个呢,因为我在学习k8s,但是需要一个自己的镜像仓库。于是,最开始想到的就是在本地直接部署一个,还比较安全、快速。 直接下载了官方的项目,运行脚本发现出了异常,这种异常我已经…

Ajax 笔记(一)—— Ajax 入门

笔记目录 1. Ajax 入门1.1 Ajax 概念1.2 axios 使用1.2.1 URL1.2.2 URL 查询参数1.2.3 小案例-查询地区列表1.2.4 常用请求方法和数据提交1.2.5 错误处理 1.3 HTTP 协议1.3.1 请求报文1.3.2 响应报文 1.4 接口文档1.5 案例1.5.1 用户登录(主要业务)1.5.2…

SpringBoot3集成Quartz

标签:Quartz.Job.Scheduler; 一、简介 Quartz由Java编写的功能丰富的开源作业调度框架,可以集成到几乎任何Java应用程序中,并且能够创建多个作业调度; 在实际的业务中,有很多场景依赖定时任务&#xff0c…

Java SpringBoot 加载 yml 配置文件中字典项

实际项目中,如果将该类信息放配置文件中的话,一般会结合Nocas一起使用 将字典数据,配置在 yml 文件中,通过加载yml将数据加载到 Map中 Spring Boot 中 yml 配置、引用其它 yml 中的配置。# 在配置文件目录(如&#xff…

Ajax-概念、Http协议、Ajax请求及其常见问题

Ajax Ajax概念Ajax优缺点HTTP协议请求报文响应报文 Ajax案例准备工作express基本使用创建一个服务器 发送AJAX请求GET请求POST请求JSON响应 Ajax请求出现的问题IE缓存问题Ajax请求超时与网络异常处理Ajax手动取消请求Ajax重复发送请求问题 Ajax概念 AJAX 全称为Asynchronous J…

Maven从入门到好难

参考文献 永远最好的官网 超赞maven系列文章 1. 为啥要有maven 想当初,刚毕业刚工作,之前学的C,java不懂,部门用的Spring,于是开始学习SSM,妈的,jar包好难整,还要一个个下载好放到…

腾讯云服务器标准型CVM实例详细介绍S5/S6/SA2/SR1/SA3/S4等

腾讯云CVM服务器标准型实例的各项性能参数平衡,标准型云服务器适用于大多数常规业务,例如:web网站及中间件等,常见的标准型云服务器有CVM标准型S5、S6、SA3、SR1、S5se等规格,腾讯云服务器网来详细说下云服务器CVM标准…

HCIP BGP实验

题目 拓扑图 配置IP地址及环回 R1 <Huawei>sy Enter system view, return user view with CtrlZ. [Huawei]sysname r1 [r1]int l0 [r1-LoopBack0]ip add 1.1.1.1 24 [r1-LoopBack0]int g0/0/0 [r1-GigabitEthernet0/0/0]ip add 12.1.1.1 24R2 <Huawei>sy Enter …

AI lightning学习

真的是没有mmlab的框架好理解&#xff0c;hook调用没问题&#xff0c;就是代码写的不整洁&#xff0c;hook放的到处都是&#xff0c;而且hook的名字和run的名字也不好对应。 又是捧mmengine的一天 &#x1f603;

2023国赛数学建模A题B题C题D题E题思路分析 2023全国大学生数学建模思路

文章目录 0 赛题思路1 竞赛信息2 竞赛时间3 建模常见问题类型3.1 分类问题3.2 优化问题3.3 预测问题3.4 评价问题 4 建模资料 0 赛题思路 &#xff08;赛题出来以后第一时间在CSDN分享&#xff09; https://blog.csdn.net/dc_sinor?typeblog 1 竞赛信息 全国大学生数学建模…

jupyter文档转换成markdown

背景 上一篇文章**《如何优雅地用python生成模拟数据》**我就使用jupyter写的&#xff0c;这个真的是万能的&#xff0c;可以插入markdown格式的内容&#xff0c;也可写代码&#xff0c;关键是像ipython一样&#xff0c;可以分步执行。 我可以这样自由的写我的博客内容&#x…

div 中元素居中的N种常用方法

本文主要记录几种常用的div盒子水平垂直都居中的方法。本文主要参考了该篇博文并实践加以记录说明以加深理解记忆 css之div盒子居中常用方法大全 本文例子使用的 html body结构下的div 盒子模型如下&#xff1a; <body><div class"container"><div c…

论文阅读:《Waymo Public Road Safety Performance Data》

文章目录 1 背景2 方法2.1 数据来源2.2 碰撞数据 3 碰撞事件分析4 讨论 1 背景 这篇文章是讲waymo道路安全性能数据分析的&#xff0c;主要想表达的是waymo自动驾驶系统在安全上面的出色表现&#xff0c;以向政府、大众提高自己产品的公信力。 这篇文章分析的数据是自从2019年到…

备战秋招012(20230808)

文章目录 前言一、今天学习了什么&#xff1f;二、动态规划1.概念2.题目 总结 前言 提示&#xff1a;这里为每天自己的学习内容心情总结&#xff1b; Learn By Doing&#xff0c;Now or Never&#xff0c;Writing is organized thinking. 提示&#xff1a;以下是本篇文章正文…

Vue主面板组件模板(简洁版)

文章目录 &#x1f412;个人主页&#x1f3c5;JavaEE系列专栏&#x1f4d6;前言&#xff1a;&#x1f380;源码如下&#xff1a; &#x1f412;个人主页 &#x1f3c5;JavaEE系列专栏 &#x1f4d6;前言&#xff1a; 本篇博客主要以介绍【&#x1f380;主面板组件模板&#xf…