Kafka基本讲解

Kafka基本讲解

一:Kafka介绍

Kafka是分布式消息队列,主要设计用于高吞吐量的数据处理和消息传输,适用于日志处理、实时数据管道等场景。Kafka作为实时数仓架构的核心组件,用于收集、缓存和分发实时数据流,支持复杂的实时数据处理,实时需求分析,实时报表等应用。

二:Kafka基本架构图

基本讲解

  • zookeeper:统一管理kafka集群

    (1)保存kafka相关的元数据

    (2)负责Kafka集群的整体协调和管理

    (3)在Kafka集群中,当某个节点(如Broker或分区领导者Leader)出现故障时,ZooKeeper能够协助进行故障检测和恢复

  • Producer:生产者

    向kafka发送消息,通过【轮询写入】方式,使得消息数据均匀分布,即:传数据给kafka。

  • Consumer:消费者

    从kafka中获取消息(数据)进行消费,一般有三种策略可选(订阅模式,正则模式,指定模式)

  • Kafka集群

    1. Broker:一台Kafka服务器一般是一个Broker【主要由该机器的核数来决定】,一个集群由多个Broker组成,一个Broker可以容纳多个Topic。

    2. Topic(主题):是数据的逻辑分类单位,用于管理和组织消息流,Topic类似于mysql数据库中的库。Topic分为多个partition存放于不同的kafka服务器上。

    3. partition(分区):每个Partition(分区)是一个有序的队列(分区有序,不能保证全局有序)

      • Leader:每个partition(分区)都有一个leader(领导者),负责处理该分区的所有读取和写入数据操作(生产者和消费者都面对leader对象进行操作)。

      • Replica:特殊的Follower。

      • Follower:每个partition(分区)含有多个follower(跟随者),主要用于与leader(领导者)同步数据,保持数据的一致性。当leader失效时,会从中选一个follower成为新的leader。

三:Kafka特点

1、多副本机制

1.1.容错性(In-Sync Replicas,同步副本集)

讲解

  • 在每个partition(分区)内部中,都含有一个leader(领导者)和多个follower(跟随者)

  • 其中可将其分为ISR队列(此处为三个)和Followers两部分。

  • 正常状态(消息数据写入队列):

    • 1、消息数据写到ISR队列中的每一个节点上(Leader和replica),当写入所有的ISR队列后,才可以进行下一个消息的写入。

    • 2、Followers中节点可以同步Leader数据,且并无时间限制(时间可长可短)。

  • Leader失效场景:

    • 当Leader失效时,会在ISR队列中选取一个作为新的Leader继续工作,同时会在Followers中选取一个进入ISR队列中
1.2.读写分离
  • Leader 负责写操作
  • I S R 中任何一个 replica 都可以读操作

2、多分区(MP,multiple partitions)

每个Topic(主题)可以被划分成多个分区(partition),每个分区在物理上可以存储在不同的Broker节点上。

主要优势

  • 低延时
  • 负载均衡:Kafka集群可以在多个Broker节点上均匀地分布分区,使得每个Broker负责处理的分区数量相对均衡【Topic(主题)分区数量最优设计:节点数*物理核数】
  • 方便在集群中集成和扩展:Kafka提供了丰富的客户端API,支持多种编程语言,如Java、Python、Go、Scala等。同时,每个partition通过调整以适应它所在的机器(水平扩展),而一个Topic又可以有多个partition组成,因此整个集群可以适应适合的数据,从而达到扩缩容效果。

3、零拷贝

数据可以直接从磁盘传输到网络接口,避免了传统I/O操作中的多次内存拷贝和上下文切换,提高数据传输效率。

4、产销解耦

基本讲解

  • Kafka作为一种分布式消息中间件。生产者只需要将数据发送到Kafka的特定主题(Topic)中,无需知道数据的具体消费者是谁;消费者只需要从Kafka订阅特定的主题,并拉取数据进行处理,无需知道数据的来源是从何而来【生产者 —> Kafka <— 消费者】

  • 生产者数量:分区数 个生产者**【轮询写入】,均匀分布**。

  • 消费者数量:分区数 个消费者一对一读取,并行消费

    => 分布式最佳效果:spark处理的算子分区数(spark并行度) = kafka的分区数(有多少个队列)【分区上限主要由"核数"决定】。

四:消费者策略(读取数据方式)

Kafka为消费者提供了三种类型的订阅消费模式:subscribe(订阅模式)SubscribePattern(正则订阅模式)assign(指定模式)

subscribe与SubscribePattern讲解

基本认知

  • subscribe(订阅模式)与SubscribePattern(正则订阅模式)原理基本一致。

  • 区别subscribe(订阅模式)适用于【单主题】SubscribePattern(正则订阅模式)适用于【多主题】

讲解

  • 客户端提供groupId和订阅的主题(topic),会先找到这个groupId为123所对应的主题(topic),其中会有记录其offset(偏移量),然后通过这个这个offset(偏移量)继续从test01中进行数据的读取操作。

assign讲解

讲解

  • Redis与客户端之间进行数据交互,会将offset(偏移量)存储于Redis中。客户端提供topic(主题)给Redis,与offset形成键值对的形式,进而可以从test01中进行数据的读取操作。

五:Kafka命令讲解(shell 控制台处理)

1、查看主题

# --bootstrap-server kafka的地址:端口号
kafka-topics.sh --list --bootstrap-server single:9092

2、创建主题

# --topic 主题名称
# --partitions 分区数
# --replication-factor 每个分区的副本数
# --bootstrap-server kafka的地址:端口号
kafka-topics.sh --create --topic test01 --partitions 1 --replication-factor 1 --bootstrap-server single:9092

3、查看主题详情

# --topic 主题名称
# --bootstrap-server kafka的地址:端口号
kafka-topics.sh --describe --topic test01 --bootstrap-server single:9092

4、创建控制台【生产者】

# --topic 主题名称
# --broker-list single:9092 => 指定主题
kafka-console-producer.sh --broker-list single:9092 --topic test01 < /root/ebs_act_log/transaction_log/part-00001

在Kafka客户端工具中

5、创建控制台【消费者】

# --bootstrap-server kafka的地址:端口号
# --topic 主题
# --property print.key=true	
kafka-console-consumer.sh --bootstrap-server single:9092 --topic test01 --property print.key=true --from-beginning

6、删除主题和数据(不能被正在生产或消费)

kafka-topics.sh --bootstrap-server single:9092 --delete --topic test01

Kafka实战(Scala操作)

Kafka实战(Scala操作)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/395794.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【博客搭建 第二篇章】项目中怎么引入其他的 icon

一、注册账号并将图标添加到自己的项目中 1、网站地址&#xff1a;https://www.iconfont.cn/ 2、注册 iconfont 账号 3、登录 iconfont 网站中 4、添加图标到购物车中 5、添加图标到项目中 6、生成在线连接 7、复制连接 二、项目中配置连接地址 找到项目中的 them…

R语言医疗数据分析笔记

分组因子又是什么意思&#xff0c;分组因子和数组的区别是什么 举个实际的例子 分组因子 分组因子是分类变量&#xff0c;用于将数据分成不同组以便于比较或分析。例如&#xff0c;在一项研究中&#xff0c;研究对象的性别&#xff08;男性和女性&#xff09;可以视为一个分组…

OBC充电机电力系统的安全保障

OBC&#xff08;On-Board Charger&#xff09;充电机是电动汽车的关键部件&#xff0c;它负责将外部交流电转换为直流电&#xff0c;为电动汽车的动力电池充电。因此&#xff0c;OBC充电机的电力系统安全保障至关重要。 首先&#xff0c;OBC充电机需要有良好的电气隔离和保护功…

【mysql 第三篇章】一条 update语句是怎么持久化到磁盘上的?

首先看一下这个 SQL 语句你会不会写? 下面是说明执行这个 SQL 语句&#xff0c;数据库底层做了什么操作。 update users set namexxx where id10;在引擎要执行更新语句的时候&#xff0c;比如更新 id10 这行数据时&#xff0c;他会先查看数据在缓冲池中是否存在&#xff0c;如…

C语言指针详解-包过系列(二)目录版

C语言指针详解-包过系列&#xff08;二&#xff09;目录版 1、数组名的深入理解1.1、数组名的本质1.2、数组名本质的两个例外1.2.1、sizeof&#xff08;数组名&#xff09;1.2.2、&数组名 2、使用指针访问数组3、一维数组传参本质4、二级指针4.1、二级指针介绍4.2、二级指针…

8.9 C++

1.思维导图 2. 搭建一个货币的场景&#xff0c;创建一个名为 RMB 的类&#xff0c;该类具有整型私有成员变量 yuan&#xff08;元&#xff09;、jiao&#xff08;角&#xff09;和 fen&#xff08;分&#xff09;&#xff0c;并且具有以下功能&#xff1a; (1)重载算术运算符…

PCL 曲线4点细分算法

文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 四点细分算法(Four-Point Subdivision Scheme)是一种用于生成平滑曲线的细分算法。与 Chaikin 逼近型细分算法不同,四点细分算法通过插入新的控制点来细化曲线,并生成一条逐步逼近的平滑曲线。该算法通常用于生…

高效管理:如何快速查询并跟踪批量快递物流信息

在现代快节奏的生活中&#xff0c;我们经常需要处理大量的快递单号&#xff0c;以跟踪货物的物流轨迹。无论是电商卖家、物流公司还是个人用户&#xff0c;都希望能够快速、准确地获取到快递的实时信息。为了解决这个问题&#xff0c;我们可以借助一款名为“固乔快递查询助手”…

八、MyBatis

一、MyBatis介绍 MyBatis 是持久层框架&#xff0c;它支持自定义 SQL、存储过程以及⾼级映射。MyBatis 去除了几乎所有的 JDBC 代码以及设置参数和获取结果集的工作。MyBatis 可以通过简单的 XML 或注解来配置 和映射原始类型、接口和 Java POJO&#xff08;Plain Old Java Obj…

最新版的AutoGPT,我搭建好了

最近AutoGPT不是更新了嘛 安装 我按照官方的教程 在本地搭建好了 改动 可见的改动&#xff0c;主要是把原来的纯命令行改成前后端的形式 看下前端界面 界面比较简单&#xff0c;主要分3个大块 监控 第一个是监控 主要是看你在 build 里构建的Agents的运行情况 build 第一个是Ag…

前端项目中的Server-sent Events(SSE)项目实践及其与websocket的区别

前端项目中的Server-sent Events(SSE)项目实践 前言 在前端开发中&#xff0c;实时数据更新是提升用户体验的重要因素之一。Server-SentEvents(SSE)是一种高效的技术&#xff0c;允许服务器通过单向连接将实时数据推送到客户端。下面将从SSE的基本改变&#xff0c;使用场景展…

大数据Flink(一百零九):阿里云Flink的基本名称概念

文章目录 阿里云Flink的基本名称概念 一、层次结构 二、​​​​​​​​​​​​​​概念说明 1、工作空间&#xff08;Workspace&#xff09; 2、项目空间&#xff08;Namespace&#xff09; 3、资源&#xff08;Resource&#xff09; 4、草稿&#xff08;Draft&#…

Spring-MyBatis整合:No qualifying bean of type ‘XXX‘ available: ...

1.看一下核心配置中有没有导入myBatis配置 2.看一下service和dao有没有相应注解 3.看一下MyBatisConfig中有没有对sqlSessionFactory和mapperScannerConfigurer注释成bean对象以及有没有配置映射文件路径

【扒网络架构】backbone、ccff

backbone CCFF 还不知道网络连接方式&#xff0c;只是知道了每一层 backbone backbone.backbone.conv1.weight torch.Size([64, 3, 7, 7])backbone.backbone.layer1.0.conv1.weight torch.Size([64, 64, 1, 1])backbone.backbone.layer1.0.conv2.weight torch.Size([64, 64,…

Datawhale AI夏令营第四期 | AIGC文生图——可图Kolors-LoRA风格故事 Task1笔记

Hi&#xff0c;大家好&#xff0c;我是半亩花海。最近在尝试学习AIGC的内容&#xff0c;并报名参加了Datawhale举办的2024年AI第四期夏令营&#xff0c;主要学习内容是从零入门AI生图原理和实践。本次活动基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”进而开展的项目实践学习…

【最新】推荐6款论文ai写论文软件推荐网站平台

在当前的学术研究和写作环境中&#xff0c;AI写作工具已经成为许多学者和学生的重要助手。这些工具不仅能够提高写作效率&#xff0c;还能帮助优化文章结构、润色语言以及进行查重等任务。以下将推荐六款优秀的AI写论文软件&#xff0c;并详细介绍它们的功能和特点。 1. 千笔-…

C语言 ——— 学习并使用memset函数

目录 memset函数的功能 学习memset函数​编辑 使用memset函数 memset函数的功能 memset函数是内存设置函数&#xff0c;将数据设置成传递的参数&#xff0c;以字节来设置 学习memset函数 函数的参数&#xff1a; void* ptr&#xff1a;数据要设置的起始位置的指针 int …

【代码随想录】区间和——前缀和方法

本博文为《代码随想录》学习笔记&#xff0c;原文链接&#xff1a;代码随想录 题目 原题链接&#xff1a;58. 区间和&#xff08;第九期模拟笔试&#xff09; 题目描述 给定一个整数数组 Array&#xff0c;请计算该数组在每个指定区间内元素的总和。 输入描述 第一行输入为…

VS /PROFILE(性能工具探查器)的使用

/PROFILE&#xff08;性能工具探查器&#xff09; 在 Visual Studio 开发环境中设置此链接器选项 打开项目的“属性页” 对话框。 有关详细信息&#xff0c;请参阅在 Visual Studio 中设置 C 编译器和生成属性。 选择“配置属性”>“链接器”>“高级”属性页。 修改配…

动态规划之——背包DP(完结篇)

文章目录 概要说明分组背包模板例题1思路code模板例题2思路code 有依赖的背包问题模板例题思路code 背包问题求方案数模板例题思路code 背包问题求具体方案模板例题思路code 概要说明 本文讲分组背包、有依赖的背包、 背包问题求方案数以及背包问题求具体方案 入门篇(01背包和…