kafka

第一章、初识Kafka

原先：

kafka，由LinkedIn公司采用Scala语言开发的一个多分区，多副本，基于Zookeeper协调的分布式消息系统，被捐献给Apache基金会。

现在

分布式流式处理平台。

高吞吐
可持久化
可水平扩展
支持流数据处理

广度：Cloudera,Storm,Spark,Flink等都支持与Kafka集成。

Kafka 三大角色

消息系统

系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。

额外，还提供了，大多数消息系统难以实现的 消息顺序性保障及回溯消费的功能。

存储系统

消息持久化到系统。得益于消息持久化功能和多副本机制。

可以把Kafka作为长期的数据存储系统来使用，只需要把对应的数据保留策略设置为“永久”或者启用主题的日志压缩功能即可。

流式处理平台

Kafka不仅为每个流行的流式处理框架提供了可靠的数据来源，还提供了一个完整的流式处理类库，比如窗口、连接、变换和聚合等各类操作。

1.1、基本概念

典型的Kafka体系，

Producer 生产者
Broker 转发（服务代理节点）
Consumer 消费者
ZooKeeper 集群（负责集群元数据的管理、控制器的选举等操作）

Topic 主题

Partion 分区（主题分区）

脑裂。

同一主题下的不同分区包含的消息是不同的，分区在存储层面可以看作一个可追加的日志（Log）文件，消息在被追加到分区日志文件的时候都会分配一个特定的偏移量（offset）。offset是消息在分区中的唯一标识，kafka通过它来保证消息在分区内的顺序性。不过offset并不跨越分区，也就是说，kafka保证的是分区有序而不是主题有序。

一个主题可以多个分区，多个broker.

重点

每一条消息被发送到broker之前，会根据分区规则选择存储到哪个具体的分区，如果分区规则设定得合理，所有的消息都可以均匀地分配到不同的分区中。可以实现水平扩展。

多副本

Kafka为分区引入了多副本（Replica）机制.通过增加副本数量，提升容灾能力。

同一分区的不同副本中，保存的是相同的消息（同一时刻，副本之间并非完全一样），副本之间是“一主多从”的关系，其中leader副本负责处理读写请求，follower副本只负责与leader副本的消息同步。副本处于不同的broker中，当leader副本出现故障时，从follower副本中重新选举新的leader副本对外提供服务。Kafka通过多副本机制实现了故障的自动转移，当Kafka集群的某个broker失效时，仍然能保证服务可用。

上面有3个broker,也就是3个服务器。

1个topic,有3个分区：partion0,partion1,partion2;

应该是3个副本因子。

副本

1、AR

AR

所有副本统称为AR(Assigned Replicas).

ISR

所有和leader副本保持一定程度同步的副本（包括leader副本在内）组成ISR(In-Synv Replicas).

ISR集合是AR集合中的一个子集。

OSR

同步滞后过多的副本（不包括leader副本）组成OSR(out-of-Sync Replicas).

AR = ISR+OSR.

正常情况下，所有的follower副本都应该与leader副本保持一定程度的同步，即AR=ISR,OSR集合为空。

ISR就是老母鸡，后面跟着一群小母鸡。看哪个小母鸡不行，就让他到第二梯队去OSR。

leader副本负责，维护和跟踪ISR集合中所有follower副本的滞后状态，当follower副本落后时太多或失效时，leader副本会把它从ISR集合中剔除。

如果OSR集合有follower副本“追上”了leader副本，那么leader副本（也会记录OSR吗）会把它从OSR集合转移至ISR集合。默认情况下，当leader副本发生故障，只有在ISR集合中的副本才有资格被选举为新的leader，而在OSR集合中的副本则没有任何机会（不过这个原则也可以通过修改相应的参数配置来改变）。

消息介绍

HW High Watermark 高水位

它标识了一个特定的消息偏移量（offset），消费者只能拉取到这个offset之前的消息。

LSO LogStartOffset

9条消息 LSO=0，最后一条消息的offset为8，那么leo为9

0-8消息，HW为6，那么消费者只能拉取到offset在0-5之间的消息，而offset为6的消息对消费者而言是不可见的。

LEO LogEndOffset

它标识当前日志文件中下一条待写入消息的offset。

LEO的大小，相当于当前日志分区中最后一条消息的offset值加1.

分区ISR集合中的每个副本都会维护自身的LEO，也就是最后一个需要加入的offset.

而ISR集合中，最小的LEO即为分区的HW，对消费者而言，只能消费HW之前的消息。漏桶效应。

消息同步时，由HW控制所有同步的副本。

当HW=LEO，也就是同步完成，全部都可以消费了。

HW和LEO

Kafka的复制机制，不是完全的同步复制，也不是单纯的异步复制。

事实上，同步复制要求所有能工作的follwer副本都复制完，这条消息才会被确认为已成功提交，这种复制方式极大地影响了性能。（同步了一部分也能用！！）
异步复制，follower副本异步地从leader副本中复制数据，数据只要被leader副本写入就被认为已经成功提交。在这种情况下，如果follower副本都还没有复制完而落后于leader副本，突然leader副本宕机，那么就会造成数据丢失。

kafka使用的这种ISR的方式则有效地权衡了数据可靠性和性能之间的关系。

安装和配置。

Zookeeper

Zookeeper

zookeeper是一个开源的分布式协调服务，是Google Chubby的一个开源实现。

分布式应用程序，可以基于Zookeeper实现诸如

数据发布/订阅
负载均衡
命名服务
分布式协调/通知
集群管理
Master选举
配置维护等功能。

Zookeeper角色

leader
follower
observer(不参与投票)

windows安装kafka

Windows中安装和使用Kafka_windows安装kafka_时间不会赖着不走的博客-CSDN博客

一，打开Kafka官网进行下载Kafka

官网地址：Apache Kafka 我下载的是2.4.0版本

二、下载完毕之后进行解压

因为Kafka的运行依赖于 Zookeeper，所以还需要下并安装Zookeeper，ZooKeeper和Kafka版本之间有一定的对应关系，不同版本的ZooKeeper和Kafka可以相互兼容，但需要满足一定的条件。 Kafka 2.2.0 开始支持使用内置的ZooKeeper替代外部ZooKeeper。所以2.4.0是不需要安装Zookeeper的,直接解压即可。

牛的。

三、启动Zookeeper

因为Kafka中的Broker注册，Topic注册，以及负载均衡都是在Zookeeper中管理，所以需要先启动内置的Zookeeper

打开之前下载的Kafka安装包，然后输入cmd

四、启动Kafka

新开一个命令行窗口，在之前的目录中输入启动命令

.\bin\windows\kafka-server-start.bat .\config\server.properties

五、测试kafka

在之前的目录中，新开一个命令行，进行创建名为“topic_test”的主题,其包含一个分区，只有一个副本

.\bin\windows\kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic topic_test

kafka3

2023年 kafka3移除了zookeeper

Apache Kafka3.0不仅引入了各种新功能，API实现了突破性更改，同时还改进了KRaft——Apache Kafka的内置共识机制将取代 Apache ZooKeeper。

Apache Kafka

但是dev是实验特性，可以不用zk，但是prod还是推荐zk.

首先还是要先弄zk吧。

1、启动Zookeeper

因为Kafka中的Broker注册，Topic注册，以及负载均衡都是在Zookeeper中管理，所以需要先启动内置的Zookeeper

打开之前下载的Kafka安装包，然后输入cmd

.\bin\windows\zookeeper-server-start.bat .\config\zookeeper.properties

先看zk的properties的配置

# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements.  See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License.  You may obtain a copy of the License at
# 
#    http://www.apache.org/licenses/LICENSE-2.0
# 
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# the directory where the snapshot is stored.
dataDir=/tmp/zookeeper
# the port at which the clients will connect
clientPort=2181
# disable the per-ip limit on the number of connections since this is a non-production config
maxClientCnxns=0
# Disable the adminserver by default to avoid port conflicts.
# Set the port to something non-conflicting if choosing to enable this
admin.enableServer=false
# admin.serverPort=8080

zk和zk的配置

.\bin\windows\zookeeper-server-start.bat .\config\zookeeper.properties

kafka和kafka的配置

.\bin\windows\kafka-server-start.bat .\config\server.properties

默认 9092

启动kafka的配置

.\bin\windows\kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic topic_test

报错。

在Kafka 2.3.0 版本之后的版本中，Kafka已经不再使用ZooKeeper作为默认的协调服务，而是使用内置的Kafka集群协调器（Kafka集群自身）。因此，您在使用kafka-topics.bat命令时，应该使用--bootstrap-server参数来指定Kafka集群的连接地址，而不是--zookeeper参数。以下是正确的命令示例：

Copy
D:\env\kafka\kafka_2.13-3.5.1>.\bin\windows\kafka-topics.bat --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1 --topic topic_test
注意，我假设您的本地Kafka集群正在运行，并且监听在默认的9092端口上。如果您的Kafka集群配置有所不同，请相应地调整--bootstrap-server参数的值。

另外，您可能还需要确保已经正确设置了Kafka的环境变量，以便在任意位置执行kafka-topics.bat命令。如果仍然遇到问题，请检查您的Kafka安装和配置是否正确，并参考Kafka的官方文档进行故障排除。

修改为

.\bin\windows\kafka-topics.bat --create --bootstrap-server localhost:2181 --replication-factor 1 --partitions 1 --topic topic-test

创建一个生产者来产生数据

.\bin\windows\kafka-console-producer.bat --broker-list localhost:9092 --topic topic_test
>aa

创建一个消费者来接收数据

.\bin\windows\kafka-console-consumer.bat --bootstrap-server localhost:9092 --topic topic_test --from-beginning

初识Kafka

第一章、初识Kafka

Kafka 三大角色

消息系统

存储系统

流式处理平台

1.1、基本概念

副本

消息介绍

Zookeeper

Zookeeper角色

windows安装kafka

一，打开Kafka官网进行下载Kafka

二、下载完毕之后进行解压

牛的。

三、启动Zookeeper

四、启动Kafka

五、测试kafka

kafka3

2023年 kafka3移除了zookeeper

Apache Kafka3.0不仅引入了各种新功能，API实现了突破性更改，同时还改进了KRaft——Apache Kafka的内置共识机制将取代 Apache ZooKeeper。

1、启动Zookeeper

zk和zk的配置

kafka和kafka的配置

启动kafka的配置

创建一个生产者来产生数据

创建一个消费者来接收数据

相关文章