生产者和消费者是Kafka的核心概念之一,它们在客户端被创建和使用,并且包含了许多与Kafka性能和机制相关的配置。虽然Kafka提供的命令行工具能够执行许多基本操作,但它无法实现所有可能的性能优化。相比之下,使用Java API可以充分利用编程语言的灵活性,对生产者和消费者进行更精细的性能调优。对于大多数中间件,熟悉服务器的命令行操作可能足以帮助学习其API的使用。然而,Kafka则不同,要全面掌握Kafka的所有特性,必须系统地学习和理解其Java API。
1. 基础消费流程
在javaApi中可以通过创建一个Kafka生产者和消费者的配置对象,在new生产者或消费者的类时将配置对象传入,然后生产者实例通过调用send方法发送数据,消费者通过poll方法消费数据,数据需要通过ProducerRecords类封装key和value,并在生产者和消费者配置中为key和value指定序列化和反序列化类(key可以传null,key是在日志回收策略中发挥作用)。经过这样一套操作,消息就可以成功从生产者发往消费者。
package com.kafak.testkafka;import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;import java.time.Duration;
import java.util.Properties;@SpringBootTest
class TestKafkaApplicationTests {//预定义Kafka对象实例,因为Kafka对象时线程安全,所以可以定义外面节省资源防止重复创建KafkaProducer<String, String> kafkaProducer;//创建生产者public KafkaProducer<String, String> getKafkaProducer() {//创建生产者配置Properties props = new Properties();//配置Kafka集群地址props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");//配置序列化props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");//返回生产者return new KafkaProducer<String, String>(props);}//创建消费者public KafkaConsumer<String, String> getKafkaConsumer() {//创建消费者配置Properties props = new Properties();//配置Kafka集群地址props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");//配置消费者组idprops.put(ConsumerConfig.GROUP_ID_CONFIG, "test-group");//配置反序列化props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");//返回消费者return new KafkaConsumer<>(props);}//通过生产者生产一百条数据@Testvoid kafkaProducerTest() {//获取生产者kafkaProducer = getKafkaProducer();//发送消息for (int i = 0; i < 100; i++) {kafkaProducer.send(new ProducerRecord<String, String>("topicJava", "testKey" + i, "testValue" + i));}}//通过消费者消费消息@Testvoid kafkaConsumerTest() {//创建消费者,由于消费者是线程不安全,所以使用一次实例化一次,可以方式出现线程安全问题KafkaConsumer<String, String> kafkaConsumer = getKafkaConsumer();//接受消费者信息,传入100毫秒,消费者会一百毫秒拉去一次消息ConsumerRecords<String, String> records = kafkaConsumer.poll(Duration.ofMillis(100));// 处理消息for (ConsumerRecord<String, String> record : records) {System.out.printf("Consumed message with key %s, value %s, from partition %d with offset %d%n",record.key(), record.value(), record.partition(), record.offset());}}}
2. 消息确认
消息确认的原理性知识可以通过下面这篇文章学习,这里主要讲实操。
Kafka运行机制(二):消息确认,消息日志的存储和回收https://blog.csdn.net/dxh9231028/article/details/141329851?spm=1001.2014.3001.5501
生产者端
生产者端的消息确认策略由acks配置项控制,其由三种配置方式,其中我在下面这篇文章中详细讲述了相关知识。我们可以通过javaApi配置acks来控制确认策略。
生产者端的消息确认有同步和异步两种方式。
- 同步消息确认:同步消息确认是生产者实例在调用send方法后紧接着调用get方法,该方法会阻塞线程的继续执行,等待消息发送结果。当消息发送失败时,如果配置了重试机制(通过设置
retries
属性),生产者会自动重试指定的次数。如果在所有重试尝试后仍然失败,最终会抛出异常,通知调用方消息发送失败。 - 异步消息确认:异步消息确认通过生产者实例调用send方法时传入,第二个回调函数的参数。在成功或失败响应时,执行回调函数,异步消息确认不会阻塞代码,也不会触发自动重试。
消费者端
消费者消费成功在客户端的体现是成功获取到了数据,这本没有什么好说的,不过消费者不仅需要响应客户端数据,还要讲偏移量发送给Kafka,在这一过程中,消费者提供了手动提交和自动提交两种方式。启动自动提交是默认开启的,而手动提交则需要配置enable.auto.commit为false,然后通过创建分区和偏移量的映射关系,通过消费者的commit方法提交偏移量。
代码实现
下面代码中,我创建了四个测试单元,其中前两个测试单元,分别是生产者同步提交和异步提交,而后两个测试单元分别时消费者的自动提交和手动提交。
package com.kafak.testkafka;import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.RecordMetadata;
import org.apache.kafka.common.TopicPartition;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;import java.time.Duration;
import java.util.HashMap;
import java.util.Map;
import java.util.Properties;@SpringBootTest
class TestKafkaApplicationTests {//预定义Kafka对象实例,因为Kafka对象时线程安全,所以可以定义外面节省资源防止重复创建KafkaProducer<String, String> kafkaProducer;//创建生产者public KafkaProducer<String, String> getKafkaProducer() {//创建生产者配置Properties props = new Properties();//配置消息确认策略props.put(ProducerConfig.ACKS_CONFIG, "all");//配置重试次数props.put(ProducerConfig.RETRIES_CONFIG,3);//配置Kafka集群地址props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");//配置序列化props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");//返回生产者return new KafkaProducer<String, String>(props);}//创建消费者public KafkaConsumer<String, String> getKafkaConsumer(Boolean isAutoCommit) {//创建消费者配置Properties props = new Properties();//配置Kafka集群地址props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");//配置消费者组idprops.put(ConsumerConfig.GROUP_ID_CONFIG, "test-group");//配置反序列化props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");//判断当前消费者是否开启自动提交if (!isAutoCommit) {//关闭自动提交props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);}else{//设置自动提交间隔时间1sprops.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, "1000");}//返回消费者return new KafkaConsumer<>(props);}//生产者同步确认@Testvoid kafkaProducerGetTest() {if(kafkaProducer == null) {kafkaProducer = getKafkaProducer();}//同步确认消息是否发送成功for (int i = 0; i < 100; i++) {try{RecordMetadata topicJava = kafkaProducer.send(new ProducerRecord<String, String>("topicJava", "testKey" + i, "testValue" + i)).get();}catch (Exception e) {e.printStackTrace();}}kafkaProducer.close();}//生产者异步确认@Testvoid kafkaProduceSyncTest() {if(kafkaProducer == null) {kafkaProducer = getKafkaProducer();}//异步确认是否发送成功for (int i = 0; i < 100; i++) {kafkaProducer.send(new ProducerRecord<String, String>("topicJava", "testKey" + i, "testValue" + i), (metadata, exception) -> {if (exception == null) {System.out.printf("发送消息成功, metadata=%s%n", metadata);} else {System.err.printf("发送消息失败, exception=%s%n", exception.getMessage());}});}kafkaProducer.close();}//消费者自动提交@Testvoid kafkaAutoCommitConsumerTest() {//创建消费者开启自动提交KafkaConsumer<String, String> kafkaConsumer = getKafkaConsumer(true);//消费数据流程中无需负责偏移量提交while (true) {//接受消费者信息,传入100毫秒,消费者会一百毫秒拉去一次消息ConsumerRecords<String, String> records = kafkaConsumer.poll(Duration.ofMillis(100));//处理消息for (ConsumerRecord<String, String> record : records) {System.out.printf("消息消费成功, key=%s, value=%s, partition=%d, offset=%d%n",record.key(), record.value(), record.partition(), record.offset());}}}//消费者手动提交@Testvoid kafkaSyncCommitConsumerTest() {//创建消费者关闭自动提交KafkaConsumer<String, String> kafkaConsumer = getKafkaConsumer(false);//消费数据流程中需要在消费数据后,提交偏移量while (true) {//接受消费者信息,传入100毫秒,消费者会一百毫秒拉去一次消息ConsumerRecords<String, String> records = kafkaConsumer.poll(Duration.ofMillis(100));// 处理消息for (ConsumerRecord<String, String> record : records) {System.out.printf("消息消费成功, key=%s, value=%s, partition=%d, offset=%d%n",record.key(), record.value(), record.partition(), record.offset());//创建分区和偏移量的映射类Map<TopicPartition, OffsetAndMetadata> offsets = new HashMap<>();//讲分区和偏移量的数据存入映射类offsets.put(new TopicPartition(record.topic(), record.partition()),new OffsetAndMetadata(record.offset() + 1));//偏移量提交kafkaConsumer.commitSync(offsets);}}}}
3. 批处理
批处理在生产者端,和消费者端也有不同的实现。我在Kakfa基本概念一文中清楚的讲解了批处理的概念,文章如下
Kafka基本概念https://blog.csdn.net/dxh9231028/article/details/141270920?spm=1001.2014.3001.5501
生产者
在生产者端,生产者实例的send方法会发送消息到缓冲区中,而缓冲区消息何时发送给Kafka集群,则是通过配置batch.size和linger.ms配置,来实现当缓冲区存入多少消息,和距离上一次发送消息多久后,来发送这一轮缓冲区的消息到Kafka集群,代码实现如下
//创建生产者public KafkaProducer<String, String> getKafkaProducer() {//创建生产者配置Properties props = new Properties();//配置生产者批处理//缓冲区大小最大为16384比特props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);//距离上次发送消息时间隔3sprops.put(ProducerConfig.LINGER_MS_CONFIG,"3000");//配置消息确认策略props.put(ProducerConfig.ACKS_CONFIG, "all");//配置重试次数props.put(ProducerConfig.RETRIES_CONFIG,3);//配置Kafka集群地址props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");//配置序列化props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");//返回生产者return new KafkaProducer<String, String>(props);}
消费者
消费者端批处理,消费者在拉去消息时,会在fetch.max.bytes,max.partition.fetch.bytes和max.poll.records三个配置项,以及传入poll方法的超时时间参数的限制下,尽可能多的拉取更多消息。
- fetch.max.bytes:fetch.max.bytes 是指 Kafka 消费者单次从服务器拉取数据时能够获取的最大字节数。这是全局的上限,控制每次 poll() 操作可以拉取的数据量总和。 默认值:50MB(即 52428800 字节)。
- max.partition.fetch.bytes:max.partition.fetch.bytes 是指 Kafka 消费者从单个分区拉取消息时能获取的最大字节数,当消费者数量少于主题分区数量时,一个消费者可能会负责多个分区。默认值:1MB(即 1048576 字节)。
- max.poll.records:max.poll.records 是指 Kafka 消费者每次调用 poll() 方法时能够拉取的最大消息条数。 默认值:500 条消息。
代码实现如下
//创建消费者public KafkaConsumer<String, String> getKafkaConsumer(Boolean isAutoCommit) {//创建消费者配置Properties props = new Properties();//消费者批处理相关配置//消费缓冲区大小,也就是一次消费最多能消费多少比特消息props.put(ConsumerConfig.FETCH_MAX_BYTES_CONFIG,16384);//一次消费一个分区最多能消费多少比特props.put(ConsumerConfig.MAX_PARTITION_FETCH_BYTES_CONFIG,8192);//一次消费最多能消费多少条数据props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG,1000);//配置Kafka集群地址props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");//配置消费者组idprops.put(ConsumerConfig.GROUP_ID_CONFIG, "test-group");//配置反序列化props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");//判断当前消费者是否开启自动提交if (!isAutoCommit) {//关闭自动提交props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);}else{//设置自动提交间隔时间1sprops.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, "1000");}//返回消费者return new KafkaConsumer<>(props);}
4. 事务操作
Kafka驱动支持事务操作,允许许生产者在多个主题和分区上以原子方式写入消息。这意味着你可以确保一组消息要么全部成功写入Kafka,要么全部失败。
事务操作首先通过生产者实例调用生产者实例的initTransactions方法,向kafka集群申请一个映射当前生产者的事务Id,然后就可以通过调用生产者实例的beginTransaction方法,开启一个事务,进行消息发送,最终通过调用commitTransaction方法完成事务的提交,如果中途发生异常则通过abortTransaction对当前事务进行回滚,代码实例如下
package com.kafak.testkafka;import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.RecordMetadata;
import org.apache.kafka.common.TopicPartition;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;import java.time.Duration;
import java.util.HashMap;
import java.util.Map;
import java.util.Properties;@SpringBootTest
class TestKafkaApplicationTests {//预定义Kafka对象实例,因为Kafka对象时线程安全,所以可以定义外面节省资源防止重复创建KafkaProducer<String, String> kafkaProducer;//创建生产者public KafkaProducer<String, String> getKafkaProducer() {//创建生产者配置Properties props = new Properties();//配置生产者批处理//缓冲区大小最大为16384比特props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);//距离上次发送消息时间隔3sprops.put(ProducerConfig.LINGER_MS_CONFIG,"3000");//配置消息确认策略props.put(ProducerConfig.ACKS_CONFIG, "all");//配置重试次数props.put(ProducerConfig.RETRIES_CONFIG,3);//配置Kafka集群地址props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");//配置序列化props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");//返回生产者return new KafkaProducer<String, String>(props);}//测试事务@Testvoid kafkaProducerTransactionTest() {if(kafkaProducer == null) {kafkaProducer = getKafkaProducer();}kafkaProducer.initTransactions();try{kafkaProducer.beginTransaction();//消息发送相关操作for (int i = 0; i < 100; i++) {try{RecordMetadata topicJava = kafkaProducer.send(new ProducerRecord<String, String>("topicJava", "testKey" + i, "testValue" + i)).get();}catch (Exception e) {e.printStackTrace();}}kafkaProducer.commitTransaction();}catch (Exception e) {e.printStackTrace();kafkaProducer.abortTransaction();}kafkaProducer.close();}}
5. 自定义分区器
Kafka允许用户自定义分区器,实现特定的分区策略。可以通过实现Partitioner接口来创建自定义分区器。实现Partitioner接口需要实现三个方法,分别是partition,configure,close。
partition方法
partition方法是实现分区逻辑其的主要方法,其接受六个参数,分别是
- String topic:消息要发送到的Kafka主题名称
- Object key:消息的 key,可能为 null。
- byte[] keyBytes:序列化后的 key,可能为 null
- Object value:消息的 value,可以为任意对象
- byte[] valueBytes:序列化后的 value,可能为 null。
- Cluster cluster:Kafka集群的元数据信息,包括主题的分区数、每个分区的领导者等
partition方法的返回值则是发送分区的编号,通过这个机制可以实现不同逻辑的分区器。
configure方法
configuer方法在自定义分区类初始化时调用,当设计一些复杂操作,比如在发送消息前要和数据库交互时,可以在configure中完成数据库的连接。
close方法
close在分区逻辑执行完后调用,和configure一样,在复杂操作时,用于关闭分区逻辑中创建的连接,或一些内存资源等
假设我有一个三主机集群,其中30主机性能最好,31其次,32最差,我要通过自定义分区,将消息发送到三个分区的比例为3:2:1,通过Partitioner接口,可以简单的通过如下方式实现
package com.kafak.testkafka;import org.apache.kafka.clients.producer.Partitioner;
import org.apache.kafka.common.Cluster;
import org.apache.kafka.common.Node;
import org.apache.kafka.common.PartitionInfo;import java.util.List;
import java.util.Map;public class CustomPartitioner implements Partitioner {@Overridepublic int partition(String s, Object o, byte[] bytes, Object o1, byte[] bytes1, Cluster cluster) {//获取分区元数据List<PartitionInfo> partitionInfos = cluster.partitionsForTopic(s);//创建一个0-100的随机数double num = Math.random() * 100;//默认传递分区号Integer finalPartition = 0;for (PartitionInfo partitionInfo : partitionInfos) {//获取分区的leaderNode leader = partitionInfo.leader();//获取分区leader的ip和端口String leaderAddress = leader.host() + ":" + leader.port(); // 生成 "host:port" 格式的字符串//如果随机数在0-50之间,发送消息至192.168.142.30:9092if (num < 50 && leaderAddress.equals("192.168.142.30:9092")) {finalPartition = partitionInfo.partition();break; //如果随机数在50-82之间,发送消息至192.168.142.31:9092} else if (num < 82 && num >= 50 && leaderAddress.equals("192.168.142.31:9092")) {finalPartition = partitionInfo.partition();break;//如果随机数在82-100之间,发送消息至192.168.142.32:9092} else if (num < 100 && num >= 82 && leaderAddress.equals("192.168.142.32:9092")) {finalPartition = partitionInfo.partition();break;}}//返回最终分区号return finalPartition;}@Overridepublic void close() {}@Overridepublic void configure(Map<String, ?> map) {}
}
在生产者配置中通过partitioner_class配置自定义分区器,代码如下
public KafkaProducer<String, String> getKafkaProducer() {//创建生产者配置Properties props = new Properties();//启用自定义分区器props.put(ProducerConfig.PARTITIONER_CLASS_CONFIG,"com.kafak.testkafka.CustomPartitioner");//配置生产者批处理//缓冲区大小最大为16384比特props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);//距离上次发送消息时间隔3sprops.put(ProducerConfig.LINGER_MS_CONFIG,"3000");//配置消息确认策略props.put(ProducerConfig.ACKS_CONFIG, "all");//配置重试次数props.put(ProducerConfig.RETRIES_CONFIG,3);//配置Kafka集群地址props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");//配置序列化props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");//返回生产者return new KafkaProducer<String, String>(props);}
如此,便可以实现一个自定义分区策略。