Kafka 架构深入探索

目录

一、Kafka 工作流程及文件存储机制

二、数据可靠性保证

三 、数据一致性问题

3.1follower 故障 

3.2leader 故障 

四、ack 应答机制

五、部署Filebeat+Kafka+ELK 

5.1环境准备

5.2部署ELK

5.2.1部署 Elasticsearch 软件

5.2.1.1修改elasticsearch主配置文件

5.2.1.2启动elasticsearch是否成功开启

5.2.1.3安装 Elasticsearch-head 插件

5.2.1.3.1编译安装 node

5.2.1.3.2安装 phantomjs(前端的框架)

5.2.1.3.3安装 Elasticsearch-head 数据可视化工具

5.2.1.3.4启动 elasticsearch-head 服务

5.2.2ELK-Logstash部署(在Apache节点上操作)

5.2.1.1安装Apahce服务(httpd)

5.2.1.2安装Java环境

5.2.1.3安装logstash

5.2.1.4测试 Logstash

5.2.3ELK Kiabana 部署(在 Node1 节点上操作)

安装Kibana

设置 Kibana 的主配置文件

启动 Kibana 服务

验证 Kibana

5.3ELFK(Filebeat+ELK)

5.3.1设置 filebeat 的主配置文件

5.3.2在logstash组件所在节点(apache节点)上新建一个logstash配置文件

5.4zookeeper集群部署

5.5部署 Zookeeper+Kafka 集群

5.6部署 Filebeat 

5.7 修改Logstash节点配置并启动


一、Kafka 工作流程及文件存储机制

Kafka 中消息是以 topic 进行分类的,生产者生产消息,消费者消费消息,都是面向 topic 的

topic 是逻辑上的概念,而 partition 是物理上的概念,每个 partition 对应于一个 log 文件,该 log 文件中存储的就是 producer 生产的数据。

Producer 生产的数据会被不断追加到该 log 文件末端,且每条数据都有自己的 offset。

消费者组中的每个消费者,都会实时记录自己消费到了哪个 offset,以便出错恢复时,从上次的位置继续消费。

由于生产者生产的消息会不断追加到 log 文件末尾,为防止 log 文件过大导致数据定位效率低下,

Kafka 采取了分片和索引机制,将每个 partition 分为多个 segment

每个 segment 对应两个文件:“.index” 文件和 “.log” 文件。

这些文件位于一个文件夹下,该文件夹的命名规则为:topic名称+分区序号。

例如,test 这个 topic 有三个分区, 则其对应的文件夹为 test-0、test-1、test-2。

index 和 log 文件以当前 segment 的第一条消息的 offset 命名。

“.index” 文件存储大量的索引信息,“.log” 文件存储大量的数据,索引文件中的元数据指向对应数据文件中 message 的物理偏移地址。

二、数据可靠性保证

  • 为保证 producer 发送的数据,能可靠的发送到指定的 topic,
  • topic 的每个 partition 收到 producer 发送的数据后, 都需要向 producer 发送 ack(acknowledgement 确认收到)
  • 如果 producer 收到 ack,就会进行下一轮的发送,否则重新发送数据。

三 、数据一致性问题

LEO:指的是每个副本最大的 offset; 
HW:指的是消费者能见到的最大的 offset,所有副本中最小的 LEO。

3.1follower 故障 

follower 发生故障后会被临时踢出 ISR(Leader 维护的一个和 Leader 保持同步的 Follower 集合),待该 follower 恢复后,follower 会读取本地磁盘记录的上次的 HW,并将 log 文件高于 HW 的部分截取掉,从 HW 开始向 leader 进行同步。等该 follower 的 LEO 大于等于该 Partition 的 HW,即 follower 追上 leader 之后,就可以重新加入 ISR 了。

3.2leader 故障 

leader 发生故障之后,会从 ISR 中选出一个新的 leader, 之后,为保证多个副本之间的数据一致性,其余的 follower 会先将各自的 log 文件高于 HW 的部分截掉,然后从新的 leader 同步数据。

注:这只能保证副本之间的数据一致性,并不能保证数据不丢失或者不重复。 

四、ack 应答机制

对于某些不太重要的数据,对数据的可靠性要求不是很高,能够容忍数据的少量丢失,所以没必要等 ISR 中的 follower 全部接收成功。

所以 Kafka 为用户提供了三种可靠性级别,用户根据对可靠性和延迟的要求进行权衡选择。

当 producer 向 leader 发送数据时,可以通过 request.required.acks 参数来设置数据可靠性的级别:

  • 0:这意味着producer无需等待来自broker的确认而继续发送下一批消息。

这种情况下数据传输效率最高,但是数据可靠性确是最低的。当broker故障时有可能丢失数据。

  • 1(默认配置):这意味着producer在ISR中的leader已成功收到的数据并得到确认后发送下一条message。

如果在follower同步成功之前leader故障,那么将会丢失数据。

  • -1(或者是all):producer需要等待ISR中的所有follower都确认接收到数据后才算一次发送完成,可靠性最高

但是如果在 follower 同步完成后,broker 发送ack 之前,leader 发生故障,那么会造成数据重复。

三种机制性能依次递减,数据可靠性依次递增。

注:在 0.11 版本以前的Kafka,对此是无能为力的,只能保证数据不丢失,再在下游消费者对数据做全局去重。在 0.11 及以后版本的 Kafka,引入了一项重大特性:幂等性。所谓的幂等性就是指 Producer 不论向 Server 发送多少次重复数据, Server 端都只会持久化一条

五、部署Filebeat+Kafka+ELK 

数据流向

5.1环境准备

服务器配置主机名ip地址主要软件部署
node1节点2C/4Gnode1192.168.246.8ElasticSearch、Kibana、Zookeeper、Kafka
node2节点2C/4Gnode2192.168.246.12ElasticSearch、Zookeeper、Kafka
logstash节点2C/4Gapache192.168.246.10Logstash、Apache、Zookeeper、Kafka
filebeat节点-filebeat192.168.246.11Filebeat、Zookeeper、Kafka

5.2部署ELK

systemctl stop firewalld
setenforce 0
hostnamectl set-hostname node2
hostnamectl set-hostname node1

由于原来的7-3虚拟机损坏,换一台7-6虚拟机做node2

5.2.1部署 Elasticsearch 软件

192.168.246.8和192.168.246.12机器安装 elasticsearch-5.5.0.rpm

cd /opt
rpm -ivh elasticsearch-5.5.0.rpm 

5.2.1.1修改elasticsearch主配置文件
systemctl daemon-reload 
systemctl enable elasticsearch.service
cp /etc/elasticsearch/elasticsearch.yml /etc/elasticsearch/elasticsearch.yml.bak
vim /etc/elasticsearch/elasticsearch.yml
 vim /etc/elasticsearch/elasticsearch.yml
---------------------------------------
##17行,取消注释,指定群集名称cluster.name: my-elk-cluster
##23行,取消注释,指定节点名称(node1节点为node1,node2节点为node2)node.name: node1
##33行,取消注释,指定数据存放路径path.data: /data/elk_data
##37行,取消注释,指定日志存放路径path.logs: /var/log/elasticsearch/
##43行,取消注释,改为在启动的时候不锁定内存,开启为truebootstrap.memory_lock: false
##55行,取消注释,设置监听地址,0.0.0.0代表所有地址network.host: 0.0.0.0
##59行,取消注释,ES服务的默认监听端口为9200http.port: 9200
##68行,取消注释,集群发现通过单播实现,指定要发现的节点node1、node2discovery.zen.ping.unicast.hosts: ["node1", "node2"]

5.2.1.2启动elasticsearch是否成功开启
mkdir -p /data/elk_data
chown elasticsearch:elasticsearch /data/elk_data/
systemctl start elasticsearch.service 
netstat -natp| grep 9200

浏览器访问

​浏览器访问 
http://192.168.246.8:9200 和http://192.168.246.9:9200 查看节点 Node1、Node2 的信息。
----------------------------------------
浏览器访问 
http://192.168.246.8:9200/_cluster/health?pretty  http://192.168.246.9:9200/_cluster/health?pretty
#查看群集的健康情况,可以看到 status 值为 green(绿色), 表示节点健康运行。

由于原来的7-3虚拟机损坏,换一台7-6虚拟机做node2

5.2.1.3安装 Elasticsearch-head 插件

方便好看的清晰

只需要安装一台,此处在node1上安装

5.2.1.3.1编译安装 node
#上传软件包 node-v8.2.1.tar.gz 到/optyum install gcc gcc-c++ make -ycd /opt
tar zxvf node-v8.2.1.tar.gzcd node-v8.2.1/
./configure
make -j 4 && make install
5.2.1.3.2安装 phantomjs(前端的框架)

以node1为例

cd /opt
tar jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2 -C /usr/local/src/
cd /usr/local/src/phantomjs-2.1.1-linux-x86_64/bin/
cp phantomjs /usr/local/bin/
5.2.1.3.3安装 Elasticsearch-head 数据可视化工具
cd /opt
tar xf elasticsearch-head.tar.gz -C /usr/local/src/
cd /usr/local/src/elasticsearch-head
npm install
vim /etc/elasticsearch/elasticsearch.yml
---------------------------------
G到配置文件末尾,添加以下内容
http.cors.enabled: true  #开启跨域访问支持,默认为 false
http.cors.allow-origin: "*"  #指定跨域访问允许的域名地址为所有
--------------------------------
systemctl restart elasticsearch.service

systemctl restart elasticsearch.service 
ss -natp|grep 9200
5.2.1.3.4启动 elasticsearch-head 服务
cd /usr/local/src/elasticsearch-head/
npm run start &
netstat -natp |grep 9100

通过浏览器输入http://192.168.246.8:9100/ 去访问,然后Elasticsearch 输入下面网址访问http://192.168.246.8:9200/ 地址并连接群集。如果看到群集健康值为 green 绿色,代表群集很健康

curl -X PUT 'localhost:9200/index-demo1/test/1?pretty&pretty' -H 'content-Type: application/json' -d '{"user":"zhangsan","mesg":"hello world"}'

5.2.2ELK-Logstash部署(在Apache节点上操作)

hostnamectl set-hostname apache
5.2.1.1安装Apahce服务(httpd)
yum install httpd -y
systemctl start httpd
5.2.1.2安装Java环境
java -version如果没有jdk就yum -y install java 安装
5.2.1.3安装logstash
​#上传软件包 logstash-5.5.1.rpm 到/opt目录下
cd /opt
---------------------------
rpm -ivh logstash-5.5.1.rpm systemctl start logstash.service 
systemctl enable logstash.serviceln -s /usr/share/logstash/bin/logstash /usr/local/bin/
5.2.1.4测试 Logstash

参考之前文章

5.2.3ELK Kiabana 部署(在 Node1 节点上操作)

安装Kibana
cd /opt
rpm -ivh kibana-5.5.1-x86_64.rpm
cp /etc/kibana/kibana.yml /etc/kibana/kibana.yml.bak
vim /etc/kibana/kibana.yml
设置 Kibana 的主配置文件
##2行,取消注释,kibana服务的默认监听端口为5601
server.port: 5601
##7行,取消注释,设置kibana的监听地址,0.0.0.0代表所有地址
server.host: "0.0.0.0"
##21行,取消注释,设置和ES建立连接的地址和端口
elasticsearch.url: "http://192.168.246.8:9200"
##30行,取消注释,设置在ES中添加.kibana索引
kibana.index: ".kibana"
启动 Kibana 服务
systemctl start kibana.service 
systemctl enable kibana.service
验证 Kibana

浏览器访问 http://192.168.246.8:5601

5.3ELFK(Filebeat+ELK)

在ELK的基础上,增加一台filebeat服务器,因此只需再前述ELK部署的前提下进一步操作

hostnamectl set-hostname filebeat
su
systemctl stop firewalld
systemctl disable firewalld
setenforce 0

5.3.1设置 filebeat 的主配置文件
cp /etc/filebeat/filebeat.yml /etc/filebeat/filebeat.yml.bak
vim /etc/filebeat/filebeat.yml

filebeat节点

cd /usr/local/filebeat/
cp filebeat.yml filebeat.yml.bak
vim filebeat.yml-----------------
filebeat.prospectors:
##21行,指定log类型,从日志文件中读取消息- type: log
##24行,开启日志收集功能,默认为false  enabled: true
##28行,指定监控的日志文件    - /var/log/*.log
##29行,添加收集/var/log/messages    - /var/log/messages
##31行,添加以下内容,注意格式 
fields:     
service_name: filebeat    
log_type: log    
service_id: 192.168.246.11
#-------------------------- Elasticsearch output ------------------------------
该区域内容全部注释
#----------------------------- Logstash output --------------------------------
##157行,取消注释output.logstash:
##159行,取消注释,指定logstash的IP和端口号  hosts: ["192.168.246.10:5044"] ./filebeat -e -c filebeat.yml
#启动filebeat,-e记录到stderr并禁用syslog /文件输出,-c指定配置文件

其它修改参见如上

5.3.2在logstash组件所在节点(apache节点)上新建一个logstash配置文件

(apache节点)

cd /etc/logstash/conf.d/
vim logstash.conf
input {beats {port => "5044"}
}
output {elasticsearch {hosts => ["192.168.246.8:9200"]index => "%{[fields][service_name]}-%{+YYYY.MM.dd}"}stdout {codec => rubydebug}
}

systemctl restart logstash.service
/usr/share/logstash/bin/logstash -f logstash.conf

5.4zookeeper集群部署

参考之前文章

192.168.246.8和192.168.246.12和192.168.246.10三台机器都要搭建zookeeper

5.5部署 Zookeeper+Kafka 集群

参考之前文章

192.168.246.8和192.168.246.12和192.168.246.10三台机器都要搭建 Zookeeper+Kafka

(架构在搭好Zookeeper集群之上继续搭建)

当生产者发布数据,和消费者消费数据不是同时开,顺序可能会有出入,例如

5.6部署 Filebeat 

要搭建ELK,可见之前的文章,接着写

修改Filebeat节点配置并启动

mv filebeat.yml filebeat.yml.qian
cp filebeat.yml.bak filebeat.yml
vim filebeat.yml

cd /usr/local/filebeatvim filebeat.ymlfilebeat.prospectors:
- type: logenabled: truepaths:- /var/log/httpd/access_logtags: ["access"]- type: logenabled: truepaths:- /var/log/httpd/error_logtags: ["error"]
#添加输出到 Kafka 的配置output.kafka:enabled: truehosts: ["192.168.246.8:9092","192.168.246.12:9092","192.168.246.10:9092"]    #指定 Kafka 集群配置topic: "httpd"    #指定 Kafka 的 topic

添加输出到 Kafka 的配置

output.kafka:enabled: truehosts: ["192.168.246.8:9092,192.168.246.12:9092,192.168.246.10:9092"]topic: "httpd"

启动filebeat

#启动 filebeat
./filebeat -e -c filebeat.yml

由于使用rpm安装,直接systemctl 启动就好

5.7 修改Logstash节点配置并启动

部署 ELK在 Logstash 组件所在节点上新建一个 Logstash 配置文件

Logstash节点配置

​cd /etc/logstash/conf.d/vim kafka.conf
--------------------------------------------
input {kafka {bootstrap_servers =>"192.168.246.8:9092,192.168.246.12:9092,192.168.246.10:9092" #kafka集群地址topics  => "httpd"     #拉取的kafka的指定topictype => "httpd_kafka"  #指定 type 字段codec => "json"        #解析json格式的日志数据auto_offset_reset => "latest"  #拉取最近数据,earliest为从头开始拉取decorate_events => true   #传递给elasticsearch的数据额外增加kafka的属性数据}
}output {if "access" in [tags] {elasticsearch {hosts => ["192.168.246.8:9200"]index => "httpd_access-%{+YYYY.MM.dd}"}}if "error" in [tags] {elasticsearch {hosts => ["192.168.246.8:9200"]index => "httpd_error-%{+YYYY.MM.dd}"}}stdout { codec => rubydebug }
}-------------------------------------
#启动 logstash
logstash -f kafka.conf​

input {kafka {bootstrap_servers => "192.168.246.8:9092,192.168.246.12:9092,192.168.246.10:9092"topics  => "httpd"type => "httpd_kafka"codec => "json"auto_offset_reset => "latest"decorate_events => true}
}
output {if "access" in [tags] {elasticsearch {hosts => ["192.168.246.8:9200"]index => "httpd_access-%{+YYYY.MM.dd}"}}if "error" in [tags] {elasticsearch {hosts => ["192.168.246.8:9200"]index => "httpd_error-%{+YYYY.MM.dd}"}}stdout { codec => rubydebug }
}

收集日志查看日志 
注:生产黑屏操作es时查看所有的索引:curl -X GET "localhost:9200/_cat/indices?v"

直接虚拟机查看有没有索引

生产黑屏操作es时查看所有的索引:curl -X GET "localhost:9200/_cat/indices?v"

浏览器访问 http://192.168.246.8:9100 登录查看索引

上面两个意思一样,可以文字浏览器查看,也可以直接浏览器查看索引是否有

浏览器访问 http://192.168.246.8:5601 登录 Kibana,单击“Create Index Pattern”按钮添加索引“filebeat_test-*”,单击 “create” 按钮创建,单击 “Discover” 按钮可查看图表信息及日志信息。
 

排错思路
1、ES节点是否都正常 使用netstat -natp|grep java 查看9200和9300是否开启

2、filebeat作为生产者将数据推送到kafka,查看kafka中的topic是否有生成

3、在logstash中添加stdout输出,如果屏幕有内容,那么表示kafka与logstash对接成功了

4、filebeat、logstash的配置多次检查

5、环境问题,比如安全机制、防火墙等

6、如果是多次实验使用相同的nginx日志,可以删除/usr/share/logstash/data的.lock隐藏文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/309305.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

事务隔离级别的无锁实现方式 -- MVCC

MVCC的全称是Multiversion Concurrency Control(多版本并发控制器),是一种事务隔离级别的无锁的实现方式,用于提高事务的并发性能,即事务隔离级别的一种底层实现方式。 在了解MVCC之前,我们先来回顾一些简单的知识点:…

终端工具命令行颜色配置(解决终端工具连上服务器之后,无颜色问题)

本期主题: 讲解使用mobaxterm等终端工具连上服务器,但是命令行没有颜色的问题 目录 1. 问题描述2. 原因解释3.测试 1. 问题描述 使用终端工具(Mobaxterm等)连上服务器之后,发现终端工具没有颜色,如下图&am…

API接口京东开放平台item_get-获得京东商品详情API接口根据商品ID查询商品标题价格描述等详情数据

京东商品详情API接口可以提供以下方面的信息: 商品基础信息:包括商品的标题、价格、描述、图片等基本信息,这是构建电商平台的基础数据。商品分类信息:帮助用户更好地了解商品所属的类别,便于商品筛选和查找。商品销售…

RK3568平台 驱动实现IIC设备读取十六位寄存器状态

一.项目需求 要求读取GVS2715这个IIC设置寄存器的值来获取版本号,GVS2715这个芯片是十六位寄存器。 当使用i2ctool工具读取十六位寄存器的时候,发现无法读取出来,读取的都是XXXX。 二.从零开始写IIC设备驱动读取十六位寄存器的状态 #includ…

CentOS 7安装Zookeeper

说明:本文介绍如何在CentOS 7操作系统下使用Zookeeper 下载安装 首先,去官网下载所需要安装的版本,我这里下载3.4.9版本; 上传到云服务器上,解压 tar -xvf zookeeper-3.4.9.tar.gz修改配置 进入Zookeeper目录下的co…

Spark-机器学习(1)什么是机器学习与MLlib算法库的认识

从这一系列开始,我会带着大家一起了解我们的机器学习,了解我们spark机器学习中的MLIib算法库,知道它大概的模型,熟悉并认识它。同时,本篇文章为个人spark免费专栏的系列文章,有兴趣的可以收藏关注一下&…

前端标记语言HTML

HTML(HyperText Markup Language)是一种用于创建网页的标准标记语言。它是构建和设计网页及应用的基础,通过定义各种元素和属性,HTML使得开发者能够组织和格式化文本、图像、链接等内容。 HTML的基本结构 文档类型声明&#xff0…

SpringBoot+FreeMaker

目录 1.FreeMarker说明2.SpringBootFreeMarker快速搭建Pom文件application.properties文件Controller文件目录结构 3.FreeMarker数据类型3.1.布尔类型3.2.数值类型3.3.字符串类型3.4.日期类型3.5.空值类型3.6.sequence类型3.7.hash类型 4.FreeMarker指令assign自定义变量指令if…

开源版中文和越南语贷款源码贷款平台下载 小额贷款系统 贷款源码运营版

后台 代理 前端均为vue源码,前端有中文和越南语 前端ui黄色大气,逻辑操作简单,注册可对接国际短信,可不对接 用户注册进去填写资料,后台审批,审批状态可自定义修改文字显示 源码免费下载地址抄笔记 (chaob…

详解构造函数

前言 希望这篇文章是有意义的,能够帮助初学者理清构造函数的概念,关系及误区。首先定义一个日期类,借助日期类讲解构造函数。 class Date {public:void Init(int year, int month, int day) //初始化数据的方法{_year year;_month month…

CDP7 下载安装 Flink Percel 包

下载链接:https://www.cloudera.com/downloads/cdf/csa-trial.html 点击后选择版本, 然后点击download now,会有一个协议,勾选即可,然后就有三个文件列表, 我这里是已经注册登录的状态,如果没…

64B/66B GT Transceiver 配置

一、前言 前一篇文章已经讲述了64B/66B的编码原理,此篇文章来配置一下7系列GT的64B/66B编码。并讲述所对应的例子工程的架构,以及部分代码的含义。 二、IP核配置 1、打开7 Series FPGAs Transceiver Wizards,选择将共享逻辑放置在example …

【面试题】s += 1 和 s = s + 1的区别

文章目录 1.问题2.发现过程3.解析 1.问题 以下两个程序真的完全等同吗? short s 0; s 1; short s 0; s s 1; 2.发现过程 初看s 1 和 s s 1好像是等价的,没有什么区别。很长一段时间内我也是这么觉得,因为当时学习c语言的时候教科书…

【数据挖掘】实验6:初级绘图

实验6:初级绘图 一:实验目的与要求 1:了解R语言中各种图形元素的添加方法,并能够灵活应用这些元素。 2:了解R语言中的各种图形函数,掌握常见图形的绘制方法。 二:实验内容 【直方图】 Eg.1&…

【linux深入剖析】深入理解软硬链接 | 动静态库的制作以及使用

🍁你好,我是 RO-BERRY 📗 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 🎄感谢你的陪伴与支持 ,故事既有了开头,就要画上一个完美的句号,让我们一起加油 目录 1.理解软硬链接1.1 操作观…

pyqt和opencv结合01:读取图像、显示

在这里插入图片描述 1 、opencv读取图像用于pyqt显示 # image cv2.imread(file_path)image cv2.cvtColor(image, cv2.COLOR_BGR2RGB)# 将图像转换为 Qt 可接受的格式height, width, channel image.shapebytes_per_line 3 * widthq_image QImage(image.data, width, hei…

vue3 uniapp微信登录

根据最新的微信小程序官方的规定,uniapp中的uni.getUserInfo方法不再返回用户头像和昵称、以及手机号 首先,需获取appID,appSecret,如下图 先调用uni.getUserInfo方法获取code,然后调用后台的api,传入code&…

ssm049基于Vue.js的在线购物系统的设计与实现+vue

在线购物系统 摘 要 随着科学技术的飞速发展,各行各业都在努力与现代先进技术接轨,通过科技手段提高自身的优势;对于在线购物系统当然也不能排除在外,随着网络技术的不断成熟,带动了在线购物系统,它彻底改…

【氮化镓】GaN HEMTs结温和热阻测试方法

文章《Temperature rise detection in GaN high-electron-mobility transistors via gate-drain Schottky junction forward-conduction voltages》,由Xiujuan Huang, Chunsheng Guo, Qian Wen, Shiwei Feng, 和 Yamin Zhang撰写,发表在《Microelectroni…

Linux调试器之gdb

前言 我们前面介绍了几个基本的环境开发工具。例如通过yum我们可以安装和卸载软件、通过vim我们可以写代码、通过gcc和g我们可以编译代码成可执行程序。但是如何在Linux下调试代码呢?我们并未介绍,本期我们将来介绍最后一个工具 --- 调试器gdb。 本期内…