2024-02-19(Flume，DataX)

1.flume中拦截器的作用：个人认为就是修改或者删除事件中的信息（处理一下事件）。

2.一些拦截器

Host Interceptor，Timestamp Interceptor，Static Interceptor，UUID Interceptor，Search and Replace Interceptor，自定义拦截器

3.Channel选择器

Replicating Channel Selector，Multiplexing Channel Selector等。

功效：根据一些设置，使得传过来的事件选择走哪个channel。并且可以配合拦截器来呈现出许多不同的功效。

通过自定义的规则，来去决定事件Event发送到哪个channel。

4.Sink处理器

Sink用来消费存储在channel中的事件Event。

可以将多个sink放入到一个组中，sink处理器能够对一个组中所有的sink进行负载均衡，在一个sink出现临时错误时进行故障转移。

5.一些sink处理器

Default Sink Processor：

默认的Sink处理器只支持单个Sink。

Failover Sink Processor：

故障转移处理器维护了一个带有优先级的sink列表，故障转移机制将失败的sink放入到一个冷却池中，如果sink成功了发送事件，将其放入到活跃池中，sink可以设置优先级，优先级越高，如果一个sink发送事件失败，下一个有更高优先级的sink将被用来发送事件，比如：优先级100的比优先级80的先被使用，如果没有设置优先级，按照配置文件中配置的顺序来决定。

一个组中有sink处理器时，进行负载均衡选择sink处理器的方式是可选的，例如：轮询，随机，自定义等。

6.使用Flume导入数据到HDFS

数据导出到HDFS需要使用HDFS Sink，conf配置文件中进行相应的配置即可。

7.Flume监控

Ganglia工具。Ganglia用于测量和监控数以千计的节点（其实不外乎就是用Ganglia工具来监控Flume节点），Ganglia核心包括gmond（监控守护进程）、gmetad（元数据守护进程）以及一个web前端。主要是用来监控节点的性能，例如：cpu，memory，硬盘利用率，I/O负载，网络流量情况等，可以通过曲线见到每个节点的工作状态，对合理调整，分配系统资源，提高系统整体性能起到重要作用。

8.Flume总结

Flume是一个分布式，高可用，高可靠的海量日志采集，聚合和传输的系统，支持在日志系统中定制各类数据发送方，用于收集数据，同时提供了对数据进行简单处理并写到各种数据接收方的能力。

分布式：指通过部署多个agent来实现分布式。

高可用：通过sink的负载均衡或者副本机制来保证高可用。

高可靠：通过Channel的事务来保证高可靠。

各类数据发送方：通过可以指定很多类型的Source来实现支持各种类型的数据发送方。

eg：

对数据进行简单处理：通过拦截器，制定规则，来对数据进行修改，丢弃等操作。

写到各种数据接收方：通过支持各种类型的Sink来实现支持写到各种数据接收方的能力。

eg：

Flume的使用：

Flume的使用也非常简单，我们只需要在配置文件中配置好Flume的三大组件（Source，Channel，Sink）的相应配置，就可以使用了。

Flume的监控：使用Ganglia工具来监控Flume节点。

---------------------------------------------------------------------------------------------------------------------------------

DataX

9.DataX概述：

DataX是阿里巴巴开源的一个异构数据源（就是不同数据的来源，例如mysql，mongodb，hdfs等）的离线同步工具，致力于实现包括关系型数据库（mysql，oracle等），hdfs，hive，odps，hbase，ftp等各种异构数据源之间稳定高效的数据同步功能。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能将已有的数据源做到无缝数据同步。

如图所示：