CentOS安装Flume

CentOS安装Flume

    • 一、简介
    • 二、安装
      • 1、下载
      • 2、解压
      • 3、创建配置文件
      • 4、启动flume agent
      • 5、验证

一、简介

        Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.
        Flume是一种分布式、高可靠且高可用的服务,用于高效地收集、聚合和转移不同来源的大量日志数据。Event是Flume定义的一个数据流传输的最小单元。Agent是一个Flume的实例,本质是一个JVM进程,该JVM进程控制Event从外部日志生产者那里将数据传输到目的地或者下一个Agent。
        一个完整的Agent中包含了必须的三个组件Source、Channel和Sink,Source是指数据源的获取方式,Channel是一个数据的缓冲池,Sink定义了数据输出的方式和目的地(这三个组件是必须有的,另外还有很多可选的组件interceptor、channel selector、sink processor等)。完整流程可以参考下图:
在这里插入图片描述
        Flume也可以设置多级Agent连接的方式传输Event数据,完整流程可以参考下图:
在这里插入图片描述

源码地址

官网地址

中文说明文档可参考这里

源码地址

二、安装

1、下载

本次使用版本V1.11.0
apache-flume-1.11.0-bin.tar.gz
在这里插入图片描述

2、解压

tar -zxvf apache-flume-1.11.0-bin.tar.gz

在这里插入图片描述

3、创建配置文件

本次目标将指定的log文件数据读取出来同步到hdfs中,创建配置文件file2hdfs.conf,具体配置如下:

a1.sources=r1
a1.sinks=k1
a1.channels=c1a1.sources.r1.type=taildir
a1.sources.r1.filegroups=f1
a1.sources.r1.filegroups.f1=/wz_program/flume1.11.0/data/111.log
a1.sources.r1.positionFile=/wz_program/flume1.11.0/data/taildir.json
a1.sources.r1.fileHeader=truea1.sinks.k1.type=hdfs
a1.sinks.k1.hdfs.path=hdfs://hadoop001:8020/tmp/flume3
a1.sinks.k1.hdfs.rollSize=1048576
a1.sinks.k1.hdfs.rollInterval=0
a1.sinks.k1.hdfs.rollCount=0
a1.sinks.k1.hdfs.useLocalTimeStamp=true
a1.sinks.k1.hdfs.writeFormat=Text
a1.sinks.k1.hdfs.minBlockReplicas=1
a1.sinks.k1.hdfs.fileType=DataStreama1.channels.c1.type=memory
a1.channels.c1.capacity=100
a1.channels.c1.transactionCapacity=100a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

配置说明如下:

  • 如上配置文件指定了一个名为a1的Agent,其中a1的source为r1,sink为k1,channel为c1
  • r1的类型为taildir,该类型的source监控指定的一些文件,并在检测到新的一行数据产生的时候几乎实时地读取它们。
  • c1类型为memory,该类型的channel是把 Event 队列存储到内存上,队列的最大数量就是 capacity 的设定值。
  • k1的类型为hdfs,该类型的sink是将Event写入Hadoop分布式文件系统。

Taildir Source说明:
在这里插入图片描述
Memory Channel说明如下:
在这里插入图片描述
HDFS Sink说明如下:
在这里插入图片描述

4、启动flume agent

进入到flume的解压目录下执行如下命令,注意更换配置文件的路径:

./bin/flume-ng agent --conf ./conf --conf-file ../file2hdfs.conf --name a1 &

解压目录下可查询flume运行的日志记录:
在这里插入图片描述
启动命令说明如下:

--name 后面的名称需要配置为自己的agent名称,也就是自己--conf-file文件中配置的第一个单词,我的配置为a1

5、验证

不断向111.log文件中写入内容,进入到hdfs中查看log文件是否已同步到指定的路径中:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/241985.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java多线程知识汇总(二)

目录 一、Java多线程1、进程与线程2、并行与并发二、线程的礼让三、线程的优先级四、守护线程五、线程的阻塞 六、线程的打断 七、线程的相关方法总结同步锁线程安全synchronized线程通信waitnotify 一、Java多线程 1、进程与线程 进程 当一个程序被运行,就开启…

SQL性能分析

SQL性能分析 1、SQL执行频率 ​ MySQL 客户端连接成功后,通过 show [session|global] status 命令可以提供服务器状态信 息。通过如下指令,可以查看当前数据库的INSERT、UPDATE、DELETE、SELECT的访问频次: -- session 是查看当前会话 ; …

《游戏-02_2D-开发》

基于《游戏-01_2D-开发》, 继续制作游戏: 首先给人物添加一个2D重力效果 在编辑的项目设置中, 可以看出unity默认给的2D重力数值是-9.81,模拟现实社会中的重力效果 下方可以设置帧率 而Gravity Scale代表 这个数值会 * 重力 还…

erlang (OS 操作模块)学习笔记

cmd: env: 返回所有环境变量的列表。 每个环境变量都表示为元组 {VarName,Value},其中 VarName 是 变量和 Value 其值。 例: {VarName,Value} {"ERLANG_HOME","C:\\Program Files\\erl-24.3.4.2\\bin\\erl-24.3.4.2"}…

Linux多线程——互斥锁

本质Gitee仓库:互斥锁、锁封装 文章目录 1. 线程互斥2. 互斥锁2.1 锁的初始化与释放2.2 加锁与解锁 3. 锁的原理4. 锁的封装5. 线程安全与可重入函数 1. 线程互斥 一个共享资源在被多个线程并发访问的时候,可能会出现一个线程正在访问,而另一个线程又来…

Elasticsearch 分布式架构剖析及扩展性优化

1. 背景 Elasticsearch 是一个实时的分布式搜索分析引擎,简称 ES。一个集群由多个节点组成,节点的角色可以根据用户的使用场景自由配置,集群可以以节点为单位自由扩缩容,数据以索引、分片的形式散列在各个节点上。本文介绍 ES 分布…

交叉编译工具 aarch64-linux-gnu-gcc 的介绍与安装

AArch64 是随 ARMv8 ISA 一起引入的 64 位架构,用于执行 A64 指令的计算机。而且在 AArch64 状态下执行的代码只能使用 A64 指令集。,而不能执行 A32 或 T32 指令。但是,与 AArch32 中不同,在64位状态下,指令可以访问 …

离线数据仓库-关于增量和全量

数据同步策略 数据仓库同步策略概述一、数据的全量同步二、数据的增量同步三、数据同步策略的选择 数据仓库同步策略概述 应用系统所产生的业务数据是数据仓库的重要数据来源,我们需要每日定时从业务数据库中抽取数据,传输到数据仓库中,之后…

十八周周报

文章目录 摘要文献阅读3D reconstruction of human bodies from single-view and multi-view images: A systematic review简介研究方法搜索策略选择标准搜索结果 三维重建方法单个视图中使用的技术基于参数化人体模型的回归基于非参数人体模型的回归 多个视图中使用的技术基于…

傲空间私有部署Windows指南

推荐阅读 智能化校园:深入探讨云端管理系统设计与实现(一) 智能化校园:深入探讨云端管理系统设计与实现(二) 安装 docker 请下载对应的 Docker,安装完成后启动。 Docker Desktop for Windows…

【论文笔记】Fully Sparse 3D Panoptic Occupancy Prediction

原文链接:https://arxiv.org/abs/2312.17118 1. 引言 现有的3D占用预测方法建立密集的3D特征,没有考虑场景的稀疏性,因此难以满足实时要求。此外,这些方法仅关注语义占用,无法区分实例。 本文认为场景的稀疏性包含两…

使用Sqoop从Oracle数据库导入数据

在大数据领域,将数据从关系型数据库(如Oracle)导入到Hadoop生态系统是一项常见的任务。Sqoop是一个强大的工具,可以帮助轻松完成这项任务。本文将提供详细的指南,以及丰富的示例代码,帮助了解如何使用Sqoop…

java:流程控制

一、流程控制语句分类 顺序结构分支结构(if,switch)循环结构(for,while,do...while) 二、顺序结构 定义:顺序结构是程序中最基本的流程控制,没有特定的语法结构&#…

MySQL三大日志

1. redo log 1.1 特点 InnoDB存储引擎独有物理日志,记录在数据页上做的修改让MySQL拥有了崩溃恢复能力,保证事务的持久性 1.2 刷盘时机 事务提交时log buffer 空间使用大约一半时事务日志缓冲区满InnoDB 定期执行检查点Checkpoint后台刷新线程&#…

【数据结构和算法】奇偶链表

其他系列文章导航 Java基础合集数据结构与算法合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一、题目描述 二、题解 2.1 方法一:分离节点后合并 三、代码 3.1 方法一:分离节点后合并 四、复杂度分…

详细介绍IP 地址、网络号和主机号、ABC三类、ip地址可分配问题、子网掩码、子网划分

1、 IP 地址: 网络之间互连的协议,是由4个字节(32位二进制)组成的逻辑上的地址。 将32位二进制进行分组,分成4组,每组8位(1个字节)。【ip地址通常使用十进制表示】ip地址分成四组之后,在逻辑上,分成网络号和主机号 2…

phpmyadmin 创建服务器

phpmyadmin默认的服务器是localhost 访问setup,创建新的服务器 添加服务器信息 点击应用,服务器创建成功 下载配置文件config.inc.php,放到WWW目录下 可再次访问setup,发现已配置过了 访问登录页面,发现可选…

关闭Windows自动更新的6种方法

关闭Windows自动更新的6种方法! 方法一:通过Windows设置关闭Windows自动更新 步骤1. 按WinI打开Windows设置页面。步骤2. 单击“更新和安全”>“Windows更新”,然后在右侧详情页中选择“暂停更新7天”选项即可在此后7天内关闭Windows更新…

Go语言基础快速上手

1、Go语言关键字 2、Go数据类型 3、特殊的操作 3.1、iota关键字 Go中没有明确意思上的enum(枚举)定义,不过可以借用iota标识符实现一组自增常亮值来实现枚举类型。 const (a iota // 0b // 1c 100 // 100d // 100 (与上一…

自然语言处理(Natural Language Processing,NLP)解密

专栏集锦,大佬们可以收藏以备不时之需: Spring Cloud 专栏:http://t.csdnimg.cn/WDmJ9 Python 专栏:http://t.csdnimg.cn/hMwPR Redis 专栏:http://t.csdnimg.cn/Qq0Xc TensorFlow 专栏:http://t.csdni…