Flume 安装部署

文章目录

  • Flume 概述
  • Flume 安装部署
    • 官方网址
    • 下载安装
    • 配置文件
    • 启动 Flume 进程
    • 启动报错
    • 输出文件乱码问题

Flume 概述

Flume(Apache Flume)是一个开源的分布式日志收集、聚合和传输系统,属于 Apache 软件基金会的项目之一。其主要目标是简化大规模数据处理中日志数据的采集、移动和处理过程。Flume 的设计灵感来自于 Google 的 Chubby 论文和 Facebook 的 Scribe 系统。

以下是 Flume 的主要概述:

  • 架构模型: Flume 采用了分布式、可扩展的架构。它的基本架构包括多个组件,其中关键组件包括代理(Agent)、通道(Channel)和收集器(Collector)等。
  • 代理(Agent): 代理是 Flume 中的基本工作单元,负责从数据源采集数据,并将数据传输到目的地。代理可以部署在数据源和目的地之间,负责数据的传输和整理。
  • 通道(Channel): 通道是代理之间的缓冲区,用于存储传输的数据。通道允许代理之间异步、可靠地传输数据,确保即使在某个环节发生故障时,数据也不会丢失。
  • 收集器(Collector): 收集器是 Flume 的目的地组件,负责接收代理传递的数据,并将数据存储到指定的存储系统中,如 Hadoop HDFS、HBase 等。
  • 事件(Event): Flume 中的基本数据单元被称为事件,代表被传输的数据。事件由代理采集,并通过通道传递到收集器。
  • 拓扑结构: Flume 支持多种拓扑结构,包括单一代理、多代理、多通道等,使其适用于不同规模和需求的数据处理场景。
  • 可插拔性: Flume 具有良好的可插拔性,允许用户根据需要选择适当的组件,如数据源、通道、拦截器等,以定制数据采集和传输过程。
  • 监控和管理: Flume 提供了监控和管理工具,使用户能够实时跟踪数据的流动和性能指标,以及对代理进行配置和管理。

总体而言,Flume 被设计用于解决大规模数据采集和传输的问题,使得数据工程师能够更轻松地搭建可靠的数据流水线,将数据从源头传递到目的地,以支持各种数据分析和处理需求。

Flume 安装部署

官方网址

  • Flume 官网地址:Welcome to Apache Flume — Apache Flume
  • 文档查看地址:Flume 1.9.0 User Guide — Apache Flume
  • 下载地址:Index of /dist/flume (apache.org)

下载安装

apache-flume-1.9.0-bin.tar.gz 上传到 hadoop102 的 /root/software 目录下

tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /opt/

apache-flume-1.9.0-bin 改名为 flume-1.9.0

cd /opt/
mv apache-flume-1.9.0-bin flume-1.9.0

配置文件

flume-1.9.0/conf 下的 flume-env.sh.template 文件修改为 flume-env.sh,并配置 flume-env.sh 文件

mv flume-env.sh.template flume-env.sh
vim flume-env.sh

在末尾添加:

export JAVA_HOME=/usr/java/default

flume-1.9.0/conf 中添加文件 file-flume-log.conf,该文件是一个 Flume 作业的核心文件

vim file-flume-log.conf

文件添加内容如下:

# 定义组件名称
a1.sources = r1
a1.sinks = k1
a1.channels = c1############ source 部分 ############
a1.sources.r1.type = spooldir
# 配置读取文件的目录(本地目录)
a1.sources.r1.spoolDir = /opt/flume-1.9.0/logs############ channel 部分 ############
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 1000############ sink 部分 ############
a1.sinks.k1.type = hdfs
# 使用本地时间戳
a1.sinks.k1.hdfs.useLocalTimeStamp = true
# 配置输出到 HDFS 的路径,根据日期格式分开存储文件
a1.sinks.k1.hdfs.path = hdfs://hadoop102:9000/flume/%Y-%m-%d/%H%M
# 上传文件的前缀
a1.sinks.k1.hdfs.filePrefix = log
# 多少时间单位创建一个新的文件夹
a1.sinks.k1.hdfs.roundValue = 1
# 重新定义时间单位
a1.sinks.k1.hdfs.roundUnit = minute
# 设置文件格式 DataStream 不会压缩输出文件,默认为 SequenceFile
a1.sinks.k1.hdfs.fileType = DataStream# 把 source 和 sink 绑定到 channel 中
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

启动 Flume 进程

Flume 目录下输入命令:

bin/flume-ng agent -c /opt/flume-1.9.0/conf/ -n a1 -f /opt/flume-1.9.0/conf/file-flume-log.conf -Dflume.root.logger=info,console

令开一个窗口,随便传个文件到 /opt/flume-1.9.0/logs 目录下,蓝色说明 Flume 控制台在滚动打印

可以进入 HDFS Web 页面查看生成的文件

在这里插入图片描述

启动报错

如果出现下述报错内容

flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:459)] process failed
java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)Vat org.apache.hadoop.conf.Configuration.set(Configuration.java:1357)at org.apache.hadoop.conf.Configuration.set(Configuration.java:1338)at org.apache.hadoop.conf.Configuration.setBoolean(Configuration.java:1679)at org.apache.flume.sink.hdfs.BucketWriter.open(BucketWriter.java:221)at org.apache.flume.sink.hdfs.BucketWriter.append(BucketWriter.java:572)at org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:412)at org.apache.flume.sink.DefaultSinkProcessor.process(DefaultSinkProcessor.java:67)at org.apache.flume.SinkRunner$PollingRunner.run(SinkRunner.java:145)at java.lang.Thread.run(Thread.java:748)

原因是 Hadoop 3.3.1 中的 guava 包版本和 Flume 1.9.0 中的版本不一致

用 Hadoop 中高版本的 guava 包覆盖 Flume 中低版本的 guava 包

cp $HADOOP_HOME/share/hadoop/common/lib/guava-27.0-jre.jar /opt/flume-1.9.0/lib/guava-11.0.2.jar

输出文件乱码问题

在 sink 部分添加下述配置

# 设置文件格式 DataStream 不会压缩输出文件,默认为 SequenceFile
a1.sinks.k1.hdfs.fileType = DataStream

查看官方文档 Flume 1.9.0 User Guide — Apache Flume 在 hdfs-sink 部分的配置中写到文件类型默认为 SequenceFile,数据以二进制格式编码,并且将数据压缩了,数据下载下来是二进制格式,不能直接查看,无法可视化。如果想要直接查看输出文件,使用 DataStream,其不会压缩输出文件。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/213204.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

本科毕业论文查重的依据

大家好,今天来聊聊本科毕业论文查重的依据,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧: 本科毕业论文查重依据:维护学术诚信的基石 摘要: 本科毕业论文是衡量学生学…

Navicat 技术指引 | 适用于 GaussDB 分布式的数据查看器

Navicat Premium(16.3.3 Windows 版或以上)正式支持 GaussDB 分布式数据库。GaussDB 分布式模式更适合对系统可用性和数据处理能力要求较高的场景。Navicat 工具不仅提供可视化数据查看和编辑功能,还提供强大的高阶功能(如模型、结…

自动驾驶:传感器初始标定

手眼标定 机器人手眼标定AxxB(eye to hand和eye in hand)及平面九点法标定 Ax xB问题求解,旋转和平移分步求解法 手眼标定AXXB求解方法(文献总结) 基于靶的方法 相机标定 (1) ApriTag (2) 棋盘格:cv::f…

【前端】CSS基础(学习笔记)

一、简介 1、HTML局限性 HTML只关注内容的语义,但是丑! 2、CSS概要 CSS 是层叠样式表 ( Cascading Style Sheets ) 的简称,有时我们也会称之为 CSS 样式表或级联样式表。 CSS 是也是一种标记语言 CSS 主要用于设置 HTML 页面中的文本内…

Django的logging-日志模块的简单使用方法

扩展阅读: Python-Django的“日志功能-日志模块(logging模块)-日志输出”的功能详解 现在有下面的Python代码: # -*- coding: utf-8 -*-def log_out_test(content_out):print(content_out)content1 "i love you01" log_out_test(content1)现…

前端使用视频作为背景图的方法

实现思路 通过 video source 引入视频&#xff0c;并对视频播放属性进行设置&#xff0c;再通过 css 使视频覆盖背景即可。 代码 <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>有开发问题可联系作者</title>…

Amazon CodeWhisperer 提供新的人工智能驱动型代码修复、IaC 支持以及与 Visual Studio 的集成...

Amazon CodeWhisperer 的人工智能&#xff08;AI&#xff09;驱动型代码修复和基础设施即代码&#xff08;IaC&#xff09;支持已正式推出。Amazon CodeWhisperer 是一款用于 IDE 和命令行的人工智能驱动型生产力工具&#xff0c;现已在 Visual Studio 中推出&#xff0c;提供预…

VUE+webrtc-streamer 实现实时视频播放(监控设备-rtsp)

效果 下图则启动成功&#xff0c;此时在浏览器访问127.0.0.1:8000可以看到本机监控画面 1、下载webrtc-streamer 地址&#xff1a;https://github.com/mpromonet/webrtc-streamer/releases 2、解压下载包 3、双击webrtc-streamer.exe启动服务 4、将下载包html文件夹下webrt…

使用pytorch查看中间层特征矩阵以及卷积核参数

这篇是我对哔哩哔哩up主 霹雳吧啦Wz 的视频的文字版学习笔记 感谢他对知识的分享 1和4是之前讲过的alexnet和resnet模型 2是分析中间层特征矩阵的脚本 3是查看卷积核参数的脚本 1设置预处理方法 和图像训练的时候用的预处理方法保持一致 2实例化模型 3载入之前的模型参数 4载入…

pyside/qt03——人机协同的编程教学—直接面向chatGPT实战开发(做中学,事上练)

先大概有个草图框架&#xff0c;一点点丰富 我纠结好久&#xff0c;直接用Python写UI代码 还是用designer做UI 再转Python呢&#xff0c; 因为不管怎么样都要转成Python代码&#xff0c; 想了想还是学一下designer吧&#xff0c;有个中介&#xff0c;有直观理解。 直接这样也可…

Python---random库

目录 基本随机数函数(): rand.seed() random() 扩展随机数函数(): random库包含两类函数&#xff1a;基本随机数函数&#xff0c;扩展随机数函数 基本随机数函数:seed(),random() 扩展随机数函数&#xff1a;randint,getrandbits(),uniform(),randrange(),choice(),shuff…

使用git push太慢怎么办

使用git push太慢怎么办 修改host文件&#xff1a; windows 的路径应该在 C:\Windows\System32\drivers\etc\hosts 在host文件的最后一行加上 151.101.72.249 github.global.ssl.fastly.nethost不允许修改就复制一份&#xff0c;修改好了再替换掉&#xff0c;可能会让你输入…

React中使用react-json-view展示JSON数据

文章目录 一、前言1.1、在线demo1.2、Github仓库 二、实践2.1、安装react-json-view2.2、组件封装2.3、效果2.4、参数详解2.4.1、src(必须) &#xff1a;JSON Object2.4.2、name&#xff1a;string或false2.4.3、theme&#xff1a;string2.4.4、style&#xff1a;object2.4.5、…

3DCAT+上汽奥迪:打造新零售汽车配置器实时云渲染解决方案

在 5G、云计算等技术飞速发展的加持下&#xff0c;云渲染技术迎来了突飞猛进的发展。在这样的背景下&#xff0c;3DCAT应运而生&#xff0c;成为了业内知名的实时云渲染服务商之一。 交互式3D实时云看车作为云渲染技术的一种使用场景&#xff0c;也逐步成为一种新的看车方式&a…

c语言实现栈

前言 本文章主要介绍用c语言实现栈&#xff0c;包括栈的各个接口比如STInit&#xff0c;STpush&#xff0c;STpop等等 一.栈的概念及结构 栈&#xff1a;一种特殊的线性表&#xff0c;其只允许在固定一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶。另一端…

华为配置Smart Link主备备份示例

定义 Smart Link&#xff0c;又叫做备份链路。一个Smart Link由两个接口组成&#xff0c;其中一个接口作为另一个的备份。Smart Link常用于双上行组网&#xff0c;提供可靠高效的备份和快速的切换机制。 Monitor Link是一种接口联动方案&#xff0c;它通过监控设备的上行接口…

1、关于前端js-ajax绕过

1、Ajax知识 、js--Ajax 传统请求跟js--Ajax请求的差别 在实例中用的上js-ajax的有 表单验证&#xff1a; 在用户填写表单时&#xff0c;可以使用 Ajax 在不刷新页面的情况下验证表单字段&#xff0c;并提供即时反馈。 实时搜索&#xff1a; 在搜索框中输入内容时&#xff0…

Vue3使用Tailwind CSS

安装 Tailwind 以及其它依赖项 npm install -D tailwindcsslatest postcsslatest autoprefixerlatest生成配置文件&#xff1a; npx tailwindcss init -p.修改配置文件 tailwind.config.js 2.6版本 &#xff1a; module.exports {purge: [./index.html, ./src/**/*.{vue,j…

javaEE -14(10000字 JavaScript入门 - 1)

一&#xff1a;初始 JavaScript JavaScript (简称 JS)是世界上最流行的编程语言之一&#xff0c;它是一个脚本语言, 通过解释器运&#xff0c;主要在客户端(浏览器)上运行, 现在也可以基于 node.js 在服务器端运行. JavaScript 和 HTML 和 CSS 之间的关系&#xff1a; HTML…

溯源取证-WEB流量分析-简单

话不多说直接干&#xff1a; 题干&#xff1a; 开发团队在公司的一个 Web 服务器上发现了异常文件&#xff0c;开发团队怀疑该服务器上存在潜在的恶意活动&#xff0c;网络团队准备了一个包含关键网络流量的 pcap 文件&#xff0c;供安全团队分析&#xff0c;而你的任务是分析…