如何利用flume进行日志采集

介绍    

    Apache Flume 是一个分布式、可靠、高可用的日志收集、聚合和传输系统。它常用于将大量日志数据从不同的源(如Web服务器、应用程序、传感器等)收集到中心化的存储或数据处理系统中。

基本概念

  • Agent(代理): Flume 中的基本工作单元,用于数据的采集、传输和处理。
  • Source(数据源): 代理中的组件,负责接收和发送数据到 Flume。
  • Channel(通道): 用于临时存储数据的缓冲区,用于在 Source 和 Sink 之间传输数据。
  • Sink(数据目的地): 代理中的组件,负责将数据传送到指定的目的地,如 HDFS、Kafka es等。

安装步骤

安装和配置 Flume

下载并安装 Apache Flume。从 Apache Flume 官网 下载适用于你环境的版本,并按照官方文档进行安装和配置。

我下载的是flume-v1.11.0版本,下载地址:Apache Download Mirrors

下载完成后上传到服务器的/opt/software目录

1.将 apache-flume-1.11.0-bin.tar.gz 上传到 linux 的/opt/software 目录下2.解压 apache-flume-1.11.0-bin.tar.gz 
tar -zxf apache-flume-1.11.0-bin.tar.gz3.修改 apache-flume-1.11.0-bin 的名称为 flume
mv apache-flume-1.11.0-bin flume4.将 flume/conf 下的 flume-env.sh.template 文件重命名为 flume-env.sh,并配置 flumeenv.sh 文件
mv flume-env.sh.template flume-env.shvi flume-env.sh
# 添加java环境变量
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

配置环境变量

vim /etc/profile#FLUME
export FLUME_HOME=/opt/software/flume
export PATH=$PATH:$FLUME_HOME/binsource /etc/profile

查看版本:flume-ng version

定义数据流

        创建 Flume 配置文件,定义数据流。这个配置文件描述了数据流的来源、通道和目的地。一个基本的 Flume 配置文件可能包含以下几个关键组件:

  • Source(数据源):定义数据的来源,如日志文件、网络端口、Kafka 等。
  • Channel(通道):定义数据在 Flume 内部的缓冲区,暂存数据,确保可靠地传输。
  • Sink(数据目的地):定义数据的最终目的地,可以是 HDFS、HBase、Kafka 等。
  1. 配置 Source、Channel 和 Sink:

    • 在 Flume 配置文件中配置 Source、Channel 和 Sink。你需要根据你的数据来源和目的地的不同选择合适的 Source、Channel 和 Sink,并配置相关参数。
  2. 启动 Flume Agent:

    • 运行 Flume Agent,并指定 Flume 配置文件。例如:flume-ng agent -n agent_name -c conf -f conf/flume-conf.properties
  3. 监控和管理:

    • 使用 Flume 的监控和管理工具来跟踪数据流、监控性能,并对 Flume 进行管理。
  4. 测试和优化:

    • 测试数据流,确保数据能够按预期采集、传输和存储。根据需要进行优化配置,以提高性能和稳定性。

示例配置文件

   以下是一个简单的 Flume 配置文件示例:

  1. 创建一个flume-agent-conf.yml并写入以下内容

# 定义 agent 名称
agent1.sources = source1
agent1.channels = channel1
agent1.sinks = sink1# 配置数据源
agent1.sources.source1.type = exec
agent1.sources.source1.command = tail -F /opt/test.log
agent1.sources.source1.channels = channel1# 配置通道
agent1.channels.channel1.type = memory
agent1.channels.channel1.capacity = 1000
agent1.channels.channel1.transactionCapacity = 100# 配置数据目的地
agent1.sinks.sink1.type = logger
agent1.sinks.sink1.channel = channel1

上述配置文件定义了一个名叫agent1的实例,数据来源为tail -F /opt/test.log,收集test.log的内容,并且通过sink配置输出到控制台

2.通过命令启动agent

flume-ng agent -n agent1 -c conf -f conf/flume-agent-conf.properties

3.往test.log里写入内容,vi test.log

4.查看agent日志,tail -f flume.log,能够看到以下内容输出,表示log采集成功。

         上面是一个很简单的flume采集示例,其实flume 可以将收集的日志输出到指定的目的地(如 HDFS、HBase、Kafka 等)。要查看已收集的日志,需要前往 Flume 配置文件中指定的输出目的地(sink),并使用相应的工具或方式来访问这些日志。

        例如,如果 Flume 配置将日志输出到 HDFS 中,可以使用 Hadoop 命令来查看或下载这些日志。如果将日志发送到 Kafka,则可以使用 Kafka 相关的命令或工具来消费这些消息。

   根据你的具体需求和环境配置更复杂的 Flume 配置文件,并确保理解每个组件的作用和配置参数的含义。 Flume 提供了丰富的 Source、Channel 和 Sink 类型以及各种配置选项,可以根据实际场景选择适合的组件和配置。

Flume 的常用组件

  • Avro Source: 从 Avro 格式数据源接收数据。
  • File Source: 从文件系统中的文件接收数据。
  • Memory Channel: 在内存中存储事件的通道。
  • HDFS Sink: 将数据写入 HDFS 目标的 Sink。

注意事项

  • 通道容量和事务容量的调整:根据需要调整 Flume 通道的容量和事务容量,确保适应大型数据的传输。
  • 合理配置 Source 和 Sink:根据实际情况选择合适的 Source 和 Sink 类型。
  • 数据格式正确性:确保发送到 Flume 的数据符合所需的格式,以避免消息被截断。

结语

        Apache Flume 是一个强大的数据收集和传输工具,可以轻松地处理大量的数据流。使用本文提供的示例和概念,可以开始使用 Flume 并适应不同的数据采集和传输需求。本篇文章就介绍到这里,感兴趣的同学可以自己去深入研究,使用flume完成日志采集、关键字告警等一整套的业务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/224216.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LaTex设置标题页、修改文字颜色和文字高亮

目录 一、标题页 1)常用的代码 2)添加脚注 二、修改文字颜色和文字高亮 1)设置文本的颜色 2)添加文本高亮 3)给文本添加有颜色的方框 一、标题页 主要的代码: \begin{titlepage} \noindent\fonts…

【计算机四级(网络工程师)笔记】操作系统运行机制

目录 一、中央处理器(CPU) 1.1CPU的状态 1.2指令分类 二、寄存器 2.1寄存器分类 2.2程序状态字(PSW) 三、系统调用 3.1系统调用与一般过程调用的区别 3.2系统调用的分类 四、中断与异常 4.1中断 4.2异常 🌈嗨&#xff…

【JMeter入门】—— JMeter介绍

1、什么是JMeter Apache JMeter是Apache组织开发的基于Java的压力测试工具,用于对软件做压力测试。它最初被设计用于Web应用测试,但后来扩展到其他测试领域。 (Apache JMeter是100%纯JAVA桌面应用程序) Apache JMeter可以用于对静…

idea structure视图介绍

作用 idea的Structure视图可以辅助查看代码结构 如何呼出Structure视图? Alt 7 Ctrl F12 侧边栏点Structure 我的常用配置 1、选Show Toolbar,便于使用功能按钮 2、使用Float视图,悬浮于窗口表面,可以使用 ShiftEsc来退出…

SpringMVC:整合 SSM 上篇

文章目录 SpringMVC - 03整合 SSM 上篇一、准备工作二、MyBatis 层1. dao 层2. service 层 三、Spring 层四、SpringMVC 层五、执行六、说明 SpringMVC - 03 整合 SSM 上篇 用到的环境: IDEA 2019(JDK 1.8)MySQL 8.0.31Tomcat 8.5.85Maven…

ModuleNotFoundError: No module named ‘sklearn.cross_validation‘

文章目录 报错信息报错原因解决方案 关注公众号:『AI学习星球』 算法学习、4对1辅导、论文辅导或核心期刊可以通过公众号或➕v:codebiubiu滴滴我 报错信息 ModuleNotFoundError: No module named sklearn.cross_validation 报错原因 这个cross_vali…

Redis数据库入门学习(下载与安装、常用命令、在Java中操作Redis)

简介 下载与安装 数据类型 常用命令 1.字符串操作命令 2.哈希操作命令 3.列表操作命令 push是将元素总是插入到第一个 0表示第一个,1表示第二个。-1表示倒数第一个,-2表示倒数第二个。当前命令的意思是第一个到倒数第一个,即就是全部元素 rpo…

最新技术整理3款开源免费直播推流工具,实现实时视频推流、视频拉流,目标端可以是服务器、云平台、移动设备等(附源码)

最新技术整理3款开源免费直播推流工具,实现实时视频推流、视频拉流,目标端可以是服务器、云平台、移动设备等(附源码)。 什么是推流? 视频推流是指将实时的视频数据从一个源端发送到一个或多个目标端的过程。推流的源…

基于ssm重庆理工大学心理咨询管理子系统的分析与实现论文

摘 要 传统信息的管理大部分依赖于管理人员的手工登记与管理,然而,随着近些年信息技术的迅猛发展,让许多比较老套的信息管理模式进行了更新迭代,心理咨询预约信息因为其管理内容繁杂,管理数量繁多导致手工进行处理不能…

.NET中的Swagger使用

目录 前言 一、Swagger是什么? 二、如何Swagger文档说明的信息 1.在AddSwaggerGen方法中写入文档信息 2.运行效果 二、文档UI界面标题、路由设置 1.在中间件UseSwaggerUI方法中配置 三、文档UI界面添加接口注释 1.在 .csproj中配置 2.在AddSwaggerGen方法中配置Incl…

nosql-redis整合测试

nosql-redis整合测试 1、创建项目并导入redis2、配置redis3、写测试类4、在redis中创建key5、访问80826、在集成测试中测试方法 1、创建项目并导入redis 2、配置redis 3、写测试类 4、在redis中创建key 5、访问8082 6、在集成测试中测试方法 package com.example.boot3.redis;…

JS之移动端触屏事件

在我们PC端中有许多的事件,那我们在移动端有没有事件呢?让我为大家介绍一下移动端常用的事件,触屏事件 触屏事件 touch (也称触摸事件),Android 和IOS 都有 touch 对象代表一个触摸点。触摸点可能是一根手指,也可能是一…

深入理解CANopen通信协议:CAN-ID、COB-ID与节点ID的协同工作

深入理解CANopen通信协议:CAN-ID、COB-ID与节点ID的协同工作 引言 在现代工业自动化和控制系统中,CANopen协议因其卓越的通信效率和出色的灵活性而备受推崇。本文旨在探讨CANopen中CAN-ID、COB-ID及节点ID的结构和作用,深入解析这些组件如何…

【SpringCloud笔记】(8)服务网关之GateWay

GateWay 概述简介 官网地址: 上一代网关Zuul 1.x:https://github.com/Netflix/zuul/wiki(有兴趣可以了解一下) gateway:https://cloud.spring.io/spring-cloud-static/spring-cloud-gateway/2.2.1.RELEASE/reference/…

PyQt5和Qt designer的详细安装教程

Qt designer界面和所有组件功能的详细介绍参考:https://blog.csdn.net/qq_43811536/article/details/135186862?spm1001.2014.3001.5501 目录 0. 写在前面1. Anaconda创建虚拟环境2. 安装PyQt5和Qt designer3. 测试安装成功 0. 写在前面 Qt Designer是Qt提供的一种…

巅峰画师Midjourney:新时代的独角兽

介绍 AI绘画领域中,Midjourney处于绝对地位,并且一年时间就登顶。 Midjourney是一家独立的AI研究实验室,探索新的思维媒介,拓展人类的想象力。 它由一个小型的自筹资金团队组成,专注于设计、人类基础设施和AI。 在AI绘画领域,Midjourney取得了非常突出…

定义一个二维数组并输入数据,将二维数组元素的值按升序排列,并输出排序后的二维数组。

目录 问题: 回顾: 给出两种做法: 解法一:调用qsort 函数进行排序 代码: 运行结果: 解法二:冒泡排序 代码: 运行结果: 回顾里的4种方法的模板参考: 1.冒泡排序…

裸机开发(1)-汇编基础

文章目录 GNU汇编语法常用汇编指令处理器内部数据传输指令存储器访问指令压栈和出栈指令跳转指令算术指令逻辑运算指令实战 函数发生调用时,需要进行线程保护,简单来说,就是先进行压栈操作,将调用函数参数、返回值等存到R0-15寄存…

【GoLang】Go语言几种标准库介绍(一)

你见过哪些令你膛目结舌的代码技巧? 文章目录 你见过哪些令你膛目结舌的代码技巧?前言几种库bufio(带缓冲的 I/O 操作)特性示例 bytes (实现字节操作)特性示例 总结专栏集锦写在最后 前言 随着计算机科学的迅猛发展,编…

统计和绘图软件GraphPad Prism mac功能特点

GraphPad Prism mac是一款专业的统计和绘图软件,主要用于生物医学研究、实验设计和数据分析。 GraphPad Prism mac功能和特点 数据导入和整理:GraphPad Prism 可以导入各种数据格式,并提供直观的界面用于整理、编辑和管理数据。用户可以轻松…