1.环境 CDH 5.16.1 Spark 2.3.0 cloudera4 Kafka 2.1.0+kafka4.0.0 2.Log4j—— Flume 2.1 Log4j 产生日志 ~~~ import org.apache.log4j.Logger; / @ClassName LoggerGen ...
分类:
Web程序 时间:
2020-02-04 00:37:16
阅读次数:
104
1、《HBase基础概念知识学习》 https://www.toutiao.com/i6774215329498268164/ 2、《VM安装CentOS6.5》 https://www.toutiao.com/i6739774433692484109/ 3、《HBase基础环境搭建》 https: ...
分类:
其他好文 时间:
2020-02-02 13:35:37
阅读次数:
73
一、实验目的 (1)通过实验学习日志采集工具 Flume 的安装和使用方法; (2)掌握采用 Flume 作为 Spark Streaming 数据源的编程方法。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 三、实验内容和要求 1.安 ...
分类:
其他好文 时间:
2020-01-27 23:56:31
阅读次数:
256
flume agent 内部原理 1、Source采集数据,将数据封装成Event对象,然后将数据交给 Channel Processor (利用该类的方法进行下一步的处理) 2、 Channel Processor 将Event事件传递给拦截器链(Intercepter,进行简单的数据清洗),然后 ...
分类:
Web程序 时间:
2020-01-26 14:29:01
阅读次数:
130
大数据环境需要的安装包合集,包括: apache flume 1.7.0 bin.tar.gz apache hive 1.2.1 bin.tar.gz hadoop 2.7.2.tar.gz hbase 1.3.1 bin.tar.gz jdk 8u144 linux x64.tar kafka_ ...
分类:
其他好文 时间:
2020-01-24 17:25:13
阅读次数:
88
先给出答案: 需要结合具体使用的source、channel和sink来分析,具体结果可看本文最后一节。 Flume事务 ====================== 一提到事务,我们首先就想到的是MySQL中的事务, 事务就是将一批操作做成原子性的 ,即这一批要么都成功,要么都失败。 同样的道理, ...
分类:
Web程序 时间:
2020-01-24 00:14:47
阅读次数:
972
本文对flume进行安装部署 flume是什么?传送门: 0、要安装部署在日志所在的服务器,或者把日志发送到日志所在的节点上 安装前准备 1) Flume官网地址 2)文档查看地址 3)下载地址 1、将apache flume 1.7.0 bin.tar.gz上传到linux的/opt/softwa ...
分类:
Web程序 时间:
2020-01-23 12:38:37
阅读次数:
110
flume 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的 海量日志采集、聚合和传输的系统 。Flume基于流式架构,灵活简单。 大数据框架大致分为3类: 数据的采集和传输:flume 数据的存储:HDFS 数据的计算:MapReduce 1.2 应用场景 ...
分类:
Web程序 时间:
2020-01-23 12:37:38
阅读次数:
103
业务场景:需求:通过flume进行数据采集,将本地(windows服务器)不断产生的csv文件采集到hdfs上。问题:本地文件在生成的过程中,会出现文件名重复的现象。也就是说,在前一秒生成文件名为aaa.csv,该文件经过flume进行处理之后会进行文件名的更改,默认情况下文件名会更改为aaa.cs... ...
分类:
Web程序 时间:
2020-01-23 09:14:02
阅读次数:
290
记录一下日志采集框架flume的相关内容,flume是由Cloudera开发,后面贡献给了Apache,是一个分布式的、稳定的,用于日志采集、汇聚和传输的系统,现在用的一般是1.x版本,老版本的因为用得少暂时不考虑。 基本概念 包括agent和event。 Agent 以下是数据流模型图,sourc ...
分类:
Web程序 时间:
2020-01-22 23:36:22
阅读次数:
130