flume 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的 海量日志采集、聚合和传输的系统 。Flume基于流式架构,灵活简单。 大数据框架大致分为3类: 数据的采集和传输:flume 数据的存储:HDFS 数据的计算:MapReduce 1.2 应用场景 ...
分类:
Web程序 时间:
2020-01-23 12:37:38
阅读次数:
103
业务场景:需求:通过flume进行数据采集,将本地(windows服务器)不断产生的csv文件采集到hdfs上。问题:本地文件在生成的过程中,会出现文件名重复的现象。也就是说,在前一秒生成文件名为aaa.csv,该文件经过flume进行处理之后会进行文件名的更改,默认情况下文件名会更改为aaa.cs... ...
分类:
Web程序 时间:
2020-01-23 09:14:02
阅读次数:
290
记录一下日志采集框架flume的相关内容,flume是由Cloudera开发,后面贡献给了Apache,是一个分布式的、稳定的,用于日志采集、汇聚和传输的系统,现在用的一般是1.x版本,老版本的因为用得少暂时不考虑。 基本概念 包括agent和event。 Agent 以下是数据流模型图,sourc ...
分类:
Web程序 时间:
2020-01-22 23:36:22
阅读次数:
130
目录 一、背景 二、Flume的简介 三、Flume NG的介绍 3.1 Flume特点 3.2 Flume的一些核心概念 3.3 Flume NG的体系结构 3.4 Source 3.5 Channel 3.6 Sink 四、Flume的部署类型 4.1 单一流程 4.2 多代理流程(多个agen ...
分类:
Web程序 时间:
2020-01-22 10:51:06
阅读次数:
131
[toc] 学习文档参考:http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 1.Flume是什么? Flume简单概括就是一个收集日志的工具,它可以通过调用接口,RPC,还有网页的一些操作进行日志的收集。它是一个分布 ...
分类:
Web程序 时间:
2020-01-22 10:48:01
阅读次数:
158
如何设计一个关系型数据库? 答:首先,不管是设计一个系统还是一个数据库还是搭建一个项目我们都要进行模块的划分,因此,当我们要设计一个数据库的时候也要对其进行模块的划分,设计关系型数据库主要分为两大模块,一个是 存储模块 ,类似于一个文件系统,将数据持久化的存储到磁盘中,另一个是 程序实例模块 ,用于 ...
分类:
数据库 时间:
2020-01-20 19:21:07
阅读次数:
141
在日常开发工作中,我们免不了要打印很多log。而大部分需要输出的log又是重复的(例如传入参数,返回值)。因此,通过AOP方式来进行日志管理可以减少很多代码量,也更加优雅。 Springboot通过AOP方式(@Aspect)和Javassist优雅地进行日志输出管理。 主要使用技术:Aspect, ...
分类:
其他好文 时间:
2020-01-20 17:34:02
阅读次数:
205
在使用flume采集日志写入到hdfs时,用到了lzo压缩算法,这个算法将让保存的文件缩小为原文件的三分之一。由于此压缩算法不是hadoop默认的,需要另外安装,下面记录下,全文主要参考文末博文完成。 编译安装lzo和lzop 注意,有多少个节点,就安装多个少!注意,有多少个节点,就安装多个少!注意 ...
分类:
其他好文 时间:
2020-01-20 14:30:04
阅读次数:
88
工作方式 Flume-og采用了多Master的方式。为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存配置数据,ZooKeeper本身可保证配置数据的一致性和高可用,另外,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使 ...
分类:
Web程序 时间:
2020-01-20 14:26:47
阅读次数:
98
Flume高可用集群 工欲善其事,必先利其器。感谢以下博主:https://www.cnblogs.com/qingyunzong/p/8994494.htmlhttps://blog.csdn.net/peng_0129/article/details/80793440https://blog.c ...
分类:
Web程序 时间:
2020-01-19 15:25:17
阅读次数:
128