Flume-ngFlume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume的文档可以看http://flume.apache.org/FlumeUserGuide.html官方的英文文档 介绍的比较全面。 不过这里写写自己的见解这个是flume的架构图从上图可以看到几个名词...
分类:
Web程序 时间:
2015-05-02 01:01:18
阅读次数:
348
1.概述 今天补充一篇关于Flume的博客,前面在讲解高可用的Hadoop平台的时候遗漏了这篇,本篇博客为大家讲述以下内容:Flume NG简述单点Flume NG搭建、运行高可用Flume NG搭建Failover测试截图预览 下面开始今天的博客介绍。2.Flume NG简述 Flume N...
分类:
Web程序 时间:
2015-04-30 15:35:03
阅读次数:
230
用户行为数据的收集无疑是构建推荐系统的先决条件,而Apache基金会下的Flume项目正是为分布式的日志收集量身打造的,本文是flume基本用法的调研笔记。
本文所用的Flume版本为目前最新版的ver1.5.2,它属于Flume-NG,在系统架构上与Flume-OG有所区别,二者的不同可以参考FlumeWiki文档的说明。
1. Flume是什么
Flume是Apache基金会下的一个开源...
分类:
Web程序 时间:
2015-04-29 19:50:05
阅读次数:
356
上篇笔记对Flume的使用场景和系统架构做了介绍,本篇笔记以实例说明Flume的配置方法。下面开始正文。
1. Flume使用实例
1.1 配置
Flume agent的3个组件及其拓扑关系是在配置文件中指定的,总的原则是必须列出source/channel/sink的name/type等重要的配置项,并通过channel将source(s)和sink(s)连接起来,此外,1个source可...
分类:
Web程序 时间:
2015-04-29 19:49:33
阅读次数:
223
HDFS sink里有个属性hdfs.rollInterval=86400,这个属性你设置了24小时滚动一次,它的确就到了24小时才滚动,但是我们的需求往往是到了0点就滚动文件了,因为离线的job因为都会放在夜里执行。
如果flume是早上9点启动的,那么要到明天早上9点,hdfs的文件才会关闭,难道job要等到9点后才执行,这显然不合适,所以通过修改源码使其能够在0点滚动文件。
首先...
分类:
Web程序 时间:
2015-04-29 15:12:56
阅读次数:
660
Hadoop大数据零基础实战培训教程一,教程内容:1,Hadoop2.0YARN深入浅出系列2,Avro数据序列化系统3,Chukwa集群监控系统4,Flume日志收集系统5,Greenplum架构6,Hadoop的起源7,Hadoop商业应用案例8,HBase案例分析9,HBase编程实践10,M...
分类:
其他好文 时间:
2015-04-26 12:05:41
阅读次数:
209
结构:nginx-flume->kafka->flume->kafka(因为牵扯到跨机房问题,在两个kafka之间加了个flume,蛋疼。。)现象:在第二层,写入kafka的topic和读取的kafka的topic相同,手动设定的sinktopic不生效打开debug日志:source实例化:21Apr201519:24:03,146INFO[conf-file-poll..
分类:
Web程序 时间:
2015-04-26 01:47:52
阅读次数:
765
1. flume 的基本概念
本文中所有与 flume 相关术语都采用斜体英文表示,这些术语的含义如下所示。
flume 一个可靠的,分布式的,用于采集,聚合,传输海量日志数据的工具。
Web Server 一个产生 Events/数据 的客户端。
Agent flume 系统中的一个节点,它主要包含三个部件:Source, Channel...
分类:
Web程序 时间:
2015-04-24 22:43:31
阅读次数:
263
START:Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地。这里的日志是一个统称,泛指文件、操作记录等许多数据。一、Flume基础理论1.1 常见的分布式日志收集系统 Scribe是facebook开源的日志收集....
分类:
Web程序 时间:
2015-04-22 01:51:13
阅读次数:
166
在学计算机新知识时,第一件事情就是要写一个 “Hello World”,同样,在 flume 中,它的 “Hello World” 就是 run it。
1、flume 基本概要
(1) flume 是做什么的?
flume 是 apach 的开源项目,它主要用来收集数据,即将来源于不同节点的数据汇聚到一个中心节点。
(2) 数据在 flume 内部传输过程中是否会丢失数据?
flume...
分类:
Web程序 时间:
2015-04-20 22:39:54
阅读次数:
233