Flume-ngFlume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume的文档可以看http://flume.apache.org/FlumeUserGuide.html官方的英文文档 介绍的比较全面。 不过这里写写自己的见解这个是flume的架构图从上图可以看到几个名词...
分类:
Web程序 时间:
2015-05-02 01:01:18
阅读次数:
348
1.概述 今天补充一篇关于Flume的博客,前面在讲解高可用的Hadoop平台的时候遗漏了这篇,本篇博客为大家讲述以下内容:Flume NG简述单点Flume NG搭建、运行高可用Flume NG搭建Failover测试截图预览 下面开始今天的博客介绍。2.Flume NG简述 Flume N...
分类:
Web程序 时间:
2015-04-30 15:35:03
阅读次数:
230
用户行为数据的收集无疑是构建推荐系统的先决条件,而Apache基金会下的Flume项目正是为分布式的日志收集量身打造的,本文是flume基本用法的调研笔记。
本文所用的Flume版本为目前最新版的ver1.5.2,它属于Flume-NG,在系统架构上与Flume-OG有所区别,二者的不同可以参考FlumeWiki文档的说明。
1. Flume是什么
Flume是Apache基金会下的一个开源...
分类:
Web程序 时间:
2015-04-29 19:50:05
阅读次数:
356
HDFS sink里有个属性hdfs.rollInterval=86400,这个属性你设置了24小时滚动一次,它的确就到了24小时才滚动,但是我们的需求往往是到了0点就滚动文件了,因为离线的job因为都会放在夜里执行。
如果flume是早上9点启动的,那么要到明天早上9点,hdfs的文件才会关闭,难道job要等到9点后才执行,这显然不合适,所以通过修改源码使其能够在0点滚动文件。
首先...
分类:
Web程序 时间:
2015-04-29 15:12:56
阅读次数:
660
基于flume-ng中原有exec的source类型,通过tail依赖于操作系统去监听文件内容变化,其次,不支持断点续传的功能,特此,自行开发了一个组件,大家可以看看,一起探讨:
https://github.com/cwtree/flume-filemonitor-source
望各位不吝指教!...
分类:
Web程序 时间:
2015-04-09 15:32:12
阅读次数:
209
分布式数据收集flume-ng的spoolDir监控使用中的坑。。。。。...
分类:
Web程序 时间:
2015-03-31 18:07:14
阅读次数:
262
0.上传日志文件到linux中,通过flume将文件收集到hdfs中。
执行命令/home/cloud/flume/bin/flume-ng agent -n a4 -c conf -f /home/cloud/flume/conf/a4.conf -Dflume.root.logger=DEBUG,console
1.建立hive表
create external table bb...
分类:
Web程序 时间:
2015-03-28 08:51:36
阅读次数:
156
代码如下: package com.wy.flume.interceptor;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.commons.lang.StringUtils...
分类:
Web程序 时间:
2015-03-18 07:53:03
阅读次数:
2294
1.启动命令nohupbin/flume-ngagent-nagent-server-fagent-server1.conf&flume-ng是一个shell脚本:agentrunaFlumeagent--->org.apache.flume.node.Application类
avro-clientrunanavroFlumeclient--->org.apache.flume.client.avro.AvroCLIClient类run_flume(){#shel..
分类:
Web程序 时间:
2015-03-12 01:04:27
阅读次数:
322