1.采集日志文件时一个很常见的现象 采集需求:比如业务系统使用log4j生成日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs中。 1.1.根据需求,首先定义一下3大要素: 采集源,即source—监控日志文件内容更新:exec ‘tail -F file’ 下沉目标,即sink ...
分类:
Web程序 时间:
2018-01-19 16:45:15
阅读次数:
313
[root@alamps TestDir]# cat /usr/local/flume/tmp/TestDir/wc1.txthadoop hive hbasespark stream flumekafka spark sqlstrom python[root@alamps TestDir]# ...
分类:
其他好文 时间:
2018-01-13 16:54:50
阅读次数:
240
Sqoop框架基础 本节我们主要需要了解的是大数据的一些协作框架,也是属于Hadoop生态系统或周边的内容,比如: ** 数据转换工具:Sqoop ** 文件收集库框架:Flume ** 任务调度框架:Oozie ** 大数据Web工具:Hue 这些框架为什么成为主流,请自行百度谷歌,此处不再赘述。 ...
分类:
其他好文 时间:
2018-01-12 22:44:06
阅读次数:
240
* Flume框架基础 框架简介: ** Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 ** Flume基于流式架构,容错性强,也很灵活简单,主要用于在线实时的引用分析。 宏观认知: ** Flume、Kafka用来实时进行 ...
分类:
Web程序 时间:
2018-01-12 22:34:48
阅读次数:
286
"问题:从windows通过flume传输到kafka的日志(GBK),然后再logstash消费,用json解析。有些日志解析报错:ctrl-code1(SOH文本头)。分析:在终端上用gbk编码查看会有方框的字符,可以判断该字符就是json无法识别的控制字符(SOH)。但是不知道kafka消费的时候显示成什么字符,如果知道这个(SOH)然后替换成,json可以解析的字符就可以了。解决
分类:
Web程序 时间:
2018-01-09 15:19:15
阅读次数:
213
分布式
分布式服务:Dubbo+Zookeeper+Proxy+Restful
分布式消息中间件:KafKa+Flume+Zookeeper
分布式缓存:Redis 分布式文件:FastDFS
负载均衡:Keepalived+Nginx+Proxy(三重负载)
分类:
编程语言 时间:
2018-01-09 11:12:29
阅读次数:
754
Flume是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中。轻量,配置简单,适用于各种日志收集,并支持Failover和负载均衡。并且它拥有非常丰富的组件。Flume采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和Sink,三者组建了一个Agent。三者的职责如下所示:
分类:
Web程序 时间:
2018-01-08 16:41:23
阅读次数:
227
zookeeper: storm redis kafka flume ...
分类:
其他好文 时间:
2018-01-08 10:59:03
阅读次数:
143
1、在flume官方网站下载最新的flume wget http://124.205.69.169/files/A1540000011ED5DB/mirror.bit.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz 2、解决flume安 ...
分类:
Web程序 时间:
2018-01-07 17:33:35
阅读次数:
228
1. Flume Interceptors Flume有能力修改/删除流程中的events。这是在拦截器(interceptor)的帮助下完成的。拦截器(Interceptors)是实现org.apache.flume.interceptor.Interceptor接口的类。一个intercepto ...
分类:
Web程序 时间:
2018-01-07 00:40:40
阅读次数:
493