Sqoop框架基础 本节我们主要需要了解的是大数据的一些协作框架,也是属于Hadoop生态系统或周边的内容,比如: ** 数据转换工具:Sqoop ** 文件收集库框架:Flume ** 任务调度框架:Oozie ** 大数据Web工具:Hue 这些框架为什么成为主流,请自行百度谷歌,此处不再赘述。 ...
分类:
其他好文 时间:
2018-01-12 22:44:06
阅读次数:
240
* Flume框架基础 框架简介: ** Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 ** Flume基于流式架构,容错性强,也很灵活简单,主要用于在线实时的引用分析。 宏观认知: ** Flume、Kafka用来实时进行 ...
分类:
Web程序 时间:
2018-01-12 22:34:48
阅读次数:
286
"问题:从windows通过flume传输到kafka的日志(GBK),然后再logstash消费,用json解析。有些日志解析报错:ctrl-code1(SOH文本头)。分析:在终端上用gbk编码查看会有方框的字符,可以判断该字符就是json无法识别的控制字符(SOH)。但是不知道kafka消费的时候显示成什么字符,如果知道这个(SOH)然后替换成,json可以解析的字符就可以了。解决
分类:
Web程序 时间:
2018-01-09 15:19:15
阅读次数:
213
分布式
分布式服务:Dubbo+Zookeeper+Proxy+Restful
分布式消息中间件:KafKa+Flume+Zookeeper
分布式缓存:Redis 分布式文件:FastDFS
负载均衡:Keepalived+Nginx+Proxy(三重负载)
分类:
编程语言 时间:
2018-01-09 11:12:29
阅读次数:
754
Flume是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中。轻量,配置简单,适用于各种日志收集,并支持Failover和负载均衡。并且它拥有非常丰富的组件。Flume采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和Sink,三者组建了一个Agent。三者的职责如下所示:
分类:
Web程序 时间:
2018-01-08 16:41:23
阅读次数:
227
zookeeper: storm redis kafka flume ...
分类:
其他好文 时间:
2018-01-08 10:59:03
阅读次数:
143
1、在flume官方网站下载最新的flume wget http://124.205.69.169/files/A1540000011ED5DB/mirror.bit.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz 2、解决flume安 ...
分类:
Web程序 时间:
2018-01-07 17:33:35
阅读次数:
228
1. Flume Interceptors Flume有能力修改/删除流程中的events。这是在拦截器(interceptor)的帮助下完成的。拦截器(Interceptors)是实现org.apache.flume.interceptor.Interceptor接口的类。一个intercepto ...
分类:
Web程序 时间:
2018-01-07 00:40:40
阅读次数:
493
1. Flume Sinks 1.1 HDFS Sink 该sink把events写进Hadoop分布式文件系统(HDFS)。它目前支持创建文本和序列文件。它支持在两种文件类型压缩。文件可以基于数据的经过时间或者大小或者事件的数量周期性地滚动。它还通过属性(如时间戳或发生事件的机器)把数据划分为桶或 ...
分类:
Web程序 时间:
2018-01-02 01:26:08
阅读次数:
380
1,启动命令 在bin目录下 flume-ng.cmd agent -conf ../conf -conf-file ../conf/spooling.conf -name a1 -property flume.root.logger=INFO,console 2,自定义拦截器 实现org.apac ...
分类:
Web程序 时间:
2017-12-31 12:56:33
阅读次数:
219