近日,在测试Flume结合Kafka结合SparkStreaming的实验。今天把Flume与Spark的简单结合做出来了,这里记录一下,避免网友走弯路。有不周到的地方还希望路过的大神多多指教。实验比较简单,分为两部分:一、使用avro-client发送数据二、使用netcat发送数据首先Spark程序需要Flume..
分类:
Web程序 时间:
2015-05-19 07:32:40
阅读次数:
1969
1. 安装2. 配置3. 测试1. 安装# ls -l-rw-rw-r--. 1 huchi huchi 68881069 May 18 00:32 jdk-6u45-linux-x64-rpm.bin# chmod +x jdk-6u45-linux-x64-rpm.bin # ls -l-rwx...
分类:
其他好文 时间:
2015-05-18 00:58:24
阅读次数:
177
先贴上异常信息 1 08 May 2015 17:55:23,751 WARN [New I/O worker #1] (org.apache.flume.source.AvroSource.append:350) - Avro source r1: Unable to process eve...
分类:
Web程序 时间:
2015-05-15 17:09:08
阅读次数:
437
在这里看到的解决方法https://issues.apache.org/jira/browse/SPARK-1729请是个人理解,有问题请大家留言。其实本身flume是不支持像KAFKA一样的发布/订阅功能的,也就是说无法让spark去flume拉取数据,所以老外就想了个取巧的办法。在flume中其...
分类:
Web程序 时间:
2015-05-13 16:04:15
阅读次数:
266
有两种方式,一种是sparkstreaming中的driver起监听,flume来推数据;另一种是sparkstreaming按照时间策略轮训的向flume拉数据。最开始我以为只有第一种方法,但是尼玛问题在于driver起来的结点是没谱的,所以每次我重启streaming后发现尼玛每次都要修改flu...
分类:
Web程序 时间:
2015-05-13 12:23:56
阅读次数:
207
本文介绍初次使用Flume传输数据到MongoDB的过程,内容涉及环境部署和注意事项。1 环境搭建 需要jdk、flume-ng、mongodbjavadriver、flume-ng-mongodb-sink(1)jdk下载地址:http://www.oracle.com/technetwor...
分类:
Web程序 时间:
2015-05-13 00:25:34
阅读次数:
185
从以上截图信息,就可以看出问题了,服务端和客户端连接信息对不上,服务端有很多ESTABLISHED的连接,其实是无用的。这种情况,起初,我也很奇怪,没有发现原因,只能查看日志了。
通过日志信息,发现出现了异常,但是很奇怪,在异常信息之前,有一句Rpc sink {} closing Rpc client: {}
这里destroyConnection了,摧毁了一...
分类:
Web程序 时间:
2015-05-12 13:43:45
阅读次数:
209
一、FLUME介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三...
分类:
Web程序 时间:
2015-05-11 17:46:59
阅读次数:
213
在上家公司工作时,设计的日志收集与实时分析架构,还是比较简单的:flume-ng+rocketmq+storm+redis+前端展示消息队列部分,我们刚开始采用的是kafka,但kafka在支持回溯消费和重复消费方面比较弱,同时在数据安全方面也相对弱一些,后来我们改为阿里的rocketmq。考虑到我们的数..
分类:
其他好文 时间:
2015-05-09 20:31:03
阅读次数:
1639
# example.conf: A single-node Flume configuration# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure t...
分类:
Web程序 时间:
2015-05-07 21:55:30
阅读次数:
140