概述 Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如 map, reduce, join,... ...
分类:
Web程序 时间:
2017-09-21 18:02:24
阅读次数:
292
1,日志的采集从flumeagent上的数据一般分到两条线上一条是kafka集群,后期可以用流式处理(sparkstreaming或storm等等)一条是到hdfs,后期可以用hive处理,业界叫lambda架构architecture(一般公司的推荐系统,就是用这种架构)flume-ngagent采集收集日志后,聚合在一个节点上..
分类:
其他好文 时间:
2017-09-20 23:26:56
阅读次数:
216
Flume Sink的目的是从Flume Channel中获取数据然后输出到存储或者其他Flume Source中。Flume Agent启动的时候,它会为每一个Sink都启动一个SinkRunner的对象,SinkRunner.start()方法会启动一个新的线程去管理每一个Sink的生命周期。每 ...
分类:
Web程序 时间:
2017-09-13 23:18:54
阅读次数:
325
2017-09-06 朱洁 大数据和云计算技术 任何一个生产系统在运行过程中都会产生大量的日志,日志往往隐藏了很多有价值的信息。在没有分析方法之前,这些日志存储一段时间后就会被清理。随着技术的发展和分析能力的提高,日志的价值被重新重视起来。在分析这些日志之前,需要将分散在各个生产系统中的日志收集起来 ...
分类:
Web程序 时间:
2017-09-06 12:58:57
阅读次数:
338
一、概述1.通过搭建高可用flume来实现对数据的收集并存储到hdfs上,架构图如下:二、配置Agent1.catflume-client.properties#namethecomponentsonthisagent声明source、channel、sink的名称
a1.sources=r1
a1.sinks=k1k2
a1.channels=c1
#Describe/configurethesource声明sour..
分类:
Web程序 时间:
2017-09-04 15:13:56
阅读次数:
371
#配置文 a1.sources= r1 a1.sinks= k1 k2 a1.channels= c1 c2 #Describe/configure the source a1.sources.r1.type = avro a1.sources.r1.bind = slave3 a1.sources... ...
分类:
Web程序 时间:
2017-09-03 13:16:02
阅读次数:
285
1. Flume简介 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 当前Flume有两个版本Flume 0. ...
分类:
Web程序 时间:
2017-09-02 16:47:41
阅读次数:
912
目标:Flume实时监控目录sink到hdfs,再用sparkStreaming监控hdfs的这个目录,对数据进行计算 1、flume的配置,配置spoolDirSource_hdfsSink.properties,监控本地的一个目录,上传到hdfs一个目录下。 agent1.channels = ...
分类:
Web程序 时间:
2017-09-02 10:39:54
阅读次数:
315
1,项目图如下: 2, 实现过程 启动zookeeper(三台): 启动kafka(三台): 在131中创建access的topic: 查看创建的主题: 启动flume: ...
分类:
其他好文 时间:
2017-09-01 23:06:18
阅读次数:
185
1.classpathclasspath中需要这两项:Flume Agent configuration file and the second are the Flume client jars (flume 代理配置和flume 客户端jar).OGG flume handler使用前者解析主机... ...
分类:
Web程序 时间:
2017-08-31 01:00:31
阅读次数:
205