1,安装并成功能运行flume2,安装并成功能运行kafka3,安装并成功能运行zookeeper4,开始整合flume收集的数据,写入kafkaa,修改flume的配置文加:vimflume_kafka.confagent1.sources=r1agent1.sinks=k1agent1.channels=c1#Describe/configurethesourceagent1.sources.r1.type=e..
分类:
Web程序 时间:
2016-10-12 07:10:34
阅读次数:
206
一、什么是Flume?flume作为cloudera开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume初始的发行版本目前被统称为FlumeOG(originalgeneration),属于cloudera。但随着FLume功能的扩展,FlumeOG代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤..
分类:
Web程序 时间:
2016-10-11 00:09:50
阅读次数:
374
个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本 ...
分类:
Web程序 时间:
2016-10-10 19:35:03
阅读次数:
235
王家林老师的课程:2016年大数据Spark“蘑菇云”行动之sparkstreaming消费flume采集的kafka数据Directf方式作业。一、基本背景Spark-Streaming获取kafka数据的两种方式Receiver与Direct的方式,本文介绍Direct的方式。具体的流程是这样的:1、Direct方式是直接连接到kafka的节..
分类:
Web程序 时间:
2016-10-02 07:20:52
阅读次数:
261
近期,听了王家林老师的2016年大数据Spark“蘑菇云”行动,需要将flume,kafka和Sparkstreaming进行整合。感觉一时难以上手,还是先从简单着手吧:我的思路是这样的,flume产生数据,然后输出到sparkstreaming,flume的源数据是netcat(地址:localhost,端口22222),输出是av..
分类:
Web程序 时间:
2016-10-01 06:31:51
阅读次数:
209
1,flume所在的节点不和spark同一个集群 v50和 10-15节点 flume在v50里面 flume-agent.conf spark是开的work节点,就是单点计算节点,不涉及到master发送管理 只是用到了sparkStreming的实时功能 开启的是spark-shell不是spa ...
分类:
Web程序 时间:
2016-09-28 12:23:24
阅读次数:
191
MR系类: ①hadoop生态 >MapReduce:分布式处理 >Hdfs:hadoop distribut file system >其他相关框架 ->unstructured data:收集日志 flume,scribe ->structured data:sqoop hdfs与关系型数据库相 ...
分类:
其他好文 时间:
2016-09-27 13:31:31
阅读次数:
177
现在的需求是在一台Flume采集机器上,往Hadoop集群上写HDFS,该机器没有安装Hadoop。 这里的Flume版本是1.6.0,Hadoop版本是2.7.1. 把Hadoop集群的hdfs-site.xml、core-site.xml两个配置文件复制到 flume安装目录的conf目录去,把 ...
分类:
Web程序 时间:
2016-09-19 17:56:14
阅读次数:
243
Spark Streaming Spark Streaming 是Spark为了用户实现流式计算的模型。 数据源包括Kafka,Flume,HDFS等。 DStream 离散化流(discretized stream), Spark Streaming 使用DStream作为抽象表示。是随时间推移而 ...
分类:
其他好文 时间:
2016-09-17 00:28:16
阅读次数:
229