一、概要
1.1 Storm(简介)
Storm是一个实时的可靠地分布式流计算框架。
具体就不多说了,举个例子,它的一个典型的大数据实时计算应用场景:从Kafka消息队列读取消息(可以是logs,clicks,sensor data)、通过Storm对消息进行计算聚合等预处理、把处理结果持久化到NoSQL数据库或者HDFS做进一步深入分析。...
分类:
其他好文 时间:
2014-11-14 14:15:48
阅读次数:
291
从业务发展需求,大数据平台需要使用spark作为机器学习、数据挖掘、实时计算等工作,所以决定使用Cloudera Manager5.2.0版本和CDH5。
以前搭建过Cloudera Manager4.8.2和CDH4,在搭建Cloudera Manager5.2.0版本的时候,发现相应的Service Host Monitor 和 Service Monitor不能配置外部表,刚开是还以为是配置出错,后来才发现应该是新版本的Cloudera的存储改变方式了。查了很多文档,果然发现,新版本中Service ...
分类:
数据库 时间:
2014-11-14 12:39:43
阅读次数:
316
Storm是什么 如果只用一句话来描述storm的话,可能会是这样:分布式实时计算系统。按照storm作者的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。我们都知道,根据google mapreduce来实现的hadoop为我们提供了map, reduce原语,使我们的批处理...
分类:
其他好文 时间:
2014-11-12 19:31:07
阅读次数:
260
PartitionManager算是storm-kafka核心的代码了,主要负责message读取、发送、容错处理等等...
分类:
其他好文 时间:
2014-11-09 22:18:01
阅读次数:
435
详细介绍如何自定义KafkaSpout发射的message...
分类:
其他好文 时间:
2014-11-08 15:21:19
阅读次数:
174
详细分析了KafkaSpout的一些代码,希望能够帮助一下人,同时也是自己看代码的一个总结。...
分类:
Web程序 时间:
2014-11-08 15:20:40
阅读次数:
518
详细介绍了Storm-Kafka模块中Config的相关配置信息,就是扫盲的一篇介绍而已...
分类:
其他好文 时间:
2014-11-08 15:19:54
阅读次数:
220
VelocityTracker 主要应用于touch event, VelocityTracker通过跟踪一连串事件实时计算出当前的速度。方法 //获取一个VelocityTracker对象, 用完后记得回收 //回收后代表你不需要使用了,系统将此对象在此分配到其他请求者 static publ.....
分类:
移动开发 时间:
2014-11-08 00:41:47
阅读次数:
333
上一篇和大家一起宏观上学习了Samza平台的架构,重点讲了一下数据缓冲层和资源管理层,剩下的一块很重要的SamzaAPI层本节作为重点为大家展开介绍。
当你使用Samza来实现一个数据流处理逻辑时,你必须实现一个叫StreamTask的接口,如下所示:
public class MyTaskClass implements StreamTask {
public void...
本篇紧接着概念篇,从宏观角度上看一下Samza实时计算服务的架构是什么样的?
Samza是由以下三层构成:
1. 数据流层(A streaming layer)
2. 执行层(An execution layer)
3. 处理层(A progressing layer)
那Samza是依靠哪些技术完成以上三层的组合呢...
分类:
其他好文 时间:
2014-10-29 17:11:57
阅读次数:
261