作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版...
分类:
其他好文 时间:
2015-03-03 15:11:59
阅读次数:
269
来自:http://blog.csdn.net/derekjiang/article/details/9040243概念理解原文中用了一张图来说明在一个storm cluster中,topology运行时的并发机制。其实说白了,当一个topology在storm cluster中运行时,它的并发主要...
分类:
其他好文 时间:
2015-03-03 14:51:45
阅读次数:
155
来自:http://isuifengfei.iteye.com/blog/1998265问题1java.net.SocketException: Address family not supported by protocol family: connect查了下http://stackoverfl...
分类:
其他好文 时间:
2015-03-02 20:37:10
阅读次数:
155
原文地址:http://storm.apache.org/documentation/Distributed-RPC.html 分布式RPC的目的是在storm进行大量的实时计算时,能够并行的调用storm上的函数。Storm topology可以将函数参数作为输入Stream,并且将被调...
分类:
其他好文 时间:
2015-02-25 17:14:39
阅读次数:
148
在这里,将会提到storm的七种grouping策略,并且编码逐一实现。 首先,需要一个集群(希望尽量模仿真实环境,故就不用本地模式了)。详细的安装方法大家可以查看本人的另外一篇博文:storm集群和zookeeper集群的部署过程。 OK。现在有三个节点。一个作为nimbus,两个作...
分类:
其他好文 时间:
2015-02-24 23:20:45
阅读次数:
280
一、Storm中执行的组件 我们知道,Storm的强大之处就是能够非常easy地在集群中横向拓展它的计算能力,它会把整个运算过程切割成多个独立的tasks在集群中进行并行计算。在Storm中,一个task就是执行在集群中的一个Spout或Bolt实例。 为了方便理解Storm怎样并行处理我们分给.....
分类:
其他好文 时间:
2015-02-23 09:36:35
阅读次数:
161
本文讲解了Storm故障容忍性(Fault-Tolerance)的设计细节:当Worker、节点、Nimbus或者Supervisor出现故障时是如何实现故障容忍性,以及Nimbus是否存在单点故障问题。...
分类:
其他好文 时间:
2015-02-17 17:40:45
阅读次数:
128
storm-hdfs 这个插件支持 Rotation Actions 这个功能,官方文档解释是这样的,
### File Rotation Actions
Both the HDFS bolt and Trident State implementation allow you to register any number of `RotationAction`s.
What...
分类:
其他好文 时间:
2015-02-14 11:02:20
阅读次数:
185
1.概述 Hadoop已被公认为大数据分析领域无可争辩的王者,它专注与批处理。这种模型对许多情形(比如:为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动态的来源的实时信息。为了解决这个问题,就得借助Twitter推出得Storm。Storm不处理静态数据,但它处理预计会连续.....
分类:
其他好文 时间:
2015-02-13 16:24:58
阅读次数:
144
前言spark与hadoop的比较我就不多说了,除了对硬件的要求稍高,spark应该是完胜hadoop(Map/Reduce)的。storm与spark都可以用于流计算,但storm对应的场景是毫秒级的统计与计算,而spark(stream)对应的是秒级的。这是主要的差别。一般很少有对实时要求那么高...
分类:
其他好文 时间:
2015-02-13 16:09:25
阅读次数:
132