package storm.starter;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.LocalDRPC;import backtype.storm.StormSubmi...
分类:
其他好文 时间:
2014-09-23 21:33:45
阅读次数:
245
最近在使用storm做了一下数据处理性能测试。 ? ? Topology结构:spout输出80万数据(csv格式);bolt1解析csv,拆分各信息段;bolt2按bolt1中某个字段汇总,累加记数后入库(入库触发频率:60s)。 ? ?...
分类:
其他好文 时间:
2014-09-23 17:43:35
阅读次数:
179
Storm是一个分布式的、可靠的、容错的数据流处理系统(流式计算框架,可以和mapreduce的离线计算框架对比理解)。 整个任务被委派给不同的组件,每个组件负责一个简单的特定的处理任务。Storm集群的输入流是一个叫...
分类:
其他好文 时间:
2014-09-23 13:10:17
阅读次数:
348
计算topNwords的topology,用于比如trendingtopicsortrendingimagesonTwitter.实现了滑动窗口计数和TopN排序,比较有意思,具体分析一下代码Topology这是一个稍微复杂些的topology,主要体现在使用不同的grouping方式,fields...
分类:
其他好文 时间:
2014-09-19 21:05:06
阅读次数:
274
nimbus是storm集群的"控制器",是storm集群的重要组成部分。我们可以通用执行bin/storm nimbus >/dev/null 2>&1 &来启动nimbus。bin/storm是一个python脚本,在这个脚本中定义了一个nimbus函数:nimbus函数def nimbus(k...
分类:
其他好文 时间:
2014-09-15 22:33:00
阅读次数:
594
1、当一个worker死掉会发生什么? 当一个worker死掉,那么supervisor会重新启动这个worker。如果它总是启动失败将不能发送心跳到nimbus,那么nimbus将把这个worker分配到另一台机器上。2、当一个节点死掉将会发生什么? 分配给这台机器的任务将会超时,那么nimb.....
分类:
其他好文 时间:
2014-09-15 15:50:49
阅读次数:
173
大数据数据处理最常用的是两类模式:批处理和流计算。在open source领域,批处理最有名的组件自然是大名鼎鼎的Hadoop MapReduce,而流计算则是Storm。 Storm是一个分布式的、容错的实时计算系统,目前是Apache 的一个incubator project (http://storm.incubator.apache.org/)。介绍Storm基本概念的文章已经很多了,本文就不再赘述。在此仅仅速记一下笔者实际安装 Storm的步骤。...
分类:
其他好文 时间:
2014-09-14 23:44:17
阅读次数:
284
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3971113.html本文以一个简单的example来讲解如何开发storm应用程序1、创建maven工程 在eclipse下创建maven工程,可以参照http://www.cnblogs.com/to....
sparkSpark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。所以这是把计算过程传递给数据。这和Hadoopmap/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法(前一步计算输...
分类:
其他好文 时间:
2014-09-10 22:26:41
阅读次数:
191
首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件,磁盘访问延迟约为内存访...
分类:
其他好文 时间:
2014-09-10 17:58:21
阅读次数:
195