nimbus是storm集群的"控制器",是storm集群的重要组成部分。我们可以通用执行bin/storm nimbus >/dev/null 2>&1 &来启动nimbus。bin/storm是一个python脚本,在这个脚本中定义了一个nimbus函数:nimbus函数def nimbus(k...
分类:
其他好文 时间:
2014-09-15 22:33:00
阅读次数:
594
1、当一个worker死掉会发生什么? 当一个worker死掉,那么supervisor会重新启动这个worker。如果它总是启动失败将不能发送心跳到nimbus,那么nimbus将把这个worker分配到另一台机器上。2、当一个节点死掉将会发生什么? 分配给这台机器的任务将会超时,那么nimb.....
分类:
其他好文 时间:
2014-09-15 15:50:49
阅读次数:
173
大数据数据处理最常用的是两类模式:批处理和流计算。在open source领域,批处理最有名的组件自然是大名鼎鼎的Hadoop MapReduce,而流计算则是Storm。 Storm是一个分布式的、容错的实时计算系统,目前是Apache 的一个incubator project (http://storm.incubator.apache.org/)。介绍Storm基本概念的文章已经很多了,本文就不再赘述。在此仅仅速记一下笔者实际安装 Storm的步骤。...
分类:
其他好文 时间:
2014-09-14 23:44:17
阅读次数:
284
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3971113.html本文以一个简单的example来讲解如何开发storm应用程序1、创建maven工程 在eclipse下创建maven工程,可以参照http://www.cnblogs.com/to....
sparkSpark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。所以这是把计算过程传递给数据。这和Hadoopmap/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法(前一步计算输...
分类:
其他好文 时间:
2014-09-10 22:26:41
阅读次数:
191
首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件,磁盘访问延迟约为内存访...
分类:
其他好文 时间:
2014-09-10 17:58:21
阅读次数:
195
阅读前提: ????????1 : 您可能需要对 ?logback 日志系统有所了解 ???? ? ?2 :您可能需要对于?kafka 有初步的了解 ???? ? ?3:请代码查看之前,请您仔细参考系统的业务图解 ? ? ? ? ...
分类:
其他好文 时间:
2014-09-10 16:01:21
阅读次数:
258
一、环境3台虚拟机,系统为centos,zookeeper版本为3.4.3ip与hostname分别为192.168.41.100/master,192.168.41.101/slave1,192.168.41.102/slave2二、安装1、解压下载到的apache-storm-0.9.2-incubating.zip#tarzvxfapache-storm-0.9.2-incubating.tar.gz-C/home/hadoop/2、..
分类:
其他好文 时间:
2014-09-10 02:45:10
阅读次数:
266
我们想通过Storm提供的thrift接口来获取Toplogy的性能数据,比如emiited了多少,延迟是多少之类。但在使用Python开发过程中,发现getClusterInfo这个方法,会报错,thrift版本0.7,Storm版本为0.9.0.1,错误如下:Traceback (most re...
分类:
其他好文 时间:
2014-09-09 11:22:18
阅读次数:
167
官方链接:http://storm.incubator.apache.org/documentation/Guaranteeing-message-processing.htmlWhat does it mean for a message to be “fully processed”?A tup...
分类:
其他好文 时间:
2014-09-08 00:59:26
阅读次数:
482