topology提交前会先判断集群中是否存在同名作业,如果存在在提交失败,如果没有则会增加集群提交次数SubmittedCount,每次提交成功,该变量都会加1,然后会为该作业分配一个id,生成规则如下:
public static String TopologyNameToId(String topologyName, int counter) {
return topologyNam...
分类:
Web程序 时间:
2015-01-16 20:58:00
阅读次数:
534
一个topology包含一或多个spout bolt,spout负责在数据源获得数据并发送给bolt,每个bolt负责做完处理后发给下一个bolt。通常topology的创建是由TopologyBuilder来创建的,该组件会记录包含哪些spout bolt,并做相应验证:各组件是否有id冲突,校验方法如下:
private void validateUnusedId(String id) {
...
分类:
Web程序 时间:
2015-01-16 16:47:39
阅读次数:
335
在前一篇文章中,介绍到了Galaxy的增量计算性质,其state是框架内部管理的,以及与Storm的简单对比。这篇文章将讲述更多Galaxy增量模型的事情,并介绍这套增量模型之上实现的Galaxy SQL和Galaxy Operator,同时会从增量角度对比Spark Streaming。...
分类:
其他好文 时间:
2015-01-16 16:42:07
阅读次数:
652
最近遇到了两起数据库连接数不足的问题, 通常都会预留一些会话增加的情况, 但在一些特殊情况下如连接风暴(logon storm), 如果在监听中没有做rate限流,对数据库来说巨大的冲击可能会导致数据库Hang 或 ora-20 或ora-18 错误。 对于Hang并伴有进程数不足的情况,AWR、A...
分类:
系统相关 时间:
2015-01-16 14:42:04
阅读次数:
344
Storm集群升级Python库遇到的一个与yum相关的问题...
分类:
编程语言 时间:
2015-01-15 13:00:13
阅读次数:
155
Supervisor中文翻译是监督者,意思简单明了,就是对资源进行监控,其实主要是woker资源。该组件所做的事情概括如下:
1、每隔一段时间发送心跳证明自己还活着
2、下载新的topology
3、释放无效的woker
4、分配新的任务
该组件主要包含:心跳线程、supervisor事件接受线程、处理线程,一旦事件接受到则会进入任务分配环节,主要逻辑...
分类:
Web程序 时间:
2015-01-14 16:52:28
阅读次数:
284
Apache storm 是一个由twitter开源的大数据处理系统,与其他系统不同的是,storm旨在用于分布式实时处理并且与语言无关。笔者所认知的storm使用场景诸 如 实时日志分析、网站用户行为实时分析、实时计算等,目前很多公司也都把storm作为自己的大数据架构的一部分,来实现一些实时业务...
分类:
Web程序 时间:
2015-01-14 14:10:42
阅读次数:
207
如要监控Storm集群和运行在其上的Topology,该如何做呢?
Storm已经为你考虑到了,Storm支持Thrift的C/S架构,在部署Nimbus组件的机器上启动一个Thrift Server进程来提供服务,我们可以通过编写一个Thrift Client来请求Thrift Server,来获取你想得到的集群和Topology的相关数据,来接入监控平台,如Zabbix等,我目前使用的就...
典型大数据计算模式与系统
典型大数据计算模式
典型系统
大数据查询分析计算
HBase,Hive,Cassandra,Impala,Shark,Hana等
批处理计算
Hadoop MapReduce,Spark等
流式计算
Scribe,Flume,Storm,S4, Spark S...
分类:
其他好文 时间:
2015-01-13 21:33:30
阅读次数:
382
原文地址:http://storm.apache.org/documentation/Common-patterns.html
此文档有许明明的翻译:http://xumingming.sinaapp.com/189/twitter-storm-storm%E7%9A%84%E4%B8%80%E4%BA%9B%E5%B8%B8%E8%A7%81%E6%A8%A1%E5%BC%8F/
但...
分类:
其他好文 时间:
2015-01-13 17:49:27
阅读次数:
201