storm启动流程 storm是一个流行的开源的,分布式实时处理框架,关于storm的基本介绍可以参加这篇官方文档。大致的拓扑结构如图所示: 其中Nimbus是一个后台管理进程,运行在ma...
分类:
其他好文 时间:
2014-07-10 00:36:32
阅读次数:
439
欢迎转载,转载请注明出处,徽沪一郎。Spark Streaming能够对流数据进行近乎实时的速度进行数据处理。采用了不同于一般的流式数据处理模型,该模型使得Spark Streaming有非常高的处理速度,与storm相比拥有更高的吞能力。本篇简要分析Spark Streaming的处理模型,Spa...
分类:
其他好文 时间:
2014-07-07 14:44:43
阅读次数:
213
下面是自己安装和测试storm的一些笔记,比较乱,后续有时间在整理一篇。storm jar all-my-code.jar com.storm.MyTopology arg1 arg2这个命令会运行主类: com.strom.MyTopology, 参数是arg1, arg2。这个类的main函数定...
分类:
其他好文 时间:
2014-07-02 00:56:33
阅读次数:
202
现有的hadoop生态系统中存在的问题1)使用mapreduce进行批量离线分析;2)使用hive进行历史数据的分析;3)使用hbase进行实时数据的查询;4)使用storm进行实时的流处理;5)。。。。。。导致:维护成本高、学习成本高Spark的出现弥补了Hadoop生态系统中的缺陷,使用spar...
分类:
其他好文 时间:
2014-06-28 14:08:46
阅读次数:
306
本篇博文详细告诉你如何安装Storm的本地开发环境,总体分为两步,具体如下:
1、从官网上下载Storm的发布包,下载完成后将其解压,并将解压后的bin目录添加到环境变量(PATH)中,以方便后续执行Storm的相关命令
2、修改Storm的配置文件(storm.yaml),主要是按照实际情况更新配置文件中的集群信息,然后将修改后的配置文件添加到目录(~/.storm/)中,目的是为了后续能够远程启动和停止集群上的计算任务(即topology)...
分类:
其他好文 时间:
2014-06-27 23:44:13
阅读次数:
505
过去十年,数据处理领域发生了很大的变化,可以认为是发生了一次革命。MapReduce、Hadoop以及其他相关技术使得在存储和处理我们以前无法想象的大规模数据方面成为可能。然后不幸的是,这些数据处理技术并不是实时系统,而且他们命中注定也不是。无法将Hadoop转换成实时系统,因为实时数据处理和批处理在要求上有本质的不同。
然后,大规模地实时数据处理需求在商业应用上已经越来越迫切。数据处理生态中缺少”实时Hadoop“(即类似于Hadoop在批处理领域的通用解决方案)已经成为一个最大的遗憾。Storm弥补了...
分类:
其他好文 时间:
2014-06-27 09:04:04
阅读次数:
184
Storm-0.9.2-incubating源码编译打包详解...
分类:
其他好文 时间:
2014-06-27 07:11:01
阅读次数:
642
Apache Storm是一个免费、开源、分布式的实时计算系统。相对于Hadoop适用于批处理而言,利用Storm可以非常容易地对流式数据进行实时可靠处理。Storm使用简单,支持多种编程语言且非常有趣!...
分类:
其他好文 时间:
2014-06-26 14:20:52
阅读次数:
294
Storm官方文档分为几个部分:
第一部分,主要是有关Storm的一些入门介绍,具体涉及四个子项:前言、使用教程、环境安装、工程示例
第二部分,主要是一些专题介绍,针对Storm框架的一些核心内容进行深入讲解。因此,相对于第一部分而言,要深入一些,具体涉及三个子项:使用指南、Java doc、FAQ
第三部分,介绍如何从社区中获取帮助。
第四部分,介绍Storm周边生态。
对于前两部...
分类:
其他好文 时间:
2014-06-26 07:16:57
阅读次数:
239
之前对这个的理解有些问题,今天用到有仔细梳理了一遍,记录一下 首先开启storm tracker机制的前提是, 1. 在spout emit tuple的时候,要加上第3个参数messageid 2. 在配置中acker数目至少为1 3. 在bolt emit的时候,要加上第二个参数anchor t...
分类:
其他好文 时间:
2014-06-25 15:57:09
阅读次数:
251