Storm介绍

时间：2014-09-23 13:10:17 阅读：348 评论：0 收藏：0 [点我收藏+]

Storm是一个分布式的、可靠的、容错的数据流处理系统（流式计算框架，可以和mapreduce的离线计算框架对比理解）。整个任务被委派给不同的组件，每个组件负责一个简单的特定的处理任务。Storm集群的输入流是一个叫spout的组件负责接入处理。spout把数据传给bolt组件，bolt组件可以对数据完成某种转化。bolt组件可以把数据持久化，或者传送到其他的bolt。可以把Storm集群想象成一个 bolt组件链，每个组件负责对spout流入的数据（也可以是其他bolt流入的数据）进行某种形式的处理。

有个简单的例子可以说明这个概念。昨晚我看新闻，节目中发言人在谈论政治家以及他们在不用领域的立场。他们不停地在重复一些不同的名字，这时我想知道他们提到的每个名字出现的次数是否一样，还是在某些名字被提及次数更多。

把发言人的言语想象成数据的输入流。我们可以定义一个spout从文件（通过socket、HTTP或者其他方式）读取这些输入。当几行文本到来时，spout把它们传送给bolt，bolt负责把文本分词。接着数据流被传送到另外一个bolt，这个bolt负责在一个已经定义好的政治家名单进行比对。如果匹配到了，将数据库中对应的名字的计数加1。任何时候你想看结果，只要从数据库中查询就可以，因为当数据到达时整个过程都是实时更新的。这过程中所有的组件（spout和bolt）以及他们之间的连接被称为拓扑（topology）（见图表 1-1）。

bubuko.com,布布扣

现在很容易想象定义每个bolt和spout并行度，这样可以无限地扩展整个拓扑。很神奇，对吧？尽管前面讲的只是一个简单的例子，不过你大概已经隐约感觉到Storm的强大了。

那么，Storm适用什么应用场景呢？

数据流处理：正如上述的例子，Storm不像其他流处理系统，因为Storm不需要中间队列。
持续计算：持续地向客户端发送数据，它们可以实时的更新以及展现数据，比如网站指标。
分布式远程过程调用：轻松地并行化CPU密集型操作。

（补充）从业务场景上，举例说明Storm的可以处理的具体业务（这部分是黄崇远总结的，觉得比较全面，摘抄在此）

条件过滤：这是Storm最基本的处理方式，对符合条件的数据进行实时过滤，将符合条件的数据保存下来，这种实时查询的业务需求再实际应用中很常见。
中间计算：我们需要改变数据中某一个字段（例如是数值），我们需要利用一个中间值经过计算（值比较、求和、求平均等等）后改变该值，然后将数据重新输出。
求TopN：相信大家对TopN类的业务需求也比较熟悉，在规定时间窗口内，统计数据出现的TopN，该类处理在购物及电商业务需求中，比较常见。
推荐系统：有时候在实时处理时会从mysql及hadoop中获取数据库中的信息，例如在电影推荐系统中，传入数据为：用户当前点播电影信息，从数据库中获取的是该用户之前的一些点播电影信息统计，例如点播最多的电影类型、最近点播的电影类型，及其社交关系中点播信息，结合本次点击及从数据库中获取的信息，生成推荐数据，推荐给该用户。并且该次点击记录将会更新其数据库中的参考信息，这样就是实现了简单的智能推荐。
分布式RPC：Storm有对RPC进行专门的设计，分布式RPC用于对Storm上大量的函数进行并行计算，最后将结果返回给客户端。
批处理：所谓批处理就是数据积攒到一定触发条件，就批量输出，所谓的触发条件类似事件窗口到了，统计数量够了即检测到某种数据传入等等。
热度统计：热度统计实现依赖于Storm提供的TimeCacheMap数据结构，现在可能推荐用RotatingMap，关于这两个数据结构的源码分析，移步Storm TimeCacheMap RotatingMap源码分析，该结构能够在内存中保存近期活跃的对象。我们可以使用它来实现例如论坛中热帖排行计算等。