Storm介绍及核心组件和编程模型

时间：2017-05-15 23:52:38 阅读：465 评论：0 收藏：0 [点我收藏+]

标签：编程实时处理 nim 数据库同步产品经理离线 out mil 高可用

离线计算

离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示

代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、azkaban/oozie任务调度

流式计算

流式计算：数据实时产生、数据实时传输、数据实时计算、实时展示

代表技术：Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。

一句话总结：将源源不断产生的数据实时收集并实时计算，尽可能快的得到计算结果

离线计算和实时计算的区别

实时收集、实时计算、实时展示

Storm

Storm用来实时处理数据，特点：低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口，便于开发。

Storm和Hadoop的区别

Storm用于实时计算，Hadoop用于离线计算。

Storm处理的数据保存在内存中，源源不断；Hadoop处理的数据保存在文件系统中，一批一批。

Storm的数据通过网络传输进来；Hadoop的数据保存在磁盘中。

Storm与Hadoop的编程模型相似

技术分享

Job：任务名称

JobTracker：项目经理

TaskTracker：开发组长、产品经理

Child:负责开发的人员

Mapper/Reduce:开发人员中的两种角色，一种是服务器开发、一种是客户端开发

Topology:任务名称

Nimbus:项目经理

Supervisor:开发组长、产品经理

Worker:开发人员

Spout/Bolt：开人员中的两种角色，一种是服务器开发、一种是客户端开发

Storm应用场景

Storm用来实时计算源源不断产生的数据，如同流水线生产一样。

l 日志分析

从海量日志中分析出特定的数据，并将分析的结果存入外部存储器用来辅佐决策。

l 管道系统

将一个数据从一个系统传输到另外一个系统，比如将数据库同步到Hadoop

l 消息转化器

将接受到的消息按照某种格式进行转化，存储到另外一个系统如消息中间件

Storm核心组件（重要）

技术分享

Nimbus：负责资源分配和任务调度。

Supervisor：负责接受nimbus分配的任务，启动和停止属于自己管理的worker进程。---通过配置文件设置当前supervisor上启动多少个worker。

Worker：运行具体处理组件逻辑的进程。Worker运行的任务类型只有两种，一种是Spout任务，一种是Bolt任务。

Task：worker中每一个spout/bolt的线程称为一个task. 在storm0.8之后，task不再与物理线程对应，不同spout/bolt的task可能会共享一个物理线程，该线程称为executor。

Storm编程模型（重要）

技术分享

Topology：Storm中运行的一个实时应用程序的名称。（拓扑）

Spout：在一个topology中获取源数据流的组件。通常情况下spout会从外部数据源中读取数据，然后转换为topology内部的源数据。

Bolt：接受数据然后执行处理的组件,用户可以在其中执行自己想要的操作。

Tuple：一次消息传递的基本单元，理解为一组消息就是一个Tuple。

Stream：表示数据的流向。

流式计算一般架构图（重要）

技术分享

l 其中Flume用来获取数据。

l Kafka用来临时保存数据。

l Strom用来计算数据。

l Redis是个内存数据库，用来保存数据。

Storm介绍及核心组件和编程模型

标签：编程实时处理 nim 数据库同步产品经理离线 out mil 高可用

原文地址：http://www.cnblogs.com/ahu-lichang/p/6858807.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行