实时计算Samza中文教程（二）——概念

时间：2014-10-27 23:05:34 阅读：699 评论：0 收藏：0 [点我收藏+]

希望上一篇背景篇让大家对流式计算有了宏观的认识，本篇根据官网是介绍概念，先让我们看看有哪些东西呢？

概念一：Streams

Samza是处理流的。流则是由一系列不可变的一种相似类型的消息组成。举个例子，一个流可能是在一个网站上的所有点击，或者更新到一个特定数据库表的更新操作，或者是被一个服务或者事件数据生成所有日志信息。消息能够被加到另一个流之后或者从一个流中读取。一个流能有多个消费者，并且从一个流中读取不会删除消息（使得小心能够被广播给所有消费者）。另外消息可以有一个关联的key用来做分区，这个将在后面说明。

Samza支持实现流抽取的可插拔系统：在kafka里，流是一个topic（话题），在数据库里我们可以通过消费从一个表里更新操作读取一个流；而在hadoop里我们可能跟踪在hdfs上的一个目录下的文件。

概念二：Jobs

Samza的jobs 是对一组输入流设置附加值转化成输出流的程序（见下图）。为了扩展流处理器的吞吐量，我们将任务拆分更小的并行单元：分区Partitions和任务tasks

概念三：Partitions

每个流都被分割成一个或多个分区，并且在流里的每一个分区都总是一个有序的消息序列。每个消息在这个序列里有一个被叫做offset（中文暂且称它为偏移量吧），它在每一个分区里都是唯一的。这个偏移量可以是一个连续的整数、字节偏移量或者字符串，这取决于底层的系统实现了。

当有一个消息加入到流中，它只会追加到流的分区中的一个。这个消息通过写入者带着一个被选择的key分配到它对应的分区中。举个例子，如果用户id被用作key，那么所有和用户id相关的消息都应该追加到这个分区中。

概念四：Tasks

一个job通过把他分割成多个任务Task进行扩展。任务作为job的并行单元，就好比上述提到的流中的分区。每个任务为每个job输入流消费来自一个分区的数据。

按照消息的偏移，一个任务按序处理来自它的输入分区的消息。分区之间没有定义顺序，这就允许每一个任务独立执行。YARN调度器负责分发任务给一台机器，所以作为一个整体的工作job可以分配到多个机器并行执行。

在一个job中任务的数量是由输入分区决定的（也就是说任务数目不能超过分区数目，否则就会存在没有输入的任务）。可是，你能改变分配给job的计算资源（比如内存、cpu核数等）去满足job的需要，可以参考下面关于container的介绍。

另外一个值得注意的是分配给task的分区的任务绝不会改变：如果有一个任务在一台失效的机器上，这个task会被在其它地方重启，仍然会消费同一个流的分区。

概念五：Dataflow Graphs

我们能组合多个jobs去创建一个数据流图，其中节点表示包含数据的流，而边则是进行数据传输。这个组合纯粹是通过jobs作为输入和输出的流来完成。这些jobs也是解耦的：他们不需要基于相同的代码库，并且添加、删除或者重启一个下游任务不会影响上游的任务。

概念六： Containers

分区Partitions和任务tasks都是并行的逻辑单元——他们不会与特定的计算资源（cpu、内存、硬盘等）的分配相符合。Containers则是物理的并行单元，并且一个容器本质上是一个Unix进程。每个容器跑着一个或多个tasks。tasks的数量是从输入的分区数自动确定和固定下来的，但是容器的数量（cpu、内存资源）是在运行时用户设定的并且能在任何时刻改变。

好了Samza的几个大的概念介绍完了，我们可以从宏观上看看Samza是什么样的，下一篇内容咱们来欣赏一下它的架构。

实时计算Samza中文教程（二）——概念

标签：流式计算 samza 实时计算

原文地址：http://blog.csdn.net/yangchao228/article/details/40515665

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行