码迷,mamicode.com
首页 > 其他好文 > 详细

大数据读书笔记(2)-流式计算

时间:2015-11-06 12:41:43      阅读:302      评论:0      收藏:0      [点我收藏+]

标签:

早期和当前的"流式计算"系统分别称为"连续查询处理类"和"可扩展数据流平台类"计算系统。

 

流式计算系统的特点:

1)低延迟 2)极佳的系统容错性 3)极强的系统扩展能力 4)灵活强大的应用逻辑表达能力

 

目前典型的流式计算系统:

S4,storm,millwheel,samza,d-stream,hadoop online,mupd8等。

其中storm和millwheel是各方面比较突出的。

 

流式计算系统架构:

常见的流式计算系统架构分为两种:主从模式和p2p模式。

主从模式storm、millwheel和samza

p2p模式s4

samza是利用消息系统kafka和hadoop2.0的资源管理系统Yarn综合而成的,架构比较独特,但本质上遵循主从架构。

 

送达保证

三种可能:至少送达一次(at_least once delivery),至多送达一次(at_most once delivery),恰好送达一次(Exeact-once delivery)。

storm在系统中提供"恰好送达一次"语义是通过送达保证机制和事务拓扑联合来完成的。

samza依靠kafka的消息持久化联合broker缓存机制,保证"恰好送达一次"语义。

 

大数据读书笔记(2)-流式计算

标签:

原文地址:http://www.cnblogs.com/davidwang456/p/4942143.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!