码迷,mamicode.com
首页 > 其他好文 > 详细

实时数据流处理简介

时间:2015-03-29 16:34:56      阅读:173      评论:0      收藏:0      [点我收藏+]

标签:

最近在组内作了次简单的分享,题目是实时数据流的处理,切入点主要是推荐系统中多种实时数据流的实时计算问题,当然像搜索的trends, 广告的实时计费等也可能会碰到类似的问题,PPT里面简单的介绍了下线上系统实际的结构和流程,系统上线运行近半年多,虽然没有出现过问题,其中有些问题还是值得修改和改善的,如果有业务相关的需求,这些问题会一并改善。

    主要处理的问题:

1. 乱序的问题,这个在多数据流实时系统比较常见,即多种数据到达系统的时间不一致,传统的window join方法不太work

2.  低延迟和可扩展性,实时数据处理要为online model和service提供服务,秒级别的延迟是必须的,为应对可能的数据增长,可扩展性也是必须的。

现有系统面临的问题:

1.  数据服务化的问题,实时计算处理的中间数据不能很好的为第三方服务所共享,需要有中间数据落地或者API基本的数据暴露接口,避免重复计算和处理

2. 数据处理效率的问题,从kafka拉取数据时消息堆积、缓存处理等

3. 缓存处理问题,包括服务容错处理和缓存失效机制的问题,容错处理主要针对服务中缓存处理异常及故障重试服务化,缓存主动失效等。

PPT后面给出了可能的几个方案,个人在kafka consumer pull data 时候的ratelimiter、缓存和数据服务化等正在尝试,不一定是合适的解决方案,比较简单、有效的方法才是最实用的,需要根据应用场景进行选择。

 PPT分享地址

实时数据流处理简介

标签:

原文地址:http://blog.csdn.net/hotallen/article/details/44727515

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!