实时数据流处理简介

时间：2015-03-29 16:34:56 阅读：173 评论：0 收藏：0 [点我收藏+]

标签：

最近在组内作了次简单的分享，题目是实时数据流的处理，切入点主要是推荐系统中多种实时数据流的实时计算问题，当然像搜索的trends，广告的实时计费等也可能会碰到类似的问题，PPT里面简单的介绍了下线上系统实际的结构和流程，系统上线运行近半年多，虽然没有出现过问题，其中有些问题还是值得修改和改善的，如果有业务相关的需求，这些问题会一并改善。

主要处理的问题：

1. 乱序的问题，这个在多数据流实时系统比较常见，即多种数据到达系统的时间不一致，传统的window join方法不太work

2. 低延迟和可扩展性，实时数据处理要为online model和service提供服务，秒级别的延迟是必须的，为应对可能的数据增长，可扩展性也是必须的。

现有系统面临的问题:

1. 数据服务化的问题，实时计算处理的中间数据不能很好的为第三方服务所共享，需要有中间数据落地或者API基本的数据暴露接口，避免重复计算和处理

2. 数据处理效率的问题，从kafka拉取数据时消息堆积、缓存处理等

3. 缓存处理问题，包括服务容错处理和缓存失效机制的问题，容错处理主要针对服务中缓存处理异常及故障重试服务化，缓存主动失效等。

PPT后面给出了可能的几个方案，个人在kafka consumer pull data 时候的ratelimiter、缓存和数据服务化等正在尝试，不一定是合适的解决方案，比较简单、有效的方法才是最实用的，需要根据应用场景进行选择。

PPT分享地址

实时数据流处理简介

标签：

原文地址：http://blog.csdn.net/hotallen/article/details/44727515