标签:
最近在组内作了次简单的分享,题目是实时数据流的处理,切入点主要是推荐系统中多种实时数据流的实时计算问题,当然像搜索的trends, 广告的实时计费等也可能会碰到类似的问题,PPT里面简单的介绍了下线上系统实际的结构和流程,系统上线运行近半年多,虽然没有出现过问题,其中有些问题还是值得修改和改善的,如果有业务相关的需求,这些问题会一并改善。
主要处理的问题:
1. 乱序的问题,这个在多数据流实时系统比较常见,即多种数据到达系统的时间不一致,传统的window join方法不太work
2. 低延迟和可扩展性,实时数据处理要为online model和service提供服务,秒级别的延迟是必须的,为应对可能的数据增长,可扩展性也是必须的。
现有系统面临的问题:
1. 数据服务化的问题,实时计算处理的中间数据不能很好的为第三方服务所共享,需要有中间数据落地或者API基本的数据暴露接口,避免重复计算和处理
2. 数据处理效率的问题,从kafka拉取数据时消息堆积、缓存处理等
3. 缓存处理问题,包括服务容错处理和缓存失效机制的问题,容错处理主要针对服务中缓存处理异常及故障重试服务化,缓存主动失效等。
PPT后面给出了可能的几个方案,个人在kafka consumer pull data 时候的ratelimiter、缓存和数据服务化等正在尝试,不一定是合适的解决方案,比较简单、有效的方法才是最实用的,需要根据应用场景进行选择。
标签:
原文地址:http://blog.csdn.net/hotallen/article/details/44727515