标签:style color ar 数据 问题 sp on c line
阅读背景:
1 : 您需要知道什么是NetFlix?
2 : 推荐系统的基本概念?
3 : 推荐系统的实时化。
阅读目的:
精确的了解目前推荐系统的分层结构:确立各个层次之间精细划分。
系统被分为3部分, online,nearLine和离线部分(offLine)。Online和nearLine部分一起认为是实时部分。
离线部分就是传统的个性化推荐系统的主体,定期将大量存储的数据拿出来进行批处理运算,然后对模型进行建立与更新,这里就不详细介绍了。
nearLine部分,是将用户产生的事件,利用流式计算得到一些中间结果,这些中间结果一方面发送给online部分用于实时更新推荐模型,另一方面将中间结果存储起来,例如存储在MemCached、Cassandra、MySql等可以快速查询的存储中作为备份。在NetFlix的系统中,他们的流式计算是通过一个叫做NetFlix.Manhattan来实现的,它是一个类似于Storm的实时流式计算框架,只是针对他们自己的应用有一定的特异性,不是通用的实时计算框架。
然后是online部分。这一部分利用离线部分的主体模型并考虑nearLine部分的实时数据对模型进行增量更新,然后可以得到一个实时的推荐模型,进而根据用户的行为来对用户进行实时推荐。
个性化推荐系统架构的关键问题,就是如何以无缝方式实现在线和离线计算过程,说到底,也是算法的设计,如何将算法的计算步骤合理分配到各个部分,使得得到的模型既可以非常准确,又可以快速计算出来以满足实时性的要求。
图片超过上传限制: 待补:
标签:style color ar 数据 问题 sp on c line
原文地址:http://my.oschina.net/u/1791874/blog/312108