在之前一篇博文中, 有同学在评论中问了个问题: 如何解决因式分解带来的推荐冷门关键词的问题。 在回答这个问题的时候, 想到了近几年在做搜索推荐系统的过程中, 学术界和工业界的一些区别。 正好最近正在做技术规划, 于是写偏文章说下工业界完整推荐系统的设计。结论是: 没有某种算法能够完全解决问题, 多重算法+交互设计, 才能解决特定场景的需求。下文也对之前的一些博文进行梳理,构成一个完整工业界推荐系统所具有的方方面面(主要以百度关键词搜索推荐系统为例)
在学术界, 一般说到推荐引擎, 我们都是围绕着某一种单独的算法的效果优化进行的, 例如按内容推荐, 协同过滤(包括item-based, user-based, SVD分解等),上下文推荐,Constraint-based推荐,图关系挖掘等。 很多比较牛的单个算法, 就能在某个指标上取得较好效果, 例如MAE,RMSE。。。不过有自己的优点, 每种算法也有自己的缺点, 例如按内容推荐主要推荐和用户历史结果相似的item,一般的item-based容易推荐热门item(被更多人投票过)。。。。 所以在工业界,例如各互联网公司, 都会使用多种算法进行互相配合, 取长补短, 配合产品提升效果。而且在完整的推荐系统中,不仅有传统的Rating推荐, 还需要辅以非常多的挖掘, Ranking来达到预期效果。
在实践中, 一个完整的推荐系统会主要由3部分组成:
A user profile is a representation of information about an individual user that is essential for the (intelligent) application we are considering user profile主要是用户(注册)信息,以及对用户反馈的信息进行处理,聚合,用于描述用户的特征; 是后续推荐和排序的基石。 一般情况下,user profile会包含以下具体内容:
user profile经常是一份维护好的数据,在使用的时候,会直接使用该数据,或是将该数据存储在KV系统中,供Online系统实时使用。 在搜索或是推荐的场景下,每次请求一般只会涉及到一次user profile的KV请求,所以online使用的时候,主要的实现困难是存储。
基础挖掘推荐算法, 主要使用传统推荐算法, 结合分析的item profile和user profile, 建立user和item的关系,此时并不会过多考虑其他因素,例如是否冷门/热门,最主要的就是建立user和item的关系。 在各种论文中狭义的推荐,主要就是指该部分内容。 主要围绕着Rating,以及Top N进行该处的Top N(更像是直接Rating值最高的Top N) 传统的推荐算法研究主要围着这块工作进行,现在已经有很多比较成熟的算法,这些算法相关的研究可参见博文:《推荐系统经典论文文献及资料》;其中也能找到业界较多成功推荐系统的实践分享 主要包含以下几类:
以上这些算法, 我们在离线的时候,使用Cross-Validation方式,就可以分析出其效果,而且离线分析的时候,代价比较小,比较容易操作。当然,对于不同的问题会使用对应的指标进行衡量。 对于预测Rating准确性主要是用RMSE,或是MAE;具体可参见博文:《关键词搜索推荐系统中的推荐准确性度量》 如果是排序, 则更多使用NDCG,MAP, MRR等指标;具体可参见博文:《使用ndcg评估关键词推荐系统的相关性》 在具体应用场景中,对于特定推荐问题,会涉及到选用哪种算法的问题。推荐不像CTR预估这样的问题,目标比较单一,经常我们需要考虑多个指标,而且这些指标可能此消彼长,需要做权衡,例如需要考虑算法的准确性(accuracy),同时也需要考虑算法的覆盖(coverage),置信度(confidence),新鲜度(novelty)和惊喜度(Serendipity),同时还需要考虑推荐为系统带来的收益和效用(utility)。 这些指标经常需要权衡,而且经常提升某一个的时候会导致其它下降,所以有时候存在一定的主观性:我们到底看中哪一个指标? 而且这个问题可能随着系统,平台所处的阶段而不同。 例如在建立口碑的时候,我们可能不太关注coverage,而更关注accuracy,因为要让用户建立一种:该系统很准的认知;如果在系统已经比较成熟了,此时可能需要考虑novelty, serendipity的同时,还需要考虑utility:该推荐能为系统带来什么收益,例如对百度的变现有多大收益? 对淘宝的销售有多少收益等 具体这些指标的选择可参见博文:《选择推荐算法时需要考虑得因素》
比较简单的实现方法, 是直接对各种特征拍阈值进行线性加权,比较成熟的系统一般会使用机器学习的方式和综合个维特征, 学习出模型后进行排序, 例如使用Learning to rank技术。 该部分需要考虑的因素较多较为复杂。 和传统的推荐相比, 此处单独将Ranking拿出来。 基础推荐挖掘, 和传统的推荐部分比较类似,主要结合user profile, 挖掘哪些item适合推给哪些user。 但仅根据这些挖掘就直接进行推荐是不够的。 真实online推荐场景中, 需要考虑更多其他因素, 例如:相关性,推荐的上下文,CTR预估,以及商业业务规则。
很直接,离线调研的时候看就看算法的评估指标,参见博文:《关键词搜索推荐系统中的推荐准确性度量》,《使用ndcg评估关键词推荐系统的相关性》 上线的时候,进行圈用户(圈定某两个user集合作为实验/对照用户组)实验, 或者圈请求实验(例如随机圈定5%流量进行实验),之后根据系统效果监控中的指标值判断实验效果。以下为一个典型的效果监控截图: 实验如果证明成功,达到预期效果,一般之后推广到全流量;反之,如果实验未达到预期效果,则需要分析什么地方有问题,如何改进,之后继续调整算法继续实验。当实验较多时,还会涉及较多工程问题,例如分层实验框架等。
对于整个系统,需要建立晚上的效果监控平台进行效果的实时监控,以便发现用户的行为模型,系统的不足,分析后续的发力点等。一般这样的监控平台会使用Dashboard来完成,基本的框架是前段UI + 后端数据库。很多时候,离线统计策略在hadoop上处理统计日志计算指标,并将计算出来的指标存入数据库,前端UI访问数据库,拉出指定时间段内某些指标的值,并进行简单分析。 具体的监控指标,及指标体系的建立,可参见博文:《搜索引擎变现策略指标体系》
完整的产品包括便捷的交互和背后牛叉的算法。很多时候,要提升推荐的效果,需要算法和交互配合,才能达到理想的效果: 交互需要有健壮的算法产出结果;而算法也需要有配套的交互,才能达到预期效果,否则再牛叉的算法,对结果的影响也可能没那么明显。
一些交互的例子参见博文:
《关键词推荐工具中的用户引导机制之二:suggestion架构》
《关键词推荐工具中的用户引导机制之三:相关搜索query技术》
说了那么多,中心就是想说明, 一个完整的推荐系统,远远不止是一两个rating算法能够覆盖的,而且此处还未涉及工程部分。
更多内容,也可直接访问: http://semocean.com
原文地址:http://blog.csdn.net/dustinsea/article/details/39347897