整理了一下最近对协同过滤推荐算法中的皮尔森相似度计算,顺带学习了下R语言的简单使用,也复习了概率统计知识。一、概率论和统计学概念复习1)期望值(Expected Value)因为这里每个数都是等概率的,所以就当做是数组或向量中所有元素的平均数吧。可以使用R语言中函数mean()。2)方差(Variance)方差分为population variance总体方差和sample variance样本方...
分类:
编程语言 时间:
2014-10-12 16:35:38
阅读次数:
1714
基于item的推荐是常用并且高效的一种推荐方式,最重要的是它可以做实事推荐。...
分类:
编程语言 时间:
2014-10-11 14:41:25
阅读次数:
337
需求
在推荐系统场景中,如果基础行为数据太少,或者过于稀疏,通过推荐算法计算得出的推荐结果很可能达不到要求的数量。
比如,希望针对每个item或user推荐20个item,但是通过计算只得到8个,剩下的12个就需要补全。
欢迎转载,请注明出处:
策略
数据补全的具体策略是:
补全时机:在挖掘计算结束后,挖掘结果导入HBase(最终web系...
分类:
数据库 时间:
2014-09-29 21:15:51
阅读次数:
295
一、定义UserCF:推荐那些和他有共同兴趣爱好的用户喜欢的物品ItemCF:推荐那些和他之前喜欢的物品类似的物品根据用户推荐重点是反应和用户兴趣相似的小群体的热点,根据物品推荐着重与用户过去的历史兴趣,即:UserCF是某个群体内的物品热门程度ItemCF是反应本人的兴趣爱好,更加个性化二、新闻类...
分类:
其他好文 时间:
2014-09-20 01:02:56
阅读次数:
197
有一个网站,允许用户对她看过的电影打分。一个可能的结果是: 用户1:{电影1=5;电影2=3;电影3=4} 用户2: 用户3: 省略其他用户。 现在网站向一个用户Jack推荐电影,最直接的方式是,找出与Jack品味最接近的人,也就需要把所有用户按照他们与jack的相似度排序。 怎么计算相似度呢? 第...
分类:
其他好文 时间:
2014-09-13 13:13:45
阅读次数:
159
引言
Taste是曾经风靡一时的推荐算法框架,后来被并入Mahout中,Mahout的部分推荐算法基于Taste实现。
下文介绍基于Taste实现最常用的UserCF和ItemCF。
本文不涉及UserCF和ItemCF算法的介绍,这方面网上资料很多,本文仅介绍如何基于Mahout编程实现。
欢迎转载,请注明来源:
步骤一:构建数据模型...
分类:
其他好文 时间:
2014-09-10 17:45:26
阅读次数:
183
曹鹏,2006年浙江大学计算机科学专业毕业,2013年中国科学院计算机技术研究所博士毕业。博士期间研究方向为社交网络与社会计算,曾经做过搜索、话题发现、社交网络方面、推荐算法等领域的相关研究。...
分类:
其他好文 时间:
2014-09-10 12:32:20
阅读次数:
302
欧几里德距离是推荐算法中比较简单的一种,他计算两个用户之间的相似程度其计算方法为,以豆瓣电影为例假设用户A对电影 f1.。。。fn的评价分数分别为 r1.。。。rn用户B对电影 f1.。。。fn的评价分数分别为s1.。。。。sn暂且假设A和B都对这些电影评价过那么用户A和B的欧几里德距离计算方法为先...
分类:
其他好文 时间:
2014-08-27 12:26:07
阅读次数:
213
向量之间的相似度
度量向量之间的相似度方法很多了,你可以用距离(各种距离)的倒数,向量夹角,Pearson相关系数等。
皮尔森相关系数计算公式如下:
分子是协方差,分子是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。
因为,所以皮尔森相关系数计算公式还可以写成:
当两个变量的线性关系增强时,相关系数趋于1或-1。
用户评分预测
...
分类:
其他好文 时间:
2014-08-21 19:28:24
阅读次数:
796