来自:http://blog.csdn.net/samxx8/article/details/7691868相似距离(距离越小值越大) 优点 缺点 取值范围 PearsonCorrelation 类似于计算两个矩阵的协方差 ...
分类:
其他好文 时间:
2014-12-04 11:44:06
阅读次数:
281
输入:“用户—物品”评分矩阵
输出:(1)用户对某个物品喜欢程度的评分;(2)对于用户,n个推荐的物品列表
1. 基于用户的最近邻推荐(user-based cf)
算法基本假设:(1)如果用户过去有相似的偏好,那么他们未来也会有相似的偏好;(2)用户的偏好不随时间变化而变化
用户相似度计算:user-based cf中pearson相关系数比较好;item-bas...
分类:
其他好文 时间:
2014-12-03 00:25:30
阅读次数:
206
在刘军编写的《Hadoop大数据处理》截了两张图:
分类:
其他好文 时间:
2014-12-02 10:42:36
阅读次数:
173
先来看一下使用流程:1)拿到DataModel2)定义相似度计算模型PearsonCorrelationSimilarity3)定义用户邻域计算模型NearestNUserNeighborhood4)定义推荐模型GenericUserBasedRecommender5)进行推荐 @Test pu.....
分类:
Web程序 时间:
2014-11-24 16:40:53
阅读次数:
202
在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不 同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方法。下图用 于实现相似度计...
分类:
其他好文 时间:
2014-10-29 10:23:18
阅读次数:
222
整理了一下最近对协同过滤推荐算法中的皮尔森相似度计算,顺带学习了下R语言的简单使用,也复习了概率统计知识。一、概率论和统计学概念复习1)期望值(Expected Value)因为这里每个数都是等概率的,所以就当做是数组或向量中所有元素的平均数吧。可以使用R语言中函数mean()。2)方差(Variance)方差分为population variance总体方差和sample variance样本方...
分类:
编程语言 时间:
2014-10-12 16:35:38
阅读次数:
1714
通过?采集系统?我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似...
分类:
其他好文 时间:
2014-09-30 14:59:10
阅读次数:
166
struct topic_info_t { int topic_id; float topic_pr;};float sim(const vector& query_info,const vector& adwords){ vector::iterator it1 = query_info.begi...
分类:
其他好文 时间:
2014-08-25 16:59:24
阅读次数:
149
简单说两句:笔主利用这个七夕前后两天的寂寞时光,用JAVA磨了一个简单的图像相似度计算小程序,就在刚才终于纠结完毕,输出了1.0版本,小小的满足了一下可怜的虚荣心..→_→原理是使用最简单最基础的感知哈希算法,算法原理戳这里,绝对比笔主讲的要好:http://www.ruanyifeng.com/b...
分类:
编程语言 时间:
2014-08-03 22:56:26
阅读次数:
335
相似度计算的任务是根据两段输入文本的相似度返回从0到1之间的相似度值:完全不相似,则返回0,;完全相同,返回1.衡量两端文字距离的常用方法有:海明距离(Hamming distance),编辑距离,欧氏距离,文档向量的夹角余弦距离,最长公共字串。1. 余弦相似度把两篇文档看作是词的向量,如果x,y为...
分类:
其他好文 时间:
2014-07-22 22:53:35
阅读次数:
186