码迷,mamicode.com
首页 >  
搜索关键字:相似度计算    ( 105个结果
hadoop Mahout中相似度计算方法介绍(转)
来自:http://blog.csdn.net/samxx8/article/details/7691868相似距离(距离越小值越大) 优点 缺点 取值范围 PearsonCorrelation 类似于计算两个矩阵的协方差 ...
分类:其他好文   时间:2014-12-04 11:44:06    阅读次数:281
【读书笔记】《推荐系统(recommender systems An introduction)》第二章 协同过滤推荐
输入:“用户—物品”评分矩阵 输出:(1)用户对某个物品喜欢程度的评分;(2)对于用户,n个推荐的物品列表 1. 基于用户的最近邻推荐(user-based cf) 算法基本假设:(1)如果用户过去有相似的偏好,那么他们未来也会有相似的偏好;(2)用户的偏好不随时间变化而变化 用户相似度计算:user-based cf中pearson相关系数比较好;item-bas...
分类:其他好文   时间:2014-12-03 00:25:30    阅读次数:206
相似度计算方法
在刘军编写的《Hadoop大数据处理》截了两张图:
分类:其他好文   时间:2014-12-02 10:42:36    阅读次数:173
Apache mahout 源码阅读笔记-DataModel之UserBaseRecommender
先来看一下使用流程:1)拿到DataModel2)定义相似度计算模型PearsonCorrelationSimilarity3)定义用户邻域计算模型NearestNUserNeighborhood4)定义推荐模型GenericUserBasedRecommender5)进行推荐 @Test pu.....
分类:Web程序   时间:2014-11-24 16:40:53    阅读次数:202
Mahout中相似度计算方法介绍
在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不 同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方法。下图用 于实现相似度计...
分类:其他好文   时间:2014-10-29 10:23:18    阅读次数:222
皮尔森相似度计算举例(R语言)
整理了一下最近对协同过滤推荐算法中的皮尔森相似度计算,顺带学习了下R语言的简单使用,也复习了概率统计知识。一、概率论和统计学概念复习1)期望值(Expected Value)因为这里每个数都是等概率的,所以就当做是数组或向量中所有元素的平均数吧。可以使用R语言中函数mean()。2)方差(Variance)方差分为population variance总体方差和sample variance样本方...
分类:编程语言   时间:2014-10-12 16:35:38    阅读次数:1714
【转】海量数据相似度计算之simhash和海明距离
通过?采集系统?我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似...
分类:其他好文   时间:2014-09-30 14:59:10    阅读次数:166
相似度计算
struct topic_info_t { int topic_id; float topic_pr;};float sim(const vector& query_info,const vector& adwords){ vector::iterator it1 = query_info.begi...
分类:其他好文   时间:2014-08-25 16:59:24    阅读次数:149
我用JAVA做了个简易图像相似度计算器
简单说两句:笔主利用这个七夕前后两天的寂寞时光,用JAVA磨了一个简单的图像相似度计算小程序,就在刚才终于纠结完毕,输出了1.0版本,小小的满足了一下可怜的虚荣心..→_→原理是使用最简单最基础的感知哈希算法,算法原理戳这里,绝对比笔主讲的要好:http://www.ruanyifeng.com/b...
分类:编程语言   时间:2014-08-03 22:56:26    阅读次数:335
搜索里的相似度计算-最长公共字串
相似度计算的任务是根据两段输入文本的相似度返回从0到1之间的相似度值:完全不相似,则返回0,;完全相同,返回1.衡量两端文字距离的常用方法有:海明距离(Hamming distance),编辑距离,欧氏距离,文档向量的夹角余弦距离,最长公共字串。1. 余弦相似度把两篇文档看作是词的向量,如果x,y为...
分类:其他好文   时间:2014-07-22 22:53:35    阅读次数:186
105条   上一页 1 ... 8 9 10 11 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!