这里隆重推出介绍一种词义消歧的(简单)方法:句子相似度虽然第一反应一定是介个,但是总不能说他们的相似度就是单词出现的重复次数吧= =||,怎么看都觉得不科学233于是,我们想到了最简单却又好用的相似度判断方式,就是"余弦相似性"(cosine similiarity)了啦:我们现在有两句话s1和s2...
分类:
其他好文 时间:
2014-12-04 19:35:45
阅读次数:
143
前面介绍过K-means聚类方法,这个方法简单易懂,主要在于如何定义距离计算公式(一般使用欧氏距离),如何选择K值,这两个问题。这次我们介绍谱聚类,它是K-means的升级版。我们计划从这样几个方面介绍谱聚类:K-measn聚类有什么缺点?谱聚类的基本思想,以及谱聚类的算法步骤。...
分类:
其他好文 时间:
2014-12-04 15:48:14
阅读次数:
243
最近要考试了,所以现在不写,怕这段时间都没空写了。
继上一篇的算法:http://blog.csdn.net/abcd_d_/article/details/41218549
,本文对分水岭算法进行了区域合并,合并准则采用hsv颜色空间的区域特征的直方图相似度进行合并。且看效果:图一是原图,图二是采用之前的文章算法的效果,图三为进行了区域合并后的效果。(大小被我调整过)
(图一)...
分类:
编程语言 时间:
2014-12-04 13:59:09
阅读次数:
275
来自:http://blog.csdn.net/samxx8/article/details/7691868相似距离(距离越小值越大) 优点 缺点 取值范围 PearsonCorrelation 类似于计算两个矩阵的协方差 ...
分类:
其他好文 时间:
2014-12-04 11:44:06
阅读次数:
281
输入:“用户—物品”评分矩阵
输出:(1)用户对某个物品喜欢程度的评分;(2)对于用户,n个推荐的物品列表
1. 基于用户的最近邻推荐(user-based cf)
算法基本假设:(1)如果用户过去有相似的偏好,那么他们未来也会有相似的偏好;(2)用户的偏好不随时间变化而变化
用户相似度计算:user-based cf中pearson相关系数比较好;item-bas...
分类:
其他好文 时间:
2014-12-03 00:25:30
阅读次数:
206
在刘军编写的《Hadoop大数据处理》截了两张图:
分类:
其他好文 时间:
2014-12-02 10:42:36
阅读次数:
173
http://blog.csdn.net/wty19/article/details/6820399http://www.cnblogs.com/technology/archive/2012/07/12/2588022.htmlhttp://blog.sina.com.cn/s/blog_4a540be60100vjae.htmlhttp://www.cnblogs.com/wuchaodong/archive/2010/04/02/1444792.htmlhttp://blog.sina.com.cn/s..
分类:
编程语言 时间:
2014-12-02 00:16:25
阅读次数:
156
1.相似度定义
我们定义,则,我们设,则,|C|=s,则相似度p=,p(0,1)
2.相似度检测算法设计
算法设计:
定义4个字符为一个字符串,将T1,T2分割成若干字符串,若剩余字符不足4个,则以空格补全。将分割后的T1T2计数,记下|T1|=n,|T2|=m,s=0;在T1中取出第一字符串,检测是否在T2中,若存在,则s+1,并删除与被检测字符串相同的字符串,循环到T...
分类:
其他好文 时间:
2014-12-01 10:10:14
阅读次数:
216
MinHash是用于快速检测两个集合的相似性的方法。改方法由Andrei Broder(1997)发明,并最初用于搜索引擎AltaVista中来检测重复的网页的算法。它同样可以用于推荐系统和大规模文档聚类中。我们先介绍Jaccard相似度量。对于两个集合A与B,Jaccard相似性系数可以定义为:容...
分类:
编程语言 时间:
2014-11-29 22:50:10
阅读次数:
513
相似度对比的两种计算算法:Jaccard similarity相似性系数和Ochiai coefficient落和系数Jaccard coefficient:A,B分别代表符合某种条件的集合:两个集合交集的大小/两个集合并集的大小,交集=并集意味着2个集合完全重合。Ochiai coefficien...
分类:
编程语言 时间:
2014-11-29 21:37:07
阅读次数:
553