minhash是一种基于jaccard index 相似度的算法。属于LSH(Location Sensitive Hash)家族中的一员。 jaccard index :有两个集合A={a , b , c , d , e } ,B={a , e , f , g},根据jaccard inde...
分类:
其他好文 时间:
2014-09-10 12:19:10
阅读次数:
200
余弦计算相似度度量相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关...
分类:
其他好文 时间:
2014-09-05 21:03:52
阅读次数:
2715
常用相似性度量(距离 相似系数)在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,.....
分类:
其他好文 时间:
2014-09-05 19:48:51
阅读次数:
595
方法一:使用递归思想代码: 1 #include 2 #include 3 using namespace std; 4 5 int minValue(int t1,int t2,int t3); 6 int calculateStringDistance(string strA,int pAbe....
分类:
其他好文 时间:
2014-08-31 21:18:11
阅读次数:
187
转自:http://www.dotblogs.com.tw/rachen/archive/2008/10/07/5611.aspx函數一.產生 Like 比對用字串create function fn_get_fuzzy_str( @instr nvarchar(256) )returns nvar...
分类:
数据库 时间:
2014-08-29 12:57:07
阅读次数:
312
struct topic_info_t { int topic_id; float topic_pr;};float sim(const vector& query_info,const vector& adwords){ vector::iterator it1 = query_info.begi...
分类:
其他好文 时间:
2014-08-25 16:59:24
阅读次数:
149
WordCo-occurrence一直不知道该怎么正确翻译,单词相似度?还是共生单词?还是单词的共生矩阵?这在统计里面是很常用的文本处理算法,用来度量一组文档集中所有出现频率最接近的词组.嗯,其实是上下文词组,不是单词.算是一个比较常用的算法,可以衍生出其他的统计算法.能用来做推荐,因..
分类:
其他好文 时间:
2014-08-24 19:31:03
阅读次数:
205
向量之间的相似度
度量向量之间的相似度方法很多了,你可以用距离(各种距离)的倒数,向量夹角,Pearson相关系数等。
皮尔森相关系数计算公式如下:
分子是协方差,分子是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。
因为,所以皮尔森相关系数计算公式还可以写成:
当两个变量的线性关系增强时,相关系数趋于1或-1。
用户评分预测
...
分类:
其他好文 时间:
2014-08-21 19:28:24
阅读次数:
796
Given two words word1 and word2, find the minimum number of steps required to convert word1 to word2. (each operation is counted as 1 step.)...
分类:
其他好文 时间:
2014-08-18 16:21:57
阅读次数:
148
一、Simhash简介 SimHash是用来网页去重最常用的hash方法,速度很快。Google采用这种算法来解决万亿级别的网页去重任务。 SimHash算法的主要思想是降维。将高维的特征向量映射成一个低维的特征向量,通过两个向量...
分类:
其他好文 时间:
2014-08-18 12:43:55
阅读次数:
249