通过?采集系统?我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似...
分类:
其他好文 时间:
2014-09-30 14:59:10
阅读次数:
166
/** * 计算把source经过几个步骤可以转变到target的值 * @param source * @param target * @return * */ pu...
分类:
其他好文 时间:
2014-09-29 16:35:01
阅读次数:
198
算法概述:首先对源图像与要筛选的图像进行直方图数据采集,对采集的各自图像直方图进行归一化再使用巴氏系数算法对直方图数据进行计算,最终得出图像相似度值,其值范围在[0, 1]之间0表示极其不同,1表示极其相似(相同)。算法步骤详解:大致可以分为两步,根据源图像与候选图像的像素数据,生成各自直方图数据。...
分类:
其他好文 时间:
2014-09-24 17:41:37
阅读次数:
488
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。权重计算方法经常会和余弦相似度(cosine similarity)一同使用于向量空间模型中,用以判断两份文件之间的相似性。应用到余弦定理到新闻分类的算法模拟程序...
分类:
Web程序 时间:
2014-09-20 01:12:26
阅读次数:
370
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......
分类:
其他好文 时间:
2014-09-17 10:30:22
阅读次数:
275
整理自?http://itindex.net/detail/44409-%E8%AE%A1%E7%AE%97-%E7%9B%B8%E4%BC%BC 说明: * 其中基准数据,可以来自外部,处理过程为: ? ? ?- 处理为词袋 ? ? ?- 经过数据集的tfidf结果 * 无法处理中文 ...
分类:
其他好文 时间:
2014-09-16 19:17:11
阅读次数:
246
在给定的字符串A和字符串B,LD(A,B)表示编辑距离,LCS(A,B)表示最长公共子串的长度。如何来度量它们之间的相似度呢?
分类:
其他好文 时间:
2014-09-16 14:11:00
阅读次数:
150
有一个网站,允许用户对她看过的电影打分。一个可能的结果是: 用户1:{电影1=5;电影2=3;电影3=4} 用户2: 用户3: 省略其他用户。 现在网站向一个用户Jack推荐电影,最直接的方式是,找出与Jack品味最接近的人,也就需要把所有用户按照他们与jack的相似度排序。 怎么计算相似度呢? 第...
分类:
其他好文 时间:
2014-09-13 13:13:45
阅读次数:
159
原文:SQL Server相似度比较函数相似度函数
概述 最近有人问到关于两个字段求相似度的函数,所以就写了一篇关于相似度的函数,分别是“简单的模糊匹配”,“顺序匹配”,“一对一位置匹配”。在平时的这种函数可能会需要用到,可能业务需求不一样,这里只给出参照,实际情况可以相对修改。
本文所有的两个字段...
分类:
数据库 时间:
2014-09-12 13:20:43
阅读次数:
333
相似度函数概述 最近有人问到关于两个字段求相似度的函数,所以就写了一篇关于相似度的函数,分别是“简单的模糊匹配”,“顺序匹配”,“一对一位置匹配”。在平时的这种函数可能会需要用到,可能业务需求不一样,这里只给出参照,实际情况可以相对修改。本文所有的两个字段比较都是除以比较字段本身,例如A与B比较,找...
分类:
数据库 时间:
2014-09-12 11:31:03
阅读次数:
242