码迷,mamicode.com
首页 >  
搜索关键字:相似度    ( 854个结果
【转】海量数据相似度计算之simhash和海明距离
通过?采集系统?我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似...
分类:其他好文   时间:2014-09-30 14:59:10    阅读次数:166
字符串相似度算法,AS3实现,用于判断聊天广告
/** * 计算把source经过几个步骤可以转变到target的值 * @param source * @param target * @return * */ pu...
分类:其他好文   时间:2014-09-29 16:35:01    阅读次数:198
图像处理之相似图片识别(直方图应用篇)
算法概述:首先对源图像与要筛选的图像进行直方图数据采集,对采集的各自图像直方图进行归一化再使用巴氏系数算法对直方图数据进行计算,最终得出图像相似度值,其值范围在[0, 1]之间0表示极其不同,1表示极其相似(相同)。算法步骤详解:大致可以分为两步,根据源图像与候选图像的像素数据,生成各自直方图数据。...
分类:其他好文   时间:2014-09-24 17:41:37    阅读次数:488
从网页相关性TF-IDF到余弦定理的新闻分类的程序实现
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。权重计算方法经常会和余弦相似度(cosine similarity)一同使用于向量空间模型中,用以判断两份文件之间的相似性。应用到余弦定理到新闻分类的算法模拟程序...
分类:Web程序   时间:2014-09-20 01:12:26    阅读次数:370
nltk-比较中文文档相似度
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......
分类:其他好文   时间:2014-09-17 10:30:22    阅读次数:275
nltk-比较文档相似度-完整实例
整理自?http://itindex.net/detail/44409-%E8%AE%A1%E7%AE%97-%E7%9B%B8%E4%BC%BC 说明: * 其中基准数据,可以来自外部,处理过程为: ? ? ?- 处理为词袋 ? ? ?- 经过数据集的tfidf结果 * 无法处理中文 ...
分类:其他好文   时间:2014-09-16 19:17:11    阅读次数:246
文本比较算法:计算文本的相似度
在给定的字符串A和字符串B,LD(A,B)表示编辑距离,LCS(A,B)表示最长公共子串的长度。如何来度量它们之间的相似度呢?
分类:其他好文   时间:2014-09-16 14:11:00    阅读次数:150
集体智慧编程:第二章,推荐算法
有一个网站,允许用户对她看过的电影打分。一个可能的结果是: 用户1:{电影1=5;电影2=3;电影3=4} 用户2: 用户3: 省略其他用户。 现在网站向一个用户Jack推荐电影,最直接的方式是,找出与Jack品味最接近的人,也就需要把所有用户按照他们与jack的相似度排序。 怎么计算相似度呢? 第...
分类:其他好文   时间:2014-09-13 13:13:45    阅读次数:159
SQL Server相似度比较函数
原文:SQL Server相似度比较函数相似度函数 概述 最近有人问到关于两个字段求相似度的函数,所以就写了一篇关于相似度的函数,分别是“简单的模糊匹配”,“顺序匹配”,“一对一位置匹配”。在平时的这种函数可能会需要用到,可能业务需求不一样,这里只给出参照,实际情况可以相对修改。 本文所有的两个字段...
分类:数据库   时间:2014-09-12 13:20:43    阅读次数:333
SQL Server相似度比较函数
相似度函数概述 最近有人问到关于两个字段求相似度的函数,所以就写了一篇关于相似度的函数,分别是“简单的模糊匹配”,“顺序匹配”,“一对一位置匹配”。在平时的这种函数可能会需要用到,可能业务需求不一样,这里只给出参照,实际情况可以相对修改。本文所有的两个字段比较都是除以比较字段本身,例如A与B比较,找...
分类:数据库   时间:2014-09-12 11:31:03    阅读次数:242
854条   上一页 1 ... 77 78 79 80 81 ... 86 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!