搜索关键字：相似度，搜索到854个结果！码迷,mamicode.com！

网页内容相似度之SimHash算法

抓取的网页内容中，有大部分会是相似的，抓取时就要过滤掉，开始考虑用VSM算法，后来发现不对，要比较太多东西了，然后就发现了simHash算法，这个算法的解释我就懒得copy了，simhash算法对于短数据的支持不好，但是，我本来就是很长的数据，用上！源码实现网上也有不少，但是貌似都是同样的，...

分类：Web程序时间：2014-08-17 23:59:23 阅读次数：709

轮廓函数

核心函数：cvFindContourscvApproxPolycvCreateContourTreecvMatchContourTrees结果：完全相同的图像比较结果：完全不同的图像的比较结果：形变的结果：可以看出直接用轮廓进行比较结果几乎为两个不相同的图像，而用多边形逼近建立的轮廓树进行比较还具有相当的相似度改变箭头..

分类：其他好文时间：2014-08-14 17:12:29 阅读次数：991

用轮廓树（CvContourTree）来描述两个轮廓的相似度量度

#include"cv.h" #include"cxcore.h" #include"highgui.h" #include<iostream> #include"function.h" intMatchContour(intargc,char**argv) { IplImage*Src1=cvLoadImage("e:\\picture\\jiantou.jpg",0); IplImage*Src2=cvLoadImage("e:\\picture\\jiantou2.jpg",0); IplI..

分类：其他好文时间：2014-08-14 17:11:49 阅读次数：633

二维直方图及其比较

创建图像的HSV空间的H和S二维直方图并比较直方图相似度：代码：#include"cv.h" #include"cxcore.h" #include"highgui.h" #include<iostream> CvHistogram*Histogram2D(IplImage*src,intHSize,intSSize) { IplImage*SrcH=cvCreateImage(cvGetSize(src),8,1); IplImage*Src..

分类：其他好文时间：2014-08-14 17:06:59 阅读次数：285

Mahout 常用相似度度量（笔记）

Mahout基于推荐系统，分类，聚类算法等经常用到的相似度度量：PearsonCorrelationSimilarity皮尔森距离EuclideanDistanceSimilarity欧几里德距离CosineMeasureSimilarity余弦距离（0.7变成了UncenteredCosineSimilarity）SpearmanCorrelationSimilarity斯皮尔曼等级相关，排序..

分类：其他好文时间：2014-08-13 19:22:58 阅读次数：227

Maven常用插件--转

=========Maven Report Plugin=========1.源码分析Java代码maven-pmd-plugin2.代码格式检查Java代码maven-checkstyle-plugin3.代码相似度检查Java代码org.codehaus.mojosimian-maven-plu...

分类：其他好文时间：2014-08-11 10:01:32 阅读次数：237

【数据挖掘技术】聚类分析

聚类（Clustering）分析有一个通俗的解释和比喻，那就是“物以类聚，人以群分”。针对几个特定的业务指标，可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后，每个群组内部个对象间的相似度会很高，而在不同群组之间的对象彼此间将具有很高的相异度。聚类技术一方面本身就是一种...

分类：其他好文时间：2014-08-06 01:52:50 阅读次数：203

mahout推荐13-基于物品的推荐

基于物品的推荐，是以物品的相似度为基础的。在mahout中意味着使用ItemSimilarity实现相似性度量，而不是UserSimilarity。他们分别是通过相似的用户和相似的物品。基于物品的：了解用户的喜好，并寻找相似的物品基于用户的：寻找相似的用户，并了解他们喜好什么。如果物品数比用户数少很...

分类：其他好文时间：2014-08-05 13:55:29 阅读次数：256

mahout推荐12-相似度方法汇总

将各个计算用户相似度的方法弄过来了，可以参考下。实际运行代码数据文件 intro.csv内容: 直接复制就行了1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107...

分类：其他好文时间：2014-08-05 13:38:39 阅读次数：415

改进后的向量空间模型（VSM）

除了简单地给出查询词列表外，用户通常还会给出权重，该权重表示一个词项比另外一个词项更重要。这是通过在初始查询中用户人工指定词项权重来实现的。另外一种方法是自动指定权重--通过基于词项在整个文档集中出现的频率。基本思想是：不频繁出现的词的权重应该比频繁出现的词的权重更高。文献[Salton，1969；Salton，1970b]分别采用权重自动赋值与人工赋值方法计算相似度，然后进行查询比较。实验结果表...

分类：其他好文时间：2014-08-04 14:36:17 阅读次数：337

共854条上一页 1 ... 79 80 81 82 83 ... 86 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)