抓取的网页内容中,有大部分会是相似的,抓取时就要过滤掉,开始考虑用VSM算法,后来发现不对,要比较太多东西了,然后就发现了simHash算法,这个算法的解释我就懒得copy了,simhash算法对于短数据的支持不好,但是,我本来就是很长的数据,用上! 源码实现网上也有不少,但是貌似都是同样的,...
分类:
Web程序 时间:
2014-08-17 23:59:23
阅读次数:
709
核心函数:cvFindContourscvApproxPolycvCreateContourTreecvMatchContourTrees结果:完全相同的图像比较结果:完全不同的图像的比较结果:形变的结果:可以看出直接用轮廓进行比较结果几乎为两个不相同的图像,而用多边形逼近建立的轮廓树进行比较还具有相当的相似度改变箭头..
分类:
其他好文 时间:
2014-08-14 17:12:29
阅读次数:
991
#include"cv.h"
#include"cxcore.h"
#include"highgui.h"
#include<iostream>
#include"function.h"
intMatchContour(intargc,char**argv)
{
IplImage*Src1=cvLoadImage("e:\\picture\\jiantou.jpg",0);
IplImage*Src2=cvLoadImage("e:\\picture\\jiantou2.jpg",0);
IplI..
分类:
其他好文 时间:
2014-08-14 17:11:49
阅读次数:
633
创建图像的HSV空间的H和S二维直方图并比较直方图相似度:代码:#include"cv.h"
#include"cxcore.h"
#include"highgui.h"
#include<iostream>
CvHistogram*Histogram2D(IplImage*src,intHSize,intSSize)
{
IplImage*SrcH=cvCreateImage(cvGetSize(src),8,1);
IplImage*Src..
分类:
其他好文 时间:
2014-08-14 17:06:59
阅读次数:
285
Mahout基于推荐系统,分类,聚类算法等经常用到的相似度度量:PearsonCorrelationSimilarity皮尔森距离EuclideanDistanceSimilarity欧几里德距离CosineMeasureSimilarity余弦距离(0.7变成了UncenteredCosineSimilarity)SpearmanCorrelationSimilarity斯皮尔曼等级相关,排序..
分类:
其他好文 时间:
2014-08-13 19:22:58
阅读次数:
227
=========Maven Report Plugin=========1.源码分析Java代码maven-pmd-plugin2.代码格式检查Java代码maven-checkstyle-plugin3.代码相似度检查Java代码org.codehaus.mojosimian-maven-plu...
分类:
其他好文 时间:
2014-08-11 10:01:32
阅读次数:
237
聚类(Clustering)分析有一个通俗的解释和比喻,那就是“物以类聚,人以群分”。针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后,每个群组内部个对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度。 聚类技术一方面本身就是一种...
分类:
其他好文 时间:
2014-08-06 01:52:50
阅读次数:
203
基于物品的推荐,是以物品的相似度为基础的。在mahout中意味着使用ItemSimilarity实现相似性度量,而不是UserSimilarity。他们分别是通过相似的用户和相似的物品。基于物品的:了解用户的喜好,并寻找相似的物品基于用户的:寻找相似的用户,并了解他们喜好什么。如果物品数比用户数少很...
分类:
其他好文 时间:
2014-08-05 13:55:29
阅读次数:
256
将各个计算用户相似度的方法弄过来了,可以参考下。实际运行代码数据文件 intro.csv内容: 直接复制就行了1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107...
分类:
其他好文 时间:
2014-08-05 13:38:39
阅读次数:
415
除了简单地给出查询词列表外,用户通常还会给出权重,该权重表示一个词项比另外一个词项更重要。这是通过在初始查询中用户人工指定词项权重来实现的。另外一种方法是自动指定权重--通过基于词项在整个文档集中出现的频率。基本思想是:不频繁出现的词的权重应该比频繁出现的词的权重更高。文献[Salton,1969;Salton,1970b]分别采用权重自动赋值与人工赋值方法计算相似度,然后进行查询比较。实验结果表...
分类:
其他好文 时间:
2014-08-04 14:36:17
阅读次数:
337