码迷,mamicode.com
首页 >  
搜索关键字:simhash    ( 62个结果
使用simhash以及海明距离判断内容相似程度
介绍了simhash以及海明距离的概念及原理,并提供了以上两个算法的java实现。
分类:其他好文   时间:2015-09-29 12:49:29    阅读次数:190
simHash学习
学习文献主要是:http://blog.csdn.net/heiyeshuwu/article/details/44117473http://my.oschina.net/leejun2005/blog/150086simHash产生背景:1:事件,爬虫中不可避免会爬出许多相似的html文本信息,全...
分类:其他好文   时间:2015-09-08 12:13:48    阅读次数:123
simhash-- 一种文档去重的算法
最早看数学之美的时候,书中就提到了这个算法,当时没有做过相关地工作,没什么具体的印象。一年前转岗时面试时别人提到了这个算法,知道了simhash可以用来解决网页等海量数据的去重问题,很高效。然后自己大概实现了一下这个算法的python版本,试了一下,感觉还不错,mark下吧# coding=utf-...
分类:编程语言   时间:2015-08-28 13:12:56    阅读次数:210
Simhash相似哈希算法
前言最近在阅读吴军博士的>这门书,得到了很多的启发和思考,里面提到了一个概念---信息指纹。一般正常人提到这个概念,第一个想到的词应该是哈希映射算法,将任何对象都映射成一个独立的变量,一般这个变量是一个独有的数字,当然也不排除哈希碰撞的可能行。论单个对象,用哈希算法做一次映射,比较对象是否一致,这固然是可以的,但是如果想用哈希算法做一些文章之间的相似度计算的时候,可能传统的哈希算法就不见得是最佳的...
分类:编程语言   时间:2015-07-29 23:02:39    阅读次数:253
海量数据相似度计算之simhash和海明距离
通过?采集系统?我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度...
分类:其他好文   时间:2015-05-28 18:29:58    阅读次数:159
哈希技术
1、一致性哈希。在分布式系统用途广泛。2、局部敏感哈希LSH:simhash和minhash。可以用于相似度检测等。谷歌有篇文章利用LSH进行网页去重。3、布隆过滤器。判断一个元素是否在一个集合中。4、在数据流算法中哈希算法应用更是广泛。比如数据流中独立元素计数等。5、特征哈希。近几年在nips等机...
分类:其他好文   时间:2015-05-24 15:34:48    阅读次数:111
simhash与Google的网页去重
前几天去吃葫芦头的路上,大飞哥给详细的讲解了他在比较文本相似度实验时对Google的simhash方法高效的惊叹,回来特意去找了原文去拜读。Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向...
分类:Web程序   时间:2015-05-10 20:15:12    阅读次数:126
基于局部敏感哈希的协同过滤算法之simHash算法
搜集了快一个月的资料,虽然不完全懂,但还是先慢慢写着吧,说不定就有思路了呢。 开源的最大好处是会让作者对脏乱臭的代码有羞耻感。 当一个做推荐系统的部门开始重视【数据清理,数据标柱,效果评测,数据统计,数据分析】这些所谓的脏活累活,这样的推荐系统才会有救。 求教GitHub的使用。 简单不...
分类:编程语言   时间:2015-04-25 22:23:27    阅读次数:392
R语言中文分词jiebaR
简介“结巴”中文分词的R语言版本,支持最大概率法(Maximum Probability), 隐式马尔科夫模型(Hidden Markov Model), 索引模型(QuerySegment), 混合模型(MixSegment), 共四种分词模式, 同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。特性支持 Windows , Linux操...
分类:编程语言   时间:2015-02-17 11:42:32    阅读次数:376
.NET下文本相似度算法余弦定理和SimHash浅析及应用
余弦相似性原理:首先我们先把两段文本分词,列出来所有单词,其次我们计算每个词语的词频,最后把词语转换为向量,这样我们就只需要计算两个向量的相似程度.我们简单表述如下文本1:我/爱/北京/天安门/ 经过分词求词频得出向量(伪向量) [1,1,1,1]文本2:我们/都爱/北京/天安门/ 经过分词求词频得...
分类:编程语言   时间:2014-12-30 16:50:37    阅读次数:220
62条   上一页 1 ... 3 4 5 6 7 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!