搜索关键字：simhash，搜索到62个结果！码迷,mamicode.com！

SimHash算法

首先，SimHash算法主要是用于文本去重的。文本去重的第一步就是判断文本的相似度，如果两个文本的相似度很高，那么我们可以认为它们是相同的文本。对于文本相似度的计算，传统的方法是使用向量空间模型，即Vector Space Model，即VSM，VSM计算文本相似度的方法是这样的：先对文本进行分词，提取出特征词，然后建立文本向量，把相似度的计算转化成某种特征向量距离的计算，比...

分类：其他好文时间：2014-06-02 05:02:30 阅读次数：500

转simhash与重复信息识别

simhash与重复信息识别在工作学习中，我往往感叹数学奇迹般的解决一些貌似不可能完成的任务，并且十分希望将这种喜悦分享给大家，就好比说：“老婆，出来看上帝”…… 随着信息爆炸时代的来临，互联网上充斥着着大量的近重复信息，有效地识别它们是一个很有意义的课题。例如，对于搜索引擎的爬虫系统来说，收录重复...

分类：其他好文时间：2014-05-26 06:38:50 阅读次数：258

共62条上一页 1 ... 5 6 7

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)