码迷,mamicode.com
首页 > 编程语言 > 详细

相似文本文档分析之SimHash算法

时间:2014-11-15 11:16:40      阅读:167      评论:0      收藏:0      [点我收藏+]

标签:style   sp   on   as   size   算法   ash   br   二进制   

SimHash算法:

simhash算法的输入是一个向量,输出是一个 f 位的签名值。为了陈述方便,假设输入的是一个文档的特征集合,每个特征有一定的权重。比如特征可以是文档中的词,其权重可以是这个词出现的次数。 simhash 算法如下:
1,将一个 f 维的向量 V 初始化为 0 ; f 位的二进制数 S 初始化为 0 ;
2,对每一个特征:用传统的 hash 算法对该特征产生一个 f 位的签名 b 。对 i=1 到 f :如果b 的第 i 位为 1 ,则 V 的第 i 个元素加上该特征的权重;否则,V 的第 i 个元素减去该特征的权重。
3,如果 V 的第 i 个元素大于 0 ,则 S 的第 i 位为 1 ,否则为 0 ;
4,输出 S 作为签名。

相似文本文档分析之SimHash算法

标签:style   sp   on   as   size   算法   ash   br   二进制   

原文地址:http://www.cnblogs.com/mingluosunshan/p/4098916.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!