标签:cab 注意 哈希 9.png 计算 column 系统 一个 适用于
很多的网页挖掘问题都可以表述为寻找相似集合:
流程:
k-shingle(or k-gram)是文件中出现的k个字。通常使用一个文件的k-shingle集合来表示这个文件。
举例:k =2, doc = abcab。Set of 2-shingles = {ab, ac, bc, ca}
注意:k要尽量取的大一些,否则大多数的文档会产生很多shingles。
-k=5适用于小文档;k=10适用于大文档。
基础数据模型:集合
Jaccard Similarity of sets
杰卡德相似性是集合的交集除以他们的并集。
检查具有相似签名的列的确是相似的。
用几个独立的hash函数构建签名。
h(C1)=h(C2)的概率与Sim(C1, C2) = a/(a+b+c)
Initialize M(i,c) to \infity for all i and c
for each row r
for each column c
if c has 1 in row r
for each hash function hi do
if hi(r) is a smaller value than M(i, c)
then
M(i, c) := hi(r);
Example:
标签:cab 注意 哈希 9.png 计算 column 系统 一个 适用于
原文地址:https://www.cnblogs.com/sharalynwon/p/10554853.html