标签:
比较不同的文章、图片啊什么的是否相似,如果一对一的比较,数据量大的话,以O(
不过相同的字符串一定会得到相同的hash,而不同的字符串,哪怕只有一点点不同,也极可能得到完全不同hash。很自然的想到,要是相似的object能够得到相似的hash就好了。局部敏感哈希就是这样的hash,实现了相似的object的hash也是相似的。
要找相似,首先是要定义什么事相似。对于高位空间中的相似,一般认为距离越近越相似。一般用Jaccard distance/similarity来描述:
例如,该图sim=4/11, d=1 - 4/11=7/11
直接举例子说明:
k=2,
对于较长的shingle
,可以将其hash,所以得到:h(
设
一般来讲,k越大,相似性判断的就越准确,不过这样来判断相似性依旧效率低下,时间复杂度还是O(
在使用MinHashing之前,首先要将shingle set写成矩阵形式,看例子:
有5个document:
S1 abcabc
S2 cbacba
S3 acbaba
S4 bcacab
S5 bacbca
那么他们的shingle set:
abcabc = {ab, bc, ca, ab, bc},
cbacba = {cb, ba, ac, cb, ba},
acbaba = {ac, cb, ba, ab, ba},
bcacab = {bc, ca, ac, ca, ab},
bacbca = {ba, ac, cb, bc, ca}
将集合中出现过的shingle放入一个集合,并将其编号,由此可以得到一个矩阵。这个矩阵的行是shingle元素,列是文档
shingle | |||||
---|---|---|---|---|---|
0 (ab) | 1 | 0 | 1 | 1 | 0 |
1 (ac) | 0 | 1 | 1 | 1 | 1 |
2 (ba) | 0 | 1 | 1 | 0 | 1 |
3 (bc) | 1 | 0 | 0 | 1 | 1 |
4 (ca) | 1 | 0 | 0 | 1 | 1 |
5 (cb) | 0 | 1 | 1 | 0 | 1 |
实际上,真正的matrix会相当稀疏,不过有sim的公式可以知道,我们关注的是非零项,因此矩阵只保留那些非全零行。
虽然将shingle set转换成了matrix,但实际上,运算量并没有减少
如果存在一个能够hash document,使每一列的C成为一个较小的signature h(C)。并且满足以下两个条件:
因此,我们的目标是找到这样一个hash函数,使得
很显然,hash function取决于我们如何选取相似的尺度。对于Jaccard similarity,这个hash function就是MinHashing
MinHashing定义:特征矩阵按行进行一个随机的排列后,第一个列值为1的行的行号
我们还是用接着上述的例子来说明,如果我们使用三个hash函数来生成随机排列:
x是shingle,hash后我们得到了新的排列。不过我们看到,如果hash函数选得不好,有些shingle就会无法出现。这里只有h3才是真正的重新排列(没有缺失)
根据这个重新的排列,我们按照定义找出每一个hash函数对应的最小hash值(特征矩阵按行进行一个随机的排列后,第一个列值为1的行的行号),我们可以得到一个hash的matrix:
根据random hash中的重新排序,我们可以找到对应的第一行为1的数值(MinHashing value),填入MinHashing这个表格中,我们得到了最小hash签名(MinHashing signature)
这里要注意的就是,由于random hash选取不够好,会使得出现重复的元素,这种情况情况下,按照从小到大来看即可。即h2只有2和5,先把2检查完,若没有1,才继续看5.
但是,我们为什么可以这样做?为什么MinHash保留了相似性呢?因为两列的最小hash值就是这两列的Jaccard相似度的一个估计,换句话说,两列最小hash值同等的概率与其相似度相等,即P(h(Si)=h(Sj)) = sim(Si,Sj)简单证明下:
对于任意i, j两列,他们可能:
对于i, j的Jaccard similarity:
sim = A/B
那么对于MinHash来说, 由于是随机排列后:
两个最小hash值相等的概率是A/B
所以,算出了MinHash,并得到signature,原先的相似性也保留在了signature当中
为什么我们需要MinHashing Signature呢?因为中心极限定理。一次hash只是偶然,多次hash才能接近概率。这也是为什么我们用了h1,h2,h3三个hash函数。在实际应用中,会使用更多的hash函数
可以发现,原先一个可能非常大的文章,被我们摘要成了一个签名矩阵,同时不同文章之间的相似性却保留下来了。
我们的目标是:找到那些相似度至少为S的文档。一般来讲,会用一个hash function(x, y)来指出x和y是否相似
思路是,对于最小哈希尺度
candidate(备选)
的,是否是相似还需要未来进一步检查具体措施:将签名矩阵分为 b组,每组有r行,然后对每一组进行hash,如果两列的某一组的hash相同,则将其hash到同一个bucket,一般会有k个buckets(k 尽可能的大)。这些进入同一个bucket的列就是candidate pair(尽管可能只有一个组相同)。但是那些完全没有相同的组,一定是不相似的,基于此,进行剪枝。
对于候选相似项我们知道对于某一具体的行,两个签名相同的概率p =两列的相似度= sim(S1,S2),那么我们可以计算:
举例来说明:
sim(C1,C2) = 0.8意味着任意一组中每行两列(C1,C2)相同的概率是0.8,r=5,那么这一组完全相同的概率是:
那么对于所有的组b=20来说,两列不相似的概率是:
同理也可证明,相似度为30%的是真的不相似,它们相似的概率只有0.0475
因此我们看到,如果80%的组都被hash到同一个bucket中,那这两列的相似度为0.8,而真正可能相似的概率则为99.965%。这就是局部敏感hash,保证了相似的文档始终会被hash到同一个bucket中。
另外就是,b和r的取值会导致相似曲线的变化,理想中的相似曲线应该是:
可以想象一下,如果b和r都取1,那么红线应该是一条斜率为1的直线
这根红线实际上是至少有一个组的所有对的签名相等的概率:
局部敏感哈希(Locality Sensitive Hashing)
标签:
原文地址:http://www.cnblogs.com/yilujuechen/p/4869703.html