Locality Sensitive Hash 局部敏感哈希

时间：2016-08-20 19:07:48 阅读：133 评论：0 收藏：0 [点我收藏+]

标签：

Locality Sensitive Hash是一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构，诸如KD-Tree、SR-Tree相比，它较好地克服了Curse of Dimension，能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体（图像、音频）的相似性判断。请看下图：

技术分享

参考上图，如果我们要返回距离中心为r的点，LSH会返回给我们范围更远、更多的点，也就是说，LSH返回的结果会带有一定的false positive。我们或许需要使用linear search进行二次筛选，但这毕竟大大减少了计算的时间。

由此可见，LSH与一般的加密型哈希函数有很大的区别，参见下图：

技术分享

一种实现LSH的最简单的方式是采用random bits sampling的方式，即将待索引的多维整型向量转化为0或1的字符串；再采用随机选取其中的K位拼接成新的字符串；最后再采用常规的哈希函数（例如MD5）等算法获取带索引向量的LSH Code。这样的Hash Code有一个特点，就是Hamming Distance相近的两个向量，其冲突的概率越大，即结果相等的可能性越大。为了减少增强KNN搜索的能力，与Bloom Filter类似，采用多个Hash Table增加冲突的概率，参见下图：

技术分享

来看一下LSH的复杂度：

可见，与各种其它的数据结构相比，基于lsh的索引结构的query时间复杂度，可以做到与向量维度无关，有效地克服了维度灾难的问题，因此更适合高维向量的索引。

基于LSH实现的图像近似检索，其原理也很类似，如下图所示：

技术分享

Locality Sensitive Hash 局部敏感哈希

标签：

原文地址：http://www.cnblogs.com/wt869054461/p/5790886.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行