1.概述 跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。 2.Jaccard index 在介绍MinHash之前,我们先介绍下Jaccard i ...
分类:
编程语言 时间:
2016-08-03 10:14:33
阅读次数:
185
一、Device Mapper: loop-lvm 默认 CentOS7 下 Docker 使用的 Device Mapper 设备默认使用 loopback 设备,后端为自动生成的稀疏文件,如下: # ls -lsh /var/lib/docker/devicemapper/devicemappe ...
分类:
移动开发 时间:
2016-05-13 12:20:42
阅读次数:
1080
基于最近邻的算法,在各种情况下经常使用,但是当N特别大的时候,效率不是很高,比如当N=10^5,时已经不太好算了
暴力法:O(N^2)
KDT: O(N*sqrt(N)
局部敏感哈希(LSH):跟桶大小有关...
分类:
编程语言 时间:
2016-05-12 20:11:49
阅读次数:
636
这篇文章主要讲simHash算法。这是一种LSH(Locality-Sensitive Hashing,局部敏感哈希)的简单实现。它是广泛用于数据去重的算法,可以用于相似网站、图片的检索。而且当两个样本差别并不大时,算法仍能起效。值得一提的是,该算法的时空复杂度不存在与维度有关的项,所以不会遭遇维度
分类:
编程语言 时间:
2016-02-17 20:43:25
阅读次数:
251
上一年记录的东西,整理下...LSH,是Locality Sensitive Hashing的缩写,也翻译为局部敏感哈希,是一种通过设计满足特殊性质即局部敏感的哈希函数,提高相似查询效率的方法。 虽然从正式提出距今不过十余年,由于其局部敏感的特殊性质,以及在高维数据上相当于k-d树等方法的优越性,L...
分类:
其他好文 时间:
2015-07-08 16:22:26
阅读次数:
172
感谢大神们的无私奉献精神........因此笔者要坚持开源,专注开源,开源就像在HPU的考试中不像其他人作弊一样,长远来看,会有巨大收获。一.背景介绍1.1 相似性搜索简介 高维相似性搜索在音频、图形和传感器数据等特征丰富的数据的基于内容的检索中日益重要,一般来说应用在KNN和ANN。一个针对...
分类:
其他好文 时间:
2015-07-07 19:02:56
阅读次数:
188
这里主要是对vector容器的一些常见应用的总结。至于vector的构造函数及初始化可以参考http://blog.csdn.net/lsh_2013/article/details/21191289,这里不再赘述。
元素的遍历
用迭代器访问vector元素
#include
#include
using namespace std;
int main(void)
{
vector v...
分类:
其他好文 时间:
2015-07-02 22:36:12
阅读次数:
549
原文链接--http://www.jiahenglu.net/NSFC/LSH.htmlLSH(Location Sensitive Hash),即位置敏感哈希函数。与一般哈希函数不同的是位置敏感性,也就是散列前的类似点经过哈希之后,也可以在一定程度上类似,而且具有一定的概率保证。 形式化定义:对于...
分类:
编程语言 时间:
2015-06-10 22:29:54
阅读次数:
180
select tt1.LSH
from (select t1.zblsh,t1.lsh,
row_number() over(partition by t1.ZBLSH order by t1.XT_XGRQ desc) rn
from grjx_zbgl_bhgzl t1
WHERE t1.nf = '2015'
) tt1
where tt1...
分类:
数据库 时间:
2015-06-01 13:23:04
阅读次数:
243
一.问题来源 来源于换关键字,从LSH转换为hash检索,这要感谢李某。二.解析 笔者认为关键思想是数据降维后使用矩阵旋转优化,其他和LSH一样的。2.1 PCA降维 先对原始空间的数据集X∈Rn×d用PCA进行降维处理,设经过PCA降维后的数据集为V∈Rn×c,该问题就可以转化为将该数据集中...
分类:
其他好文 时间:
2015-05-27 11:36:09
阅读次数:
118