布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出,它是一种space efficient的概率型数据结构,用于判断一个元素是否在集合中。 看看下面几个问题: 字处理软件中,需要检查一个英语单词是否拼写正确 在 FBI,一个嫌疑人的名字是否已经在嫌疑名 ...
分类:
其他好文 时间:
2018-03-22 12:36:33
阅读次数:
228
原文链接:http://blog.csdn.net/qq_38646470/article/details/794316591.概念:如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链表,树等等数据结构都是这种思路.但是随着集合中元素的增加,我们需要的存储空间越来越大,检索速度也越来越慢。不过世界上还有一种叫作散列表(又叫哈希表,Hashtable)的数据结
分类:
其他好文 时间:
2018-03-04 14:36:05
阅读次数:
162
原文链接 :http://blog.csdn.net/qq_38646470/article/details/79431659 1.概念: 如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链表,树等等数据结构都是这种思路. 但是随着集合中元素的增加,我们需要的 ...
分类:
其他好文 时间:
2018-03-03 19:25:05
阅读次数:
211
http://www.jiuzhang.com/tutorial/big-data-interview-questions/163 1.最高频 K 项问题 2.布隆过滤器 3.外排序算法 4.概率类大数据问题 ...
分类:
编程语言 时间:
2018-02-19 23:47:43
阅读次数:
353
输入一个样本x,对样本x提取k个特征,根据这k个特征对x进行分类。 布隆过滤器:输入一个样本x,对x求k个哈希值,根据这k个哈希值对x进行分类:包含或者不包含。 机器学习中的样本集,必然是样本数远远大于类别数。 哈希,就是映射,就是函数。 函数就是在集合之间建立联系。 集合就是一个包含很多点的空间。 ...
分类:
其他好文 时间:
2017-11-29 00:06:06
阅读次数:
147
用于网页黑名单系统,垃圾邮件过滤系统,爬虫的网址判重系统。一般的意思是在大量数据集合中,判断一个新数据是否存在于这个集合中。数据量少还可以使用hashmap和位图bitmap。数据一大占用内存不理想。布隆的做饭法是,开辟一个长度为m的位图数组,对于每一个集合的元素使用多个hash函数计算得值%m,落 ...
分类:
其他好文 时间:
2017-11-15 21:58:14
阅读次数:
152
介绍 接上篇,【搜索引擎(五)】局部敏感哈希,本篇介绍的也是一个不精确的算法,用来不精确地排除重复元素。 利用布隆过滤器,可以大大降低排重的时间。但是其实在实际中它的作用有限,还要结合其他的技巧才能达到较好的效果。另外,它本身不作为索引,如果不加处理地加以使用,在搜索引擎的快响应(小于1s)的目标中 ...
分类:
其他好文 时间:
2017-11-13 19:47:01
阅读次数:
115
由于在爬虫代码中需要实现信息的去重功能,所以需借助bloomfilter,在看完各种博客后发现没有安装,这就尴尬了,不会连门都找不到吧。那就安装呗,各种错误,查看官方文档:http://axiak.github.io/pybloomfiltermmap/index.html#install 后完美解 ...
分类:
编程语言 时间:
2017-11-02 11:20:07
阅读次数:
156
BLESS全称:Bloom-filter-based Error Correction Solution for High-throughput Sequencing Reads,即基于布隆过滤器的高通量测序修正方法。 原文链接:https://academic.oup.com/bioinforma ...
分类:
其他好文 时间:
2017-10-16 11:08:35
阅读次数:
227
1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元 ...
分类:
编程语言 时间:
2017-09-26 19:39:26
阅读次数:
268