Bloom Filter（布隆过滤器）

时间：2018-10-31 12:39:17 阅读：146 评论：0 收藏：0 [点我收藏+]

　　Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否可能属于这个集合。

　　它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

　　初始状态时，Bloom Filter是一个包含m位的位数组，每一位都置为0。

技术分享图片

　　对于n个元素的集合，Bloom Filter使用k个相互独立的哈希函数，它们分别将集合中的每个元素映射到位数组中。对任意一个元素x，哈希函数映射的位置就会被置为1。

　　如果一个位置多次被置为1，那么只有第一次会起作用，后面几次将没有任何效果。

　　在下图中，k=3，也就是有3个相互独立的哈希函数，元素x1分别被映射到位置2,5,9，元素x2分别被映射到位置5,7,11。

技术分享图片

　　如果要判断某个元素x是否在这个集合里，对x应用这k个哈希函数，如果映射的位置都被置1了，就说明元素x可能在这个集合中，如果某一个位置为0，说明元素x一定不在这个集合中。

应用场景：

　　一组元素存在于磁盘中，数据量特别大，应用程序希望在元素不存在的时候尽量不读磁盘，此时，可以在内存中构建这些磁盘数据的BloomFilter，对于一次读数据的情况，分为以下几种情况：

　　请求的元素不在磁盘中，如果BloomFilter返回不存在，那么应用不需要走读盘逻辑；

　　如果BloomFilter返回可能存在，那么属于误判情况。请求的元素在磁盘中，BloomFilter返回存在。

下面摘自维基：

　　如果想判断一个元素是不是在一个集合里，一般想到的是将集合中所有元素保存起来，然后通过比较确定。链表，树，哈希表等等数据结构都是这种思路。但是随着集合中元素的增加，我们需要的存储空间越来越大。同时检索速度也越来越慢。

　　布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检元素一定不在；如果都是1，则被检元素很可能在。这就是布隆过滤器的基本思想。

优点：

　　相比于其它的数据结构，布隆过滤器在空间和时间方面都有巨大的优势。

缺点：

　　随着存入的元素数量增加，误算率随之增加。但是如果元素数量太少，则使用散列表足矣。

　　另外，一般情况下不能从布隆过滤器中删除元素。

原文地址：https://www.cnblogs.com/mengchunchen/p/9882063.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行