网络爬虫之url等高效率去重原理

时间：2015-11-12 13:48:16 阅读：294 评论：0 收藏：0 [点我收藏+]

标签：

布隆过滤器用于字符串去重复，比如网络爬虫抓取时URL去重、邮件提供商反垃圾黑名单Email地址去重。等等。用哈希表也可以用于元素去重，但是占用空间比较大，而且空间使用率只有50%。

　　布隆过滤器只占哈希表的1/8或1/4的空间复杂度，就能解决同样的问题，但是有一定的误判，而且不能删除已有元素。元素越多，误报率越大，但是不会漏报。对于还需要删除的布隆过滤器，还有Counter Bloom Filter，这个是布隆过滤器的变体，可以删除元素。

布隆过滤器的原理

布隆过滤器需要的是一个一维数组(和位图类似)和K个映射函数(和Hash表类似)，在初始状态时，对于长度为m的位数组array，它的所有位被置0。

　　技术分享

对于有n个元素的集合S={S1,S2...Sn},通过k个映射函数{f1,f2,......fk}，将集合S中的每个元素Sj(1<=j<=n)映射为K个值{g1,g2...gk}，然后再将位数组array中相对应的array[g1],array[g2]......array[gk]置为1：

　　技术分享

　　如果要查找某个元素item是否在S中，则通过映射函数{f1,f2,...fk}得到k个值{g1,g2...gk}，然后再判断array[g1],array[g2]...array[gk]是否都为1，若全为1，则item在S中，否则item不在S中。这个就是布隆过滤器的实现原理。
前面说到过，布隆过滤器会造成一定的误判，因为集合中的若干个元素通过映射之后得到的数值恰巧包括g1,g2,...gk，在这种情况下可能会造成误判，但是概率很小。

网络爬虫之url等高效率去重原理

标签：

原文地址：http://my.oschina.net/u/2367628/blog/529249

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行