在ITPUB上看到有人写到同一条语句连续执行两次,得出的结果截然不同,数据本身没有发生变化,关掉dynamic_sampling功能,多次查询结果是正常的。究竟是为什么?oracle通过内部函数使用布隆过滤对并行JOIN进行过滤。但是布隆过滤的精确度是依赖hash函数的好坏以及使用的hash函数数量...
分类:
其他好文 时间:
2014-08-06 17:58:41
阅读次数:
191
1. Bloom-Filter算法简介Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在于集合的快速的概率算法。Bloom Filter有可能会出现错误判断,但不会漏掉判断。也就是Bloom ...
分类:
其他好文 时间:
2014-08-03 15:01:15
阅读次数:
207
一、Bloom?filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有h...
分类:
其他好文 时间:
2014-08-01 16:21:22
阅读次数:
286
本文整理汇总了本博客自去年学习HBase以来写的所有关于HBase的相关内容。持续更新中,更多内容,敬请关注!
相关知识:
1、《布隆过滤器(Bloom Filter)》
2、《7-bit整数(Integer)压缩算法》
3、《Java NIO(上)》《Java NIO(下)》
HBase安装:
1、《CentOS分布式环境安装HBase-0.96.0》
2、《centos集群上...
分类:
其他好文 时间:
2014-07-29 12:55:37
阅读次数:
372
转自网络集合数据结构一般都有这么一个方法:contains。其作用就是判断给定的元素是否存在集合中,这是一个常用的方法。其最简单的内部实现即遍历集合内的元素,一个个的判断是否与给定元素相等。为了更高效点我们甚至可以采用“更好的(好是相对的)”算法实现。比如如果该集合是已经排序的,那么我们用二分查找来...
分类:
其他好文 时间:
2014-07-23 12:54:06
阅读次数:
242
Bloom Filter,即布隆过滤器,是一种空间效率很高的随机数据结构。原理:开辟m个bit位数组的空间,并全部置零,使用k个哈希函数将元素映射到数组中,相应位置1.
分类:
数据库 时间:
2014-07-03 20:47:36
阅读次数:
393
bloomfilter是leveldb中的一大性能利器,所以为了文章的表现完整性这里新启这么一篇文章。leveldb中的bloomfilter的实现在bloom.cc中,是一个较为简单的实现,所以就不再具体进行分析。本文列出两个参考地址:那些优雅的数据结构(1) : BloomFilter——大规模...
分类:
数据库 时间:
2014-07-01 21:13:52
阅读次数:
195
1. 简介
参见《Hadoop in Action》P102 以及 《Hadoop实战(第2版)》(陆嘉恒)P69
2. 案例
网上大部分的说明仅仅是按照《Hadoop in Action》中的示例代码给出,这里是Hadoop0.20.2版本,在该版本中已经实现了BloomFilter。
案例文件如下:
custome...
分类:
其他好文 时间:
2014-06-20 11:01:33
阅读次数:
197
Bloom filter的实现以及常用的hash函数
bloom filter利用时间换空间的思想,利用多个哈希函数,将一个元素的存在状态映射到多个bit中,特别是在网络环境中,BF具有广泛的用途,关键问题就是要减少false positive rate(可以设置参数来调节),扩展有 counting BF。这里选用的hash函数是表现较好的 BKDRHash , SDBMHash, D...
分类:
其他好文 时间:
2014-06-13 20:42:05
阅读次数:
412
在使用Bulkload向HBase导入数据中, 自己编写Map与使用KeyValueSortReducer生成HFile时, 出现了下面的异常:
java.io.IOException: Non-increasing Bloom keys: 201301025200000000000003520000000000000500 after 20131119510000000000000001...
分类:
编程语言 时间:
2014-06-03 05:55:44
阅读次数:
359