项目是按照“Tair LDB基于Prefixkey的范围查找性能优化项目提议方案”的步骤一步步完成的,目前已经解决了前面两个问题:如何获取key的prefix_size问题“Tair LDB基于Prefixkey的范围查找性能优化项目之如何提取key的prefix_size”。如何建立prefix bloomfilter“Tair LDB基于Prefixkey的范围查找性能优化项目之如何建立pre...
分类:
数据库 时间:
2014-09-05 14:24:01
阅读次数:
380
项目是按照“Tair LDB基于Prefixkey的范围查找性能优化项目提议方案”的步骤一步步完成的,上次解决了如何获取key的prefix_size问题“Tair LDB基于Prefixkey的范围查找性能优化项目之如何提取key的prefix_size”。今天来继续解决第二个问题。在提案中有以下描述:提取到prefix_size信息后,我们对所有的keys实现prefix bloomfilte...
分类:
数据库 时间:
2014-09-05 10:01:51
阅读次数:
287
1、region热点:
开始会不断往一个region写,可以预划分region
在rowkey加哈希前缀 对region server数量取余
2、memstore提高写性能,blockcache提高读性能,看需求调整
3、使用bloomfilter,如果大多是scan顺序读,可将block设大些,默认块大小是64K,可以设为128
4、设计好rowkey
5、关闭major comp...
分类:
其他好文 时间:
2014-08-28 16:58:40
阅读次数:
176
bloomFilter是70年代提出来的一个利用时间,错误率来换取空间的应用。应用在大数据量的情况下,比如爬虫抓取的大量url,用来判断哪些url是已经爬取过的。m =>使用的散列长度,这个值通常用来创建BitSet的长度,java.util.BitSetn =>待散列的字符串的个数。k =>使用的...
分类:
其他好文 时间:
2014-08-28 12:52:49
阅读次数:
159
New Document/* GitHub stylesheet for MarkdownPad (http://markdownpad.com) */
/* Author: Nicolas Hery - http://nicolashery.com */
/* Version: b13fe65ca28d2e568c6ed5d7f06581183df8f2ff */
/* Source: http...
分类:
数据库 时间:
2014-08-22 19:47:49
阅读次数:
362
适用于场景连接的列数据量很大,在分布式缓存中无法存储时,Bloom Filter 可解决这个问题,用很小的内存可有MAP端过滤掉不需要JOIN的数据,这样传到REDUCE的数据量减少,减少了网络传及磁盘IO。缺点Bloom Filter 会有一定的错误率,但是错误率很低,用空间换取了时间。并且,最终...
分类:
其他好文 时间:
2014-08-14 16:05:39
阅读次数:
284
基于prefix bloomfilter的过滤思想和get_range接口数据的特点,在导师的指导下,提出如下的简单方案,对get_range接口的范围查找过程进行优化,使得能够根据prefix进行过滤,减少无效的磁盘IO。...
分类:
数据库 时间:
2014-08-04 14:35:57
阅读次数:
248
Google的leveldb是个很优秀的存储引擎,但还是有一些不尽人意的地方,比如leveldb不支持多线程合并,对key范围查找的支持还很简单,未做优化措施,等等。而Facebook的RocksDB是个更彪悍的引擎,实际上是在LevelDB之上做的改进,在用法上与LevelDB非常的相似,两者的对比可以参考下面的参考资料1。
这里之所以要调研rocksdb是因为rocksdb中加入了prefi...
分类:
数据库 时间:
2014-07-28 15:52:50
阅读次数:
445
package com.kaikeba.data.jobspider.util;import java.util.BitSet;public class Bloomfilter { private static final int DEFAULT_SIZE = 2 0) {//// this...
分类:
编程语言 时间:
2014-07-22 22:45:32
阅读次数:
273
bloomfilter是leveldb中的一大性能利器,所以为了文章的表现完整性这里新启这么一篇文章。leveldb中的bloomfilter的实现在bloom.cc中,是一个较为简单的实现,所以就不再具体进行分析。本文列出两个参考地址:那些优雅的数据结构(1) : BloomFilter——大规模...
分类:
数据库 时间:
2014-07-01 21:13:52
阅读次数:
195