简单的HBase Client端实现

时间：2015-01-02 14:43:23 阅读：245 评论：0 收藏：0 [点我收藏+]

标签：hbase 分布式分布式存储

前言

newbie刚接触HBase，遇到几个初学者常见的关于HBase问题，这里就问题就不多做介绍，主要还是编码优化问题，下面专门介绍以下几点，希望对于初学者有所帮助。

Tips

RowKey的设计

HBase的无论什么操作都是对rowkey进行扫描操作的，rowkey的排序是按照字典序来排的。

IO考虑

为读优化

设计行健时，尽量把行健按照序号紧挨一起，减少扫描。

为写优化

主要是考虑所有的rowkey不要写到同一个region上，这样会导致其他机器很空闲，只有这个region的吞吐量就是你应用的吞吐量

例如时间戳做行健就会出现这个问题。

解决方法主要是两个：

散列，建表时分表，然后写入时使用散列函数，将行健打散分布，这样做只是为了写操作多的优化，对于读来说，可能是灾难（全表扫描）
salting，使用随机值做前缀，解决散列全表扫描的问题

Merge相同的rowKey

因为HBase对于每一个命令（put，delete，get，increment）都是起一个线程来做的，每个命令基本都有

addFamily(), addCloumns()方法可以使用

是否需要自己做HTable Connection缓存管理

这一点是不需要的，HBase本身有Cache机制的，主要在HConnectionManager里面做管理，它会做缓存。每次close时也会检查该cacheINstance是否还有reference，如果有就暂时不close，没有就close，reference-1。详细请看HConnectionManager源码；

public static HConnection getConnection(final Configuration conf)
  throws IOException {
    HConnectionKey connectionKey = new HConnectionKey(conf);
    synchronized (CONNECTION_INSTANCES) {
      HConnectionImplementation connection = CONNECTION_INSTANCES.get(connectionKey);
      if (connection == null) {
        connection = (HConnectionImplementation)createConnection(conf, true);
        CONNECTION_INSTANCES.put(connectionKey, connection);
      } else if (connection.isClosed()) {
        HConnectionManager.deleteConnection(connectionKey, true);
        connection = (HConnectionImplementation)createConnection(conf, true);
        CONNECTION_INSTANCES.put(connectionKey, connection);
      }
      connection.incCount();
      return connection;
    }
  }

Code

我自己实现了一个简单的Hbase Client，不是线程安全，在github上，可以clone下参考，仅供参考（为经测试，可能存在错误）

simple-hbase-client： git clone https://github.com/zhgwen/simple-hbase-client.git

简单的HBase Client端实现

标签：hbase 分布式分布式存储

原文地址：http://blog.csdn.net/wzhg0508/article/details/42276959

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行