Hbase笔记：批量导入

时间：2017-03-07 00:04:30 阅读：237 评论：0 收藏：0 [点我收藏+]

标签：table 还需表名输出类型查询 dfs import format config

工作中可能会有对HBase的复杂操作，我们现在对HBase的操作太简单了。复杂操作一般用HBaseScan操作，还有用框架对HBase进行复杂操作，iparler，sharker。
我们说HBase是数据库，数据库是用来查询数据的，那么我们的数据怎么进入HBase呢，可以通过put，但是put有点儿慢，通常我们的数据都是位于hdfs中，我们期望
把hdfs中的数据导入到HBase中，进行查询，下面就讲如何把HDFS中的数据导入到HBase，我们使用m/r导入，这也就是我们说的批量导入-BatchImport

代码在PPT32、33、34--以电信日志为例做的。

HBase表的创建：只有一个列族cf（共10多列，都放在这一个列簇中）
create ‘wlan_log‘,‘cf‘
如何定义行键，在我们的HBase设计中，行键的设计是个关键，如何设计行键，要考虑一个因素，我们对数据的查询如果只是按行查询的话，我们只能依赖于行键，
我们经常要查询的字段，一定要设计到行键中，我们这里经常用到的字段是，手机号和时间，所以我们要把这两列放到我们的行键中。如何放呢？把他俩连到一起就行了，所以这里是手机号（msidn）和时间连在一起，我们中间加一个冒号隔开。msidn:yyyyMMddHHmmss

接下来看代码(执行代码之前，需要先创建表)：
代码自己自己看吧，有几个要点，注意一下：
1.以前的reduce继承的是Reducer类，现在继承的是TableReducer类，这个类是属于HBase中的一个类，我们就是通过这个类把我们在reduce拿到
的数据写入到HBase中
2.在main函数中，需要设置Zookeeper，需要设置表名，还需要设置超时
configuration.set()
configuration.set()
configuration.set()
2.在设置job的输出类型时：job.setOutputFormatClass(TableOutputFormat.class);
以前是：job.setOutputFormatClass(TextOutputFormat.class);

Hbase笔记：批量导入

标签：table 还需表名输出类型查询 dfs import format config

原文地址：http://www.cnblogs.com/mrxiaohe/p/6512482.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行