1.1 产品概述
VDataHub基于Apache Sqoop,最初定位是用于将关系数据库中的数据导入Hadoop/Hive/HBase。Sqoop基于Hadoop的MapReduce来完成数据导入导出工作,提供了很好的容错性。刚开始项目组也仅仅直接采用社区版本来完成数据导入导出。但在使用过程中,我们发现有很多地方是Sqoop现有版本没法支持的,如果不解决,是不能用于现有数据平台建设中的。
基...
分类:
其他好文 时间:
2014-11-21 18:50:54
阅读次数:
317
Hbase自0.92之后开始支持Coprocessor(协处理器),旨在使用户可以将自己的代码放在regionserver上来运行,即将计算程序移动到数据所在的位置进行运算。这一点与MapReduce的思想一致。Hbase的Coprocess分为observer和endpoint两大类。简单说,observer相当于关系型数据库中的触..
分类:
其他好文 时间:
2014-11-21 16:32:34
阅读次数:
251
由于目前公司大量的数据存储在HBase中,各个业务线需要对HBase进行即时查询,但是又不方便实现自己的基于HBase Client的API的数据访问实现,他们希望能够像Hive对HDFS中的数据进行ETL一样,可以对HBase中的数据进行SQL操作 我们最初考虑的方式是Hive On HBa...
分类:
其他好文 时间:
2014-11-21 12:27:24
阅读次数:
190
即不同的集群在hdfs上建立不同的根目录和Zooeekper的根目录。如图所示:原来的hbase-0.94.14版本中在hdfs上目录是hbase,zookeeper的根目录是zookeeper_data。hbase-0.96.8版本中在hdfs上目录是index,zookeeper的根目录是zoo...
分类:
其他好文 时间:
2014-11-20 21:46:08
阅读次数:
146
今天遇到一个很纠结的问题,网上找了一堆资料终于的得到解决,本着程序员奉献精神现将问题及解决方法都写出来。 如果你在eclipse下运行webapp,kettle的初始化方法会浏览/eclispe/plugins下的所有jar包。这将导致我们的程序慢的难以接受。是程序员都不能忍,这时我们只需要在...
分类:
Web程序 时间:
2014-11-19 18:09:05
阅读次数:
704
为了支持hbase0.98.6,需要重新编译spark1. 下载spark 1.1.0源代码,以及scala-2.10.4的bin包。将环境变量 SCALA_HOME 设置为scala-2.10.4 的目录位置。2. 下载较新的pom.xml (https://github.com/tedyu/sp...
分类:
其他好文 时间:
2014-11-19 12:16:35
阅读次数:
481
进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)> w...
分类:
系统相关 时间:
2014-11-18 13:28:01
阅读次数:
286
通过kettle实现两张表的数据同步,具体设计如下:
分类:
其他好文 时间:
2014-11-17 19:26:03
阅读次数:
278
1、解压[root@cluster3 conf]# tar -zxvf hbase-0.98.7-hadoop2-bin.tar.gz 2、环境变量[root@cluster3 conf]# vi hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_17H...
分类:
其他好文 时间:
2014-11-17 11:59:48
阅读次数:
235
了解hbase的都知道,由于hbase基于行健有序存储,在查询时使用行健十分高效,然后想要实现关系型数据库那样可以随意组合的多条件查询就比较麻烦了。本文主要介绍了基于solr实现hbase二级索引,以实现多条件查询。
分类:
其他好文 时间:
2014-11-16 22:48:13
阅读次数:
301