本文主要针对对HBase不了解的人。主要想基于个人的理解回答以下几个问题:
什么是HBase?何时用HBase?与Hive、Pig的区别?HBase的结构为何HBase速度很快?HBase常用的操作有哪些?HBase的一些配置和监控
什么是HBase?
HBase,是Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。使用HBase技术可以在廉...
分类:
其他好文 时间:
2014-07-31 16:59:07
阅读次数:
271
HBase复制是一种在不同HBase部署中复制数据的方法。它可以作为一种故障恢复的方法,并提供HBase层次的高可用性。在实际应用中,例如,可以将数据从一个面向页面的集群复制到一个MapReduce集群,后者可以同时处理新数据和历史数据。然后再自动将数据传回面向页面请求的集群。
HBase复制中最基本的架构模式是“主推送”(master-push),因为每个region server都有自己的W...
分类:
其他好文 时间:
2014-07-31 13:28:06
阅读次数:
285
这篇文章是看了HBase权威指南之后,依据上面的解说搬下来的样例,可是略微有些不一样。HBase与mapreduce的集成无非就是mapreduce作业以HBase表作为输入,或者作为输出,也或者作为mapreduce作业之间共享数据的介质。这篇文章将解说两个样例:1、读取存储在hdfs上的txt文...
分类:
其他好文 时间:
2014-07-31 12:09:16
阅读次数:
261
术语定义:Transformation-----转换Step----------------步骤Hops----------------跳接线一个步骤是KETTLE中的最小执行单元,用于实现指定的单一逻辑任务。一个转换是一批步骤组成的网状结构,用于实现一个相对完整的任务,转换,实际上定义了数据的流向...
分类:
其他好文 时间:
2014-07-31 02:35:35
阅读次数:
417
OpenTSDB是基于HBase的开源监控系统,可以支持上万规模集群监控和上亿数据点采集。其中TSDB代表Time Series Database,OpenTSDB在时间序列数据的存储和查询上都做了相当多的优化工作。
架构Overview
概念上OpenTSDB由三部分组成:tcollector数据采集、tsd数据服务和HBase数据存储。
数据采集流程
如上图,tco...
分类:
数据库 时间:
2014-07-30 17:33:34
阅读次数:
510
一、Impala简介
Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。
二、Impala安装
1.安装要求...
分类:
其他好文 时间:
2014-07-30 09:59:03
阅读次数:
358
收集:各种开源的分布式日志收集系统:Scribe, Flume等等存储可以同时包含各种不同的存储类型,可根据不同的需求增减相应的存储类型:底层存储:能够存储大量的数据,最好具有可扩展性 HDFS S3等等关系存储:MySQL,Postgresql等等键值存储:HBase,Redis等等计算计算能力也...
分类:
其他好文 时间:
2014-07-30 09:48:23
阅读次数:
213
本文部分来源:http://www.it165.net/admin/html/201406/3239.html https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration创建 表:hbase_hive_1REATE TABLE....
分类:
其他好文 时间:
2014-07-29 16:51:32
阅读次数:
285
LZ4算法又称为RealtimeCompressionAlgorithm,在操作系统(linux/freeBSD)、文件系统(OpenZFS)、大数据(Hadoop)、搜索引擎(Lucene/solr)、数据库(Hbase)……都可以看到它的身影,可以说是一个非常通用的算法。LZ4最突出的地方在于它的压缩/解压速度。基础知识理解Lucene中LZ4算..
分类:
其他好文 时间:
2014-07-29 15:24:30
阅读次数:
483
本文将对Apache HBase可用的数据备份机制和大量数据的故障恢复/容灾机制做简要介绍。
随着HBase在重要的商业系统中应用的大量增加,许多企业需要通过对它们的HBase集群建立健壮的备份和故障恢复(backup and disaster recovery, BDR)机制来保证它们的企业(数据)资产。HBase和Apache Hadoop系统提供了许多内置的机制,可以快速而轻松的完成PB级...
分类:
其他好文 时间:
2014-07-29 14:47:08
阅读次数:
301