HBASE概念补充

时间：2016-08-21 00:43:17 阅读：134 评论：0 收藏：0 [点我收藏+]

标签：

HBASE概念补充

HBase的工作方式：

hbase中的表在行的方向上分隔为多个HRegion，分散在不同的RegionServer中

这样做的目的是在查询时可以将工作量分布到多个RegionServer中以提高速度

region由[startkey,endkey)表示

HRegion是hbase分布式存储和负载均衡的最小单元

要注意HRegion不在hdfs中，而是在RegionServer的内存中，在内存（其实也有数据在本地文件系统中，因为内存空间毕竟是有限的）中存储数据以提高查询性能，对于修改会将数据同步到hdfs中，以持久化数据。

hbase中的数据按照rowkey的字典顺序（字典顺序！！！先比较第一位如果相同再比较第二位。。。）按序存储，所以当以rowkey查询数据时，可以提高速度。

hregion的分裂，当hregion变的很大时会分裂成两个，存放到不同的RegionServer中，防止一个Region过大，导致查询其中数据时速度很慢

hbase的系统结构：主要有client master regionServer zookeeper

为什么hbase可以很快：

从逻辑结构上来说：

表按照行键进行了排序，所以查询时可以很快定位

数据按照行键切分为多个HRegion，分布在多个RegionServer中，查询大量数据时，多个RegionServer可以一起工作，从而提高速度

从物理结构上来说：

HRegion是存活在RegionServer的内存中的，读写会非常的高效

还有HFile和HLog的支持保证大量的数据可以保存

数据最终落地到HDFS中，分布式的存储，保证数据段可靠性和可扩展性

为什么hbase可以存储很多数据：

基于hdfs，所以支持可扩展性，可以通过增加大量的廉价的硬件提高存储容量

按列存储，空的数据不占用空间，当存储稀疏数据时，不会浪费空间

按列存储，同一列的数据存放在一起，而同一列的数据一般都是同样的类型的内容相似的数据，可以实现非常高效的压缩，节省空间

为什么hbase的数据是可靠的：

基于hdfs，由hdfs的可靠性保证了hbase的可靠性--即数据可以有多个备份

利用zookeeper实现了HA，即使某一台机器挂掉另外的机器也可以很快的替换它

hbase和hive和传统的关系型数据库的比较：

比起传统的关系型数据库，可以存储和处理更大级别的数据，提供高效的查询，对于稀疏数据的处理更好，可以存放非结构化的数据，具有更好的横向扩展性，免费开源性价比很高。但是不能支持非常好的事务特性，只支持行级的事务。

比起hive，hive只是在mapreduce上包了一层壳，本质上还是离线数据的处理的工具，实时查询性能有限，本质上是一个基于hadoop的数据仓库工具，不能支持行级别的新增修改和删除。hbase可以提供实时的数据的处理能力，适用于在线数据查询处理，本质上是一种数据库。

标签：

原文地址：http://www.cnblogs.com/zpb2016/p/5791601.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行