Hadoop数据存储—Hbase

时间：2016-12-08 00:07:39 阅读：193 评论：0 收藏：0 [点我收藏+]

大家都知道Hadoop是一个数据库，其实说的的就是Hbase。它和我们平常理解的关系型数据库有什么区别呢？

1.它是NoSQL的，它没有SQL的接口，有自己的一套API。

2.关系型数据库可以做汇总，可以进行常规的分析，但是Hbase不可以，它不能做汇总。那么Hbase操作不方便，不能做汇总，不能做分析，有什么作用呢？它的随机读写效率很高，可以存储海量数据，基于某个网点，某个城市，某个机器随机去查询速度快。或者去存储基于时间序列的数据，比如微信、微博、日志的数据，效率很高。

3.它的存储是列式的，平常我们接触的MySQL，Oracle,RDBMS都是行存储。行存储和列存储的区别是：行存储适合在线事务的场景，适合随机的访问，比如去银行修改账户记录，修改个人信息，这个修改就是从数据库中找到你信息所在的行。列存储就是以列为单位进行连续存储，如果以列存储放到银行这个场景中会是怎样的一种效果呢？如果想要修改信息，那么定义到用户所在行信息，就会扫描到整个表，所以行存储主要用于在线事务处理，而列存储适用于数据分析。因为在大数据的数据库场景中，我们会构建很宽的事实表，通过信息模型有个中心，围绕这个中心扩散出很多维度，这个中间表是一个很宽的表，在我们进行特定业务分析的时候，比如分析广告业务推广的情况，可能只需要从很多资料中选取一部分变量进行分析，如果使用行存储，那么就是全表扫描，而使用列存储会选取特定部分，效率很高。

HBase vs RDBMS