标签:数据加载 reduce 使用 支持 限制 -- hdfs pre 数据操作
1)hive和关系型数据库存储文件的系统不同。 hive使用hdfs(hadoop的分布式文件系统),关系型数据库则是服务器本地的文件系统;
2)hive使用的计算模型是mapreduce,而关系型数据库则是自己设计的计算模型。
3)hive是为海量数据做数据挖掘设计的,实时性差;而关系型数据库是为实时查询的业务进行设计的。
4)hive很容易扩展自己的存储能力和计算能力,这个是继承hadoop的,而关系型数据库在这方面相对较差。而数据库由于 acid 语义的严格限制,扩展行非常有限。
5)hive中不支持对某个具体行的操作,对数据的操作只支持覆盖原数据和追加数据;hive也不支持事务和索引。 ---------已经都支持了吧
6)hive在加载数据时候和关系数据库不同。
hive:检查数据格式的操作是在查询操作时候执行,这种模式叫“读时模式"
关系数据库:“写时模式”,数据加载时候对数据模式进行检查校验的操作。
当我们的数据是非结构化,存储模式也是未知时候,关系数据操作这种场景就麻烦多了,这时候hive就会发挥它的优势。
7)执行延迟。
在利用 mapreduce 执行 hive 查询时,也会有较高的延迟。相对的,数据库的执行延迟较低。
标签:数据加载 reduce 使用 支持 限制 -- hdfs pre 数据操作
原文地址:http://www.cnblogs.com/qiuhong10/p/7744120.html