标签:
数据仓库(一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于企业或组织的决策分析处理)。
数据源(Sq,文档,其他)-----抽取、转换、装载----> 数据存储和管理--------->数据仓库引擎-------->前段展示
1)构建在Hadoop HDFS上的数据仓库;
2)用来进行数据提取转化加载;
3)定义了简单的类似SQL查询语言,称为HQL它允许熟悉SQL的用户查询数据;
4)可开发自定义的Mapper和Reducer;
5)SQL解析引擎,将SQL语句转移成M/R Job然后在Hadoop执行;
6)Hive就是HDFS的目录/文件.
解释器(词法分析)、编译器(生成HQL的执行计划)、优化器(生成最佳的执行计划) 完成HQL的解析和执行过程。生成的查询计划存储在HDFS中,并随后有MapReduce调用执行。
体系结构:
包括:(Command Line Interface, JDBC/ODBC, Web Console, metastore元数据)———> Hive Driver.
标签:
原文地址:http://www.cnblogs.com/JXPITer/p/4892786.html