Hive基础架构

时间：2018-09-10 13:28:35 阅读：272 评论：0 收藏：0 [点我收藏+]

Hive

由Facebook开源用于解决海量结构化日志的数据统计：

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能;

构建在Hadoop之上的数据仓库：

* 使用HQL作为查询接口
* 处理的数据存储在HDFS

* 分析数据底层实现MapReduce

* 执行程序运行的YARN

本质是:将HQL转化成MapReduce程序

灵活性和扩展性比较好，支持UDF,自定义存储格式等。

适合离线数据处理。

Hive架构如下图：

技术分享图片

> 用户接口：Client

CLI(hive shell)、JDBC/ODBC(java访问hive)，WEBUI(浏览器访问hive)

> 元数据：Metastore

元数据包括：表名、表所属的数据库（默认是default)、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；

默认存储在自带的 derby数据库中，推荐使用采用MySQL存储Metastore;

>Hadoop

使用HDFS进行存储，使用MapReduce进行计算。

> 驱动器: Driver

包含：解析器、编译器、优化器、执行器;

解析器：将SQL字符串转换成抽象语法树AST，这一步一般都用第二方工具库完成，比如antlr;对AST进行方法分析，比如表是否存在、字段是否存在、SQL语义是否有误（比如select中被判定为聚合的字段在group by 中是否有出现);

编译器：将AST编译成逻辑执行计划；

优化器：对逻辑执行计划进行优化；

执行器：把逻辑执行计划转换成可以运行的物理计划。对Hive来说，就是MR/TEZ/Spark;

Hive优点与使用场景

操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）；

避免了去写MapReduce, 减少开发人员的学习成本；

统一的元数据管理，可与impala/spark等共享元数；

易扩展（hdfs+mapreduce:可以扩展集群规模，支持自定义函数）；

数据的离线处理：比如：日志分析，海量结构化数据离线分析...........

Hive的执行延迟比较高，因此hive常用于数据分析的，对实时性要求不高的场合；

Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高；

原文地址：https://www.cnblogs.com/cindy-zl24/p/9618501.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行