码迷,mamicode.com
首页 > 其他好文 > 详细

Impala和Hive的关系

时间:2021-01-06 11:58:32      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:replace   处理   知识   pre   png   作业   dao   构建   yarn   

1.为什么安装Impala一定要先安装Hive?

  Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。

 

2.Impala与Hive的关系?

  Impala 与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面,但从客户端使用来看Impala与Hive有很多的共同之处,如数据表元数 据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Impala与Hive在Hadoop中的关系如下图所示。Hive适合于长时间的批处理查询分析而Impala适合于实时交互式SQL查询,Impala给数据分析人员提供了快速实验、验证想法的大数 据分析工具。可以先使用hive进行数据转换处理,之后使用Impala在Hive处理后的结果数据集上进行快速的数据分析。 

技术图片

 

 

3.Impala为什么计算速度快?

  最大使用内存,中间结果不写磁盘。(还有其他的特点)

 

4.Impala需不需要用到Yarn调度?

 Impala和Hive都是提供对HDFS/Hbase数据进行SQL查询的工具,Hive会转换成MapReduce,借助于YARN进行调度从而实现对HDFS的数据的访问,而Impala直接对HDFS进行数据查询。 

 

5.Impala和Hive的由来

  Apache Hive是MapReduce的高级抽象,使用HiveQL,Hive可以生成运行在Hadoop集群的MapReduce或Spark作业。Hive最初由Facebook大约在2007年开发,现在是Apache的开源项目。

  Apache Impala是高性能的专用SQL引擎,使用Impala SQL,因为Impala无需借助任何的框架,直接实现对数据块的查询,所以查询延迟毫秒级。Impala受到Google的Dremel项目启发,2012年由Cloudera开发,现在是Apache开源项目。

 

 

6.Impala有什么不足?

  ①内存限制;

  ②不支持UDF,能处理的问题域有一定的限制,与Hive配合使用,对Hive的结果数据集进行实时分析。

 

7.Impala一般用在什么场景?

  实时数据分析。

  我目前用来查询Kudu中的数据,速度还比较快。

 

更多内容访问:https://www.cnblogs.com/zlslch/p/6785207.html?utm_source=itdadao&utm_medium=referral

Impala和Hive的关系

标签:replace   处理   知识   pre   png   作业   dao   构建   yarn   

原文地址:https://www.cnblogs.com/beihang09/p/14224781.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!