一、Impala简单介绍Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用同样的统一存储平台,Impala也使用同样的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。...
分类:
其他好文 时间:
2014-10-28 15:23:23
阅读次数:
467
上篇在总体上介绍了sparkSQL的运行架构及其基本实现方法(Tree和Rule的配合),也大致介绍了sparkSQL中涉及到的各个概念和组件。本篇将详细地介绍一下关键的一些概念和组件,由于hiveContext继承自sqlContext,关键的概念和组件类似,只不过后者针对hive的特性做了一些修正和重写,所以本篇就只介绍sqlContext的关键的概念和组件。
概念:
Logi...
分类:
数据库 时间:
2014-10-27 12:53:06
阅读次数:
616
HIVE 0.11版本的bug
两次{{group by}}的bug
https://issues.apache.org/jira/browse/HIVE-5149
SELECT key, COUNT(*)
FROM (
SELECT key, value, COUNT( * )
FROM src
GROUP BY key, value
) a
GROUP BY key;...
分类:
其他好文 时间:
2014-10-26 22:54:36
阅读次数:
217
1、Eclipse 读取hdfs文件错误: java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724...
分类:
其他好文 时间:
2014-10-26 16:53:15
阅读次数:
178
1、小、大表 join
在小表和大表进行join时,将小表放在前边,效率会高,hive会将小表进行缓存。
2、mapjoin
使用mapjoin将小表放入内存,在map端和大表逐一匹配,从而省去reduce。
例子:
select /*+MAPJOIN(b)*/ a.a1,a.a2,b.b2 from tablea a JOIN tableb b ON a.a1=b.b1
在0.7版本...
分类:
其他好文 时间:
2014-10-25 23:04:26
阅读次数:
315
周六hive 桶相关特性分析hive 子查询特别分析hive优化方式和使用技巧
分类:
其他好文 时间:
2014-10-25 00:43:50
阅读次数:
133
Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hiv.....
分类:
其他好文 时间:
2014-10-24 14:23:25
阅读次数:
201
在上一篇的CliDriver类中介绍了CliDriver类会引用到CommandProcessor相关类,主要是根据命令来判断具体实现类,比如通过本地的hivecli启动时,运行hive的命令(非list/source/shell命令等)时在processCmd方法中有如下实现:try{
CommandProcessorproc=CommandProcessorFactory.g..
分类:
其他好文 时间:
2014-10-23 06:56:00
阅读次数:
254
本篇为安装篇较简单:
前提:
1: 安装了hadoop-1.0.4(1.0.3也可以)正常运行
2:安装了hbase-0.94.3, 正常运行
接下来,安装Hive,基于已经安装好的hadoop,步骤如下:
1:下载
从http://hive.apache.org/下载hive-0.9.0/
创建目录
/hive
将文件hive-0.9.0保存在/hive下
...
分类:
其他好文 时间:
2014-10-22 18:17:21
阅读次数:
197