一、Impala简介Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Im...
分类:
其他好文 时间:
2015-01-28 22:34:05
阅读次数:
336
同事总结的hive sql 优化 Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。 使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原...
分类:
数据库 时间:
2014-11-17 12:39:17
阅读次数:
393
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。
长期观察hadoop处理数据的过程,有几个显著的特征:
1.不怕数据多,就怕数据倾斜。
2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几...
分类:
其他好文 时间:
2014-10-31 10:13:42
阅读次数:
350
一、Impala简单介绍Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用同样的统一存储平台,Impala也使用同样的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。...
分类:
其他好文 时间:
2014-10-28 15:23:23
阅读次数:
467
错误一:
Hive的where中不能用别名,
错误二:
hive的groupby中不能用自定义函数,否则报错(用嵌套select代替)
错误三:
执行:$ ./hive_game_operationstatis5.sh
报错信息如下:
./hive_game_operationstatis5.sh:line 11: [: missing `]'
./hive_ga...
分类:
数据库 时间:
2014-10-14 22:10:29
阅读次数:
240
需求
在推荐系统场景中,如果基础行为数据太少,或者过于稀疏,通过推荐算法计算得出的推荐结果很可能达不到要求的数量。
比如,希望针对每个item或user推荐20个item,但是通过计算只得到8个,剩下的12个就需要补全。
欢迎转载,请注明出处:
策略
数据补全的具体策略是:
补全时机:在挖掘计算结束后,挖掘结果导入HBase(最终web系...
分类:
数据库 时间:
2014-09-29 21:15:51
阅读次数:
295
今天测试了一下类似null = ‘abc‘之类的表达式在hive sql中的值。 总结如下: 有null参与的所有比较运算结果都为null。例如:null = ‘a‘; ‘a‘ = null; null > 1; null != 1; 当where子句中出现null = ‘a‘这类结果为...
分类:
其他好文 时间:
2014-08-20 22:50:33
阅读次数:
265
Hive中有种假NULL,它看起来和NULL一摸一样,但是实际却不是NULL。例如如下这个查询:hive> desc ljn004;OKastringTime taken: 0.237 secondshive> select a from ljn004;OKNULLTime taken: 46.23...
分类:
数据库 时间:
2014-08-19 20:28:45
阅读次数:
306
一、Impala简介
Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。
二、Impala安装
1.安装要求...
分类:
其他好文 时间:
2014-07-30 09:59:03
阅读次数:
358