Hive ive优化 要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征:
1.不怕数据多,就怕数据倾斜。
2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。...
分类:
其他好文 时间:
2016-06-13 06:38:34
阅读次数:
297
要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如
分类:
其他好文 时间:
2016-02-26 21:59:40
阅读次数:
274
概述: 一个Hive查询生成多个map reduec job,一个map reduce job又有map,reduce,spill,Shuffle,sort等几个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会分细节),针对MR全局的优化,和针对整个查询(多MR job
分类:
其他好文 时间:
2016-01-31 21:27:55
阅读次数:
402
小文件是如何产生的 1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增。 2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的)。 3.数据源本身就包含大量的小文件。 小文件问题的影响 1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所
分类:
其他好文 时间:
2016-01-31 21:17:06
阅读次数:
223
转自http://superlxw1234.iteye.com/blog/1582880一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,...
分类:
其他好文 时间:
2016-01-08 07:00:05
阅读次数:
183
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limi...
分类:
其他好文 时间:
2015-11-06 22:27:00
阅读次数:
267
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limi...
分类:
其他好文 时间:
2015-09-05 00:02:04
阅读次数:
257
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修...
分类:
其他好文 时间:
2015-07-14 17:26:21
阅读次数:
992
一、什么时候可以避免执行MapReduce?select *where语句中只有分区字段二、Jion优化驱动表最右边查询表表的大小从左边到右边依次增大标志机制显示的告知查询优化器哪张表示大表/*+streamtable(table_name)*/三、Map-side聚合sethive.map.agg...
分类:
其他好文 时间:
2015-06-12 19:14:16
阅读次数:
223
一、什么时候可以避免执行MapReduce?select *where语句中只有分区字段 二、Jion优化驱动表最右边查询表表的大小从左边到右边依次增大标志机制显示的告知查询优化器哪张表示大表/*+streamtable(table_name)*/ 三、...
分类:
其他好文 时间:
2015-06-12 17:34:37
阅读次数:
123