1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为78..
分类:
其他好文 时间:
2015-05-04 20:30:32
阅读次数:
225
1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该...
分类:
其他好文 时间:
2015-05-04 16:01:39
阅读次数:
150
hive.optimize.cp=true:列裁剪,取数只取
在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:SELECT a,b FROM T WHEREe
hive.optimize.prunner:分区裁剪
LIMIT
hive.limit.optimize.enable=true:优化LIMIT n语句
使用...
分类:
其他好文 时间:
2015-04-25 00:17:57
阅读次数:
176
set hive.exec.reducers.bytes.per.reducer=2000000000; ##每个reduce任务处理的数据量,默认为1000^3=1G set hive.groupby.skewindata = true ##对于join和Group操作都可能会出现数据倾斜 set hive.optimize.sk...
分类:
其他好文 时间:
2015-03-13 20:54:49
阅读次数:
166
问题导读
1.hive除了包含用户接口、元数据,还包含哪些内容?
2.hive包含哪些操作?
3.hive数据能否被修改?
4.hive优化有哪些常用方法?
摘要:
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hi...
分类:
其他好文 时间:
2015-03-12 17:21:26
阅读次数:
207
hive的优化问题1。启动一次JOB尽可能多做事,尽量减少job的数量。能重用就重用,要设计好的模型。2。合理设置reduce个数,reduce个数过多,会造成大量小文件问题。3。使用hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,提高作业的并发4。注意j...
分类:
其他好文 时间:
2015-03-04 16:44:01
阅读次数:
340
根据mapjoin的计算原理,MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配。这种情况下即使笛卡尔积也不会对任务运行速度造成太大的效率影响。mapjoin的应用场景如下:1.有一个极小的表= a.min_dt) f left outer join h.....
分类:
其他好文 时间:
2015-01-26 18:50:02
阅读次数:
254
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。
长期观察hadoop处理数据的过程,有几个显著的特征:
1.不怕数据多,就怕数据倾斜。
2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几...
分类:
其他好文 时间:
2014-10-31 10:13:42
阅读次数:
350
周六hive 桶相关特性分析hive 子查询特别分析hive优化方式和使用技巧
分类:
其他好文 时间:
2014-10-25 00:43:50
阅读次数:
133
一、 Hive join优化
1. 尽量将小表放在join的左边,我们这边使用的hive-0.12.0,所以是自动转化的,既把小表自动装入内存,执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000L)参数控制(默认是25M),如果表文件大小在25M左右,可...
分类:
其他好文 时间:
2014-08-15 17:50:39
阅读次数:
272