本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。 Hadoop的默认配置文件(以cdh5.0.1为例): core-default.xml hdfs-default.xml mapred-default.xml 说明: 在hadoop2中有些参数名称过时了,例 ...
分类:
其他好文 时间:
2019-04-30 23:44:35
阅读次数:
195
1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 job ...
分类:
其他好文 时间:
2019-03-15 17:26:05
阅读次数:
157
第8章 压缩和存储(Hive高级)8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩编码8.2.2 压缩参数配置8.3 开启Map输出阶段压缩8.4 开启Reduce输出阶段压缩8.5 ...
分类:
其他好文 时间:
2019-02-28 19:54:13
阅读次数:
193
2019/2/21星期四hive高级操作(优化,数据倾斜优化)分区表/桶表应用,skew,map-join//见hive的基本语法行列转换hive优化hive优化思想Explain的使用经典案例(distinctcount)数据倾斜的原因操作:关键词情形后果1、Join其中一个表较小,但是key集中分发到某一个或几个Reduce上的数据远高于平均值;2、大表与大表,但是分桶的判断字段0值或空值过多
分类:
其他好文 时间:
2019-02-21 10:59:46
阅读次数:
205
1. 多表join优化代码结构: select .. from JOINTABLES (A,B,C) WITH KEYS (A.key, B.key, C.key) where .... 关联条件相同多表join会优化成一个job 2. LeftSemi-Join是可以高效实现IN/EXISTS子查 ...
分类:
其他好文 时间:
2019-01-15 00:40:38
阅读次数:
216
5、大表join大表优化 如果Hive优化实战2中mapjoin中小表dim_seller很大呢?比如超过了1GB大小?这种就是大表join大表的问题。首先引入一个具体的问题场景,然后基于此介绍各自优化方案。 5.1、问题场景 问题场景如下: A表为一个汇总表,汇总的是卖家买家最近N天交易汇总信息, ...
分类:
其他好文 时间:
2018-08-17 11:26:45
阅读次数:
173
Hive优化 Hive优化目标 在有限的资源下,执行效率更高 常见问题 数据倾斜 map数设置 reduce数设置 其他 在有限的资源下,执行效率更高 数据倾斜 map数设置 reduce数设置 其他 Hive执行 HQL --> Job --> Map/Reduce 执行计划 explain [e ...
分类:
其他好文 时间:
2018-08-15 12:04:09
阅读次数:
164
一、Fetch抓取 1、理论分析 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default ...
分类:
其他好文 时间:
2018-08-12 19:59:08
阅读次数:
162
粘贴一下我在部门中的一次hive优化的分享。 简述 hive构建在hadoop基础上,利用分布式存储,通过mr引擎实现对大数据的计算。MR会频繁地读写磁盘而且MR任务的启动成本很高。对于hive优化显得尤为重要。而优化的核心就是更好地利用hadoop的分布式特性和hive的有点。本篇从IO、参数设置 ...
分类:
其他好文 时间:
2018-06-29 19:21:14
阅读次数:
160
1.hive小文件合并cd hive /conf/hive-default输出合并合并输出小文件。输出时,若是太多小文件,每个小文件会与一个block进行对应,而block存在的意义是为了方便在namenode中存储,那么过多的block将会充斥namenode的表中,待集群规模增大和运行次数增大, ...
分类:
其他好文 时间:
2018-05-14 22:56:35
阅读次数:
148