原文链接:http://tech.meituan.com/spark-tuning-pro.html 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据 ...
分类:
其他好文 时间:
2016-09-17 16:10:58
阅读次数:
126
9月24日,周金可将参加在北京举办的线下活动,并做主题为《GreenPlum在听云大数据实时分析的实践》的分享。值此,他分享了PG、工作上的一些经历和经验。 ...
分类:
其他好文 时间:
2016-09-08 13:04:40
阅读次数:
281
广播变量 背景 一般Task大小超过10K时(Spark官方建议是20K),需要考虑使用广播变量进行优化。大表小表Join,小表使用广播的方式,减少Join操作。 参考:Spark广播变量与累加器 Local Dir 背景 shuffle过程中,临时数据需要写入本地磁盘。本地磁盘的临时目录通过参数s ...
分类:
其他好文 时间:
2016-07-15 20:30:04
阅读次数:
169
Hadoop的HDFS集群在使用一段时间后,各个DataNode节点的磁盘使用率肯定会出现不平衡的情况,也就是数据量层面的数据倾斜,如图: 引起这种情况的方式很多:1. 添加新的Datanode节点2. 人为干预将数据的副本数降低或者增加 我们都知道当HDFS出现数据不平衡的时候,就会造成MapReduce或Spark等应用程序无法很好的利用本地计算的优势,而且Datano...
分类:
其他好文 时间:
2016-07-12 00:06:55
阅读次数:
327
本文转自:http://tech.meituan.com/spark-tuning-pro.html 感谢原作者 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能 ...
分类:
其他好文 时间:
2016-07-04 23:45:10
阅读次数:
248
HIVE数据倾斜问题问题状态: 未解决 背景:HDFS对文件进行了压缩,而且不添加索引。主要用HIVE进行开发。 发现的现象:sqoop从Mysql导入数据,根据ID进行平均分割,但是ID分部及其不均匀(我也不知道业务系统怎么搞得)。所以导致reduce出来的文件大小严重不均匀,就是所谓的数据倾斜。 ...
分类:
其他好文 时间:
2016-06-30 20:06:25
阅读次数:
210
本文要解决的问题:从更深层次考虑,对Spark进行性能调优。目的继基础篇分析了开发调优与资源调优之后,本文作为拓展篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优简述有时候,大家可能会遇到大数据开发过程中一个比较棘手的问题,那就是数据倾斜,此时Spark作业的性能会比预期差很多,数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的...
分类:
其他好文 时间:
2016-06-21 07:51:41
阅读次数:
233
Hive ive优化 要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征:
1.不怕数据多,就怕数据倾斜。
2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。...
分类:
其他好文 时间:
2016-06-13 06:38:34
阅读次数:
297
MapReduce如何解决负载均衡和数据倾斜:阶段主要出在Map作业结束后,shuffer(洗牌)过程中,如何将map处理后的结果分成多少份,交由Reduce作业,使得每部分reduce作业尽可能均衡处理数据计算。系统默认将partitions按照Hash模运算分割(存储对象的hash值与reduce的个数取模)..
分类:
其他好文 时间:
2016-06-04 18:05:09
阅读次数:
268
调优概述
大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优...
分类:
其他好文 时间:
2016-05-27 11:43:37
阅读次数:
210