前言 数据倾斜调优 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二:过滤少数导致倾斜的key 解决方案三:提高shuffle操作的并行度 解决方案四:两 ...
分类:
其他好文 时间:
2017-05-11 20:26:02
阅读次数:
240
如果使用序列化技术,在执行序列化操作的时候很慢或者是序列化之后的数据量还是很大,那么会让分布式应用程序性能下降很多,spark自身就会在一些地方对数据进行序列化,比如shuffle写磁盘,还有就是如果我们算子函数使用了外部数据,(比如Java内置类型,或者自定义类型)那么..
分类:
其他好文 时间:
2017-05-10 17:52:14
阅读次数:
158
Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! 当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致你分配下去的资源都浪费掉 ...
分类:
其他好文 时间:
2017-04-13 08:49:37
阅读次数:
189
性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后, 进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置;在这个基础之上, 如果说你的spar ...
分类:
其他好文 时间:
2017-04-13 08:48:21
阅读次数:
206
本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/spark/skew/ 摘要 为何要处理数据倾斜(Data Skew) 什么是数据倾斜 数据倾斜是如何造成的 从数据源直接读取。如读取HDFS,Kafka 读取上一个Stage的Shuffle数据 如何缓解/ ...
分类:
其他好文 时间:
2017-03-21 15:35:34
阅读次数:
209
转载 美团技术团队 原文地址 http://tech.meituan.com/spark-tuning-basic.html 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计 ...
分类:
其他好文 时间:
2017-03-12 19:46:35
阅读次数:
224
Spark性能调优之解决数据倾斜 数据倾斜七种解决方案 shuffle的过程最容易引起数据倾斜 1.使用Hive ETL预处理数据 <!--more--> ? 方案适用场景:如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀(比如某个 key对应了100万数据,其他key才对应了1 ...
分类:
其他好文 时间:
2017-03-12 15:27:05
阅读次数:
249
Spark性能调优之代码方面的优化 1.避免创建重复的RDD 对性能没有问题,但会造成代码混乱 2.尽可能复用同一个RDD,减少产生RDD的个数 <!--more--> 3.对多次使用的RDD进行持久化(cache,persist,checkpoint) 如何选择一种最合适的持久化策略? 默认MEM ...
分类:
其他好文 时间:
2017-03-12 15:22:00
阅读次数:
177
Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! <!--more--> 当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致 ...
分类:
其他好文 时间:
2017-03-12 15:21:12
阅读次数:
922
本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原理和机制 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的 ...
分类:
其他好文 时间:
2017-03-12 15:01:43
阅读次数:
658