调优概述
大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优...
分类:
其他好文 时间:
2016-05-27 11:43:37
阅读次数:
210
调优概述
大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优的基...
分类:
其他好文 时间:
2016-05-18 18:59:14
阅读次数:
148
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。
然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合理的调优,Spark作业的执行速度可能会很慢,这样就完全体现不出Spa...
分类:
其他好文 时间:
2016-05-18 18:58:10
阅读次数:
209
调优概述
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。
数据倾斜发生时的现象
1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个tas...
分类:
其他好文 时间:
2016-05-18 18:58:03
阅读次数:
221
1、内存 spark.storage.memoryFraction:很明显,是指spark缓存的大小,默认比例0.6 spark.shuffle.memoryFraction:管理executor中RDD和运行任务时的用于对象创建内存比例,默认0.2 关于这两个参数的设置,常见的一个场景就是操作关系 ...
分类:
其他好文 时间:
2016-04-25 00:44:56
阅读次数:
136
Spark特别适用于多次操作特定的数据,分mem-only和mem & disk。当中mem-only:效率高,但占用大量的内存,成本非常高;mem & disk:内存用完后,会自己主动向磁盘迁移,攻克了内存不足的问题,却带来了数据的置换的消费。Spark常见的调优工具有nman、Jmeter和Jp
分类:
其他好文 时间:
2016-02-02 20:41:00
阅读次数:
280
Apache Spark社区2015年9月9日发布了1.5版本,该版本由230+开发人员和80+机构参与,修复了1400多个补丁,该版本可以通过 http://spark.apache.org/downloads.html进行下载。Spark1.5中最主要的修改内容是为了提升Spark性能、可用性和...
分类:
Web程序 时间:
2015-09-15 18:06:55
阅读次数:
262
Spark性能优化的10大问题及其解决方案问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太少,任...
分类:
其他好文 时间:
2015-09-09 13:19:06
阅读次数:
123
随着Spark的逐渐成熟完善,越来越多的可配置参数被添加到Spark中来,本文试图通过阐述这其中部分参数的工作原理和配置思路,和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里:http://spark-config...
分类:
其他好文 时间:
2015-09-08 18:15:35
阅读次数:
288
随着Spark的逐渐成熟完善,越来越多的可配置参数被添加到Spark中来,本文试图通过阐述这其中部分参数的工作原理和配置思路,和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里:http://spark-config...
分类:
其他好文 时间:
2015-09-08 18:14:11
阅读次数:
275