spark新能优化之shuffle新能调优

时间：2016-07-13 20:42:37 阅读：127 评论：0 收藏：0 [点我收藏+]

标签：

shuffle调优参数

new SparkConf().set("spark.shuffle.consolidateFiles", "true")

spark.shuffle.consolidateFiles：是否开启shuffle block file的合并，默认为false//设置从maPartitionRDD上面到到下个stage的resultTask时数据的传输快可以聚合（具体原理可以看下shuffle的原理设置和没设置的区别）
spark.reducer.maxSizeInFlight：reduce task的拉取缓存，默认48m//设置拉取的缓存大,可以一次性拉取比较多的数据量达到减少拉取数据的次数
spark.shuffle.file.buffer：map task的写磁盘缓存，默认32k//设置磁盘buff缓存,减少溢写到磁盘的次数，从而加高buff处的性能
spark.shuffle.io.maxRetries：拉取失败的最大重试次数，默认3次//此处可以防止mirror GC或者Full GC的时候task线程被java的垃圾回收线程给占用,造成拉取失败,如果重试次数为3每次5秒,总共才15秒，FullGC是1分钟的话。就时间远远不够。spark会认为拉取失败报错甚至导致这个application崩溃
spark.shuffle.io.retryWait：拉取失败的重试间隔，默认5s//同上
spark.shuffle.memoryFraction：用于reduce端聚合的内存比例，默认0.2，超过比例就会溢出到磁盘上//设置或者加大reduce内存比可以加大reduce的内存减少溢写磁盘的次数

spark新能优化之shuffle新能调优

标签：

原文地址：http://www.cnblogs.com/yaohaitao/p/5667740.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行