标签:style color os io java ar art cti sp
spark对内存有一定的要求,内存不够会因为gc而oom。
1、默认情况下,一个worker的内存0.6用于cache,0.4用于task,可以通过设置该值提高每个worker的cache大小
spark.storage.memoryFraction 0.8
2、设置并行task数,提高reducer效率
spark.default.parallelism 10
这个在1.0.2版本中会出现java.lang.IllegalArgumentException: Can‘t zip RDDs with unequal numbers of partitions的错误,这在PR1763已经解决
3、spark临时目录
spark.local.dir /data/spark/tmp
在1.0上会被SPARK_LOCAL_DIRS (Standalone, Mesos),LOCAL_DIRS (YARN) 环境变量覆盖
标签:style color os io java ar art cti sp
原文地址:http://blog.csdn.net/cklsoft/article/details/39032119