标签:put bin poi lib exec 大小 pac 原因 col
1,栈溢出问题,主要原因:每个RDD会存储他的祖先,以便发生错误的时候,能够利用这种关系再次生成。算法类的spark程序,因为会迭代很多次,这种关系会变得很巨大,引发栈溢出问题
* 设置检查点
val sc = new SparkContext(conf) sc.setCheckpointDir("/home/img/libin5/spark_checkpoint")
* 设置栈空间的大小:
--conf spark.driver.extraJavaOptions="-Xss80m" --conf spark.executor.extraJavaOptions="-Xss80m "
3,文件覆盖问题
.set("spark.hadoop.validateOutputSpecs","false")
4,mllib当中fpgrowth 会产生,序列化问题
set("spark.serializer", "org.apache.spark.serializer.JavaSerializer"),
标签:put bin poi lib exec 大小 pac 原因 col
原文地址:https://www.cnblogs.com/hisoka176/p/12378417.html