码迷,mamicode.com
首页 > 编程语言 > 详细

simrank算法综合

时间:2020-02-28 18:55:18      阅读:60      评论:0      收藏:0      [点我收藏+]

标签:put   bin   poi   lib   exec   大小   pac   原因   col   

1,栈溢出问题,主要原因:每个RDD会存储他的祖先,以便发生错误的时候,能够利用这种关系再次生成。算法类的spark程序,因为会迭代很多次,这种关系会变得很巨大,引发栈溢出问题

  * 设置检查点

            val sc = new SparkContext(conf)
            sc.setCheckpointDir("/home/img/libin5/spark_checkpoint")

 

  * 设置栈空间的大小:

    --conf spark.driver.extraJavaOptions="-Xss80m"    
    --conf spark.executor.extraJavaOptions="-Xss80m " 

 

3,文件覆盖问题

.set("spark.hadoop.validateOutputSpecs","false")

4,mllib当中fpgrowth 会产生,序列化问题

  set("spark.serializer", "org.apache.spark.serializer.JavaSerializer"),

simrank算法综合

标签:put   bin   poi   lib   exec   大小   pac   原因   col   

原文地址:https://www.cnblogs.com/hisoka176/p/12378417.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!