simrank算法综合

时间：2020-02-28 18:55:18 阅读：60 评论：0 收藏：0 [点我收藏+]

1，栈溢出问题，主要原因：每个RDD会存储他的祖先，以便发生错误的时候，能够利用这种关系再次生成。算法类的spark程序，因为会迭代很多次，这种关系会变得很巨大，引发栈溢出问题

　　* 设置检查点

            val sc = new SparkContext(conf)
            sc.setCheckpointDir("/home/img/libin5/spark_checkpoint")

　　* 设置栈空间的大小：

    --conf spark.driver.extraJavaOptions="-Xss80m"    
    --conf spark.executor.extraJavaOptions="-Xss80m "

3，文件覆盖问题

.set("spark.hadoop.validateOutputSpecs","false")

4，mllib当中fpgrowth 会产生,序列化问题

　　set("spark.serializer", "org.apache.spark.serializer.JavaSerializer")，

原文地址：https://www.cnblogs.com/hisoka176/p/12378417.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行