RDD持久化、广播、累加器实质上分别涉及了RDD的数据如何保存,RDD在构建高效算法的时候涉及了persist或者checkpoint,以及广播和累加器,通过spark-shell可以试验一些小功能,spark-shell本身是spark的发行包推出的一个程序,通过这个程序可以直接写代码,spark-shell会把代码..
分类:
其他好文 时间:
2016-05-08 12:09:39
阅读次数:
1173
内容:1、RDD持久化实战;2、Spark广播实战;3、Spark累加器实战;持久化实战几个方面:1、怎么保存结果;2、实现算法的时候cache、persist;3、checkpoint广播:构建算法至关重要,降低网络传输数据量、提高内存的使用效率、加快程序的运行速度累加器:全局的指针部件的变量,..
分类:
其他好文 时间:
2016-02-21 06:49:42
阅读次数:
646
昨晚听了王家林老师的Spark IMF传奇行动第18课:RDD持久化、广播、累加器,作业是unpersist试验,阅读累加器源码看内部工作机制:scala> val rdd = sc.parallelize(1 to 1000)rdd: org.apache.spark.rdd.RDD[Int] =...
分类:
其他好文 时间:
2016-01-24 12:52:11
阅读次数:
471