码迷,mamicode.com
首页 > 其他好文 > 详细

spark新能优化之多次使用RDD的持久化或checkPoint

时间:2016-07-13 22:46:19      阅读:204      评论:0      收藏:0      [点我收藏+]

标签:

如果程序中,对某一个RDD,基于它进行了多次transformation或者action操作。那么就非常有必要对其进行持久化操作,以避免对一个RDD反复进行计算。

此外,如果要保证在RDD的持久化数据可能丢失的情况下,还要保证高性能,那么可以对RDD进行Checkpoint操作。(也就是多次用到中间RDD的生成值时可以持久化再checkPoint(当持久化数据没的时候会去checkPoint中寻找,详细见spark源码。))

spark新能优化之多次使用RDD的持久化或checkPoint

标签:

原文地址:http://www.cnblogs.com/yaohaitao/p/5667769.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!