码迷,mamicode.com
首页 > 其他好文 > 详细

王家林每日大数据语录Spark篇0022(2015.11.18于珠海)

时间:2015-12-16 12:48:23      阅读:134      评论:0      收藏:0      [点我收藏+]

标签:王家林   王家林spark   王家林语录   

Spark Checkpoint通过将RDD写入Disk做检查点,是Spark lineage容错的辅助,lineage过长会造成容错成本过高,这时候在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减少开销。Checkpoint主要适用于以下两种情况:1. DAG中的Lineage过长,如果重算时会开销太大,例如在PageRank、ALS等;2. 尤其适合于在宽依赖上做Checkpoint,这个时候就可以避免应为Lineage重新计算而带来的冗余计算。


本文出自 “王家林大数据语录” 博客,请务必保留此出处http://wangjialin2dt.blog.51cto.com/10467465/1723419

王家林每日大数据语录Spark篇0022(2015.11.18于珠海)

标签:王家林   王家林spark   王家林语录   

原文地址:http://wangjialin2dt.blog.51cto.com/10467465/1723419

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!