Spark中生成的不同的RDD中有的喝用户的逻辑显式的对于,例如map操作会生成MapPartitionsRDD,而又的RDD则是Spark框架帮助我们隐式生成的,例如reduceByKey操作时候的ShuffledRDD.
分类:
其他好文 时间:
2015-12-16 12:49:23
阅读次数:
148
park中的Task分为ShuffleMapTask和ResultTask两种类型,在Spark中DAG的最后一个Stage内部的任务都是ResultTask,其余所有的Stage(s)的内部都是ShuffleMapTask,生成的Task会被Driver发送到已经启动的Executor中执行具体的计算任务,执行的实现是在TaskRunner.run方法中完成的。
分类:
其他好文 时间:
2015-12-16 12:48:54
阅读次数:
158
SparkCheckpoint通过将RDD写入Disk做检查点,是Sparklineage容错的辅助,lineage过长会造成容错成本过高,这时候在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减少开销。Checkpoint主要适用于以下两种情况:1.DAG中的Linea..
分类:
其他好文 时间:
2015-12-16 12:48:23
阅读次数:
134
王家林 Spark公开课大讲坛第一期:Spark把云计算大数据速度提高100倍以上 http://edu.51cto.com/lesson/id-30816.html
Spark实战高手之路 系列书籍 http://down.51cto.com/tag-Spark%E6%95%99...
分类:
数据库 时间:
2014-08-14 10:32:38
阅读次数:
218