码迷,mamicode.com
首页 >  
搜索关键字:王家林spark    ( 14个结果
王家林每日大数据语录Spark篇0020(2015.11.11于重庆)
Spark中生成的不同的RDD中有的喝用户的逻辑显式的对于,例如map操作会生成MapPartitionsRDD,而又的RDD则是Spark框架帮助我们隐式生成的,例如reduceByKey操作时候的ShuffledRDD.
分类:其他好文   时间:2015-12-16 12:49:23    阅读次数:148
王家林每日大数据语录Spark篇0019(2015.11.10于重庆)
park中的Task分为ShuffleMapTask和ResultTask两种类型,在Spark中DAG的最后一个Stage内部的任务都是ResultTask,其余所有的Stage(s)的内部都是ShuffleMapTask,生成的Task会被Driver发送到已经启动的Executor中执行具体的计算任务,执行的实现是在TaskRunner.run方法中完成的。
分类:其他好文   时间:2015-12-16 12:48:54    阅读次数:158
王家林每日大数据语录Spark篇0022(2015.11.18于珠海)
SparkCheckpoint通过将RDD写入Disk做检查点,是Sparklineage容错的辅助,lineage过长会造成容错成本过高,这时候在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减少开销。Checkpoint主要适用于以下两种情况:1.DAG中的Linea..
分类:其他好文   时间:2015-12-16 12:48:23    阅读次数:134
Spark视频 王家林 Spark公开课大讲坛第二期: Spark的Shark和SparkSQL
王家林 Spark公开课大讲坛第一期:Spark把云计算大数据速度提高100倍以上 http://edu.51cto.com/lesson/id-30816.html Spark实战高手之路 系列书籍 http://down.51cto.com/tag-Spark%E6%95%99...
分类:数据库   时间:2014-08-14 10:32:38    阅读次数:218
14条   上一页 1 2
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!