搜索关键字：王家林spark，搜索到14个结果！码迷,mamicode.com！

王家林每日大数据语录Spark篇0020（2015.11.11于重庆）

Spark中生成的不同的RDD中有的喝用户的逻辑显式的对于，例如map操作会生成MapPartitionsRDD，而又的RDD则是Spark框架帮助我们隐式生成的，例如reduceByKey操作时候的ShuffledRDD.

分类：其他好文时间：2015-12-16 12:49:23 阅读次数：148

王家林每日大数据语录Spark篇0019（2015.11.10于重庆）

park中的Task分为ShuffleMapTask和ResultTask两种类型，在Spark中DAG的最后一个Stage内部的任务都是ResultTask，其余所有的Stage(s)的内部都是ShuffleMapTask，生成的Task会被Driver发送到已经启动的Executor中执行具体的计算任务，执行的实现是在TaskRunner.run方法中完成的。

分类：其他好文时间：2015-12-16 12:48:54 阅读次数：158

王家林每日大数据语录Spark篇0022（2015.11.18于珠海）

SparkCheckpoint通过将RDD写入Disk做检查点，是Sparklineage容错的辅助，lineage过长会造成容错成本过高，这时候在中间阶段做检查点容错，如果之后有节点出现问题而丢失分区，从做检查点的RDD开始重做Lineage，就会减少开销。Checkpoint主要适用于以下两种情况：1.DAG中的Linea..

分类：其他好文时间：2015-12-16 12:48:23 阅读次数：134

Spark视频王家林 Spark公开课大讲坛第二期： Spark的Shark和SparkSQL

王家林 Spark公开课大讲坛第一期：Spark把云计算大数据速度提高100倍以上 http://edu.51cto.com/lesson/id-30816.html Spark实战高手之路系列书籍 http://down.51cto.com/tag-Spark%E6%95%99...

分类：数据库时间：2014-08-14 10:32:38 阅读次数：218

共14条上一页 1 2

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)