码迷,mamicode.com
首页 > 其他好文 > 详细

Spark源码学习和总结1

时间:2016-07-04 18:45:10      阅读:140      评论:0      收藏:0      [点我收藏+]

标签:

一. Spark源码编译

解析:

wget http://archive.apache.org/dist/spark/spark-1.6.0/spark-1.6.0-bin-hadoop2.6.tgz
gtar -zxvf spark-1.6.0-bin-hadoop2.6.tgz
cd spark-1.6.0-bin-hadoop2.6
./sbt/sbt gen-idea

说明:漫长的等待后,上述命令生成SBT工程,我们就可以使用IDEA以SBT Project的方式打开。

 

二. RDD实现详解

通过persist()或cache()方法可以持久化RDD,cache()是使用persist()的快捷方式。为了避免缓存丢失重新计算带来的开销,我们可以使用Spark的checkpoint机制,这样当下游的RDD出错时,便可以从checkpoint过的RDD那里继续开始计算即可。

 

三. Scheduler模块详解

 

四. Deploy模块详解

 

五. Executor模块详解

 

六. Shuffle模块详解

 

七. Storage模块详解

 

参考文献:

[1] Scala教程:简单构建工具SBT:http://www.importnew.com/4311.html

[2] Spark的Cache和Checkpoint:http://www.fuqingchuan.com/2015/06/949.html?utm_source=tuicool&utm_medium=referral

[3] Spark技术内幕:深入理解Spark内核架构设计与实现原理

Spark源码学习和总结1

标签:

原文地址:http://www.cnblogs.com/shengshengwang/p/5641321.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!