码迷,mamicode.com
首页 > 其他好文 > 详细

Spark开源学习模块

时间:2014-06-03 04:07:29      阅读:263      评论:0      收藏:0      [点我收藏+]

标签:开源   spark   分布式   结构   

Spark开源的各模块组成结构:

1. Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。

2. Stage——分为多个阶段进行作业。

3. Wide Dependency——宽依赖,子RDD对父RDD中的所有data partition依赖。

4. RDD——Resillient Distributed Dataset 分布式数据集。
 
5. Operation——作用于RDD的各种操作分为transformation和action。
 
6. Job——作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation。
 
7. Partition——数据分区, 一个RDD中的数据分成不同的多个区。

8. DAG——Directed Acycle graph,有向无环图,RDD之间的依赖关系。
 
9. Caching Managenment——缓存管理,对RDD的中间计算结果进行缓存管理以加快整体的处理速度。


参考资料(reference)
1.Lightning-Fast Cluster Computing with Spark and Shark
2.Introduction to Spark Internals
3.Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing

Spark开源学习模块,布布扣,bubuko.com

Spark开源学习模块

标签:开源   spark   分布式   结构   

原文地址:http://blog.csdn.net/ejinxian/article/details/27582463

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!