Spark开源学习模块

时间：2014-06-03 04:07:29 阅读：263 评论：0 收藏：0 [点我收藏+]

Spark开源的各模块组成结构：

1. Narrow dependency——窄依赖，子RDD依赖于父RDD中固定的data partition。

2. Stage——分为多个阶段进行作业。

3. Wide Dependency——宽依赖，子RDD对父RDD中的所有data partition依赖。

4. RDD——Resillient Distributed Dataset 分布式数据集。

5. Operation——作用于RDD的各种操作分为transformation和action。

6. Job——作业，一个JOB包含多个RDD及作用于相应RDD上的各种operation。

7. Partition——数据分区，一个RDD中的数据分成不同的多个区。

8. DAG——Directed Acycle graph，有向无环图，RDD之间的依赖关系。

9. Caching Managenment——缓存管理，对RDD的中间计算结果进行缓存管理以加快整体的处理速度。

参考资料（reference）
1.Lightning-Fast Cluster Computing with Spark and Shark
2.Introduction to Spark Internals
3.Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing

Spark开源学习模块,布布扣,bubuko.com

Spark开源学习模块

标签：开源 spark 分布式结构

原文地址：http://blog.csdn.net/ejinxian/article/details/27582463

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行