深入理解spark－rdd详解

时间：2018-10-21 19:38:49 阅读：136 评论：0 收藏：0 [点我收藏+]

标签：lock 详解 distrib bsp ase info gem 也会分布式存储

1.我们在使用spark计算的时候，操作数据集的感觉很方便是因为spark帮我们封装了一个rdd（弹性分布式数据集Resilient Distributed Dataset）；

那么rdd数据本身是如何存储的呢，又是如何调度读取的？

spark大部分时候都是在集群上上运行的，那么数据本身一定是也是分布式存储的，数据是由每个Excutor的去管理多个block的，而元数据本身是由driver的blockManageMaster来管理，当每个excutor创建的时候也会创建相对应的数据集管理服务blockManagerSlave，当使用某一些block时候，slave端会创建block并向master端去注册block，同理删除某些block时候，master向slave端发出申请，再有slave来删除对应的block数据。由此可见，实际上物理数据都excutor上，数据的关系管理由driver端来管理。

rdd架构图如下：

技术分享图片

未完待续。。。。。

深入理解spark－rdd详解

标签：lock 详解 distrib bsp ase info gem 也会分布式存储

原文地址：https://www.cnblogs.com/yankang/p/9826140.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行