深入探究Spark -- RDD详解

时间：2018-03-06 23:16:00 阅读：180 评论：0 收藏：0 [点我收藏+]

标签：分享 image 引入查点依赖包调用 com core 容错

Spark最基本、最根本的数据抽象

RDD基于内存，提高了迭代式、交互式操作的性能

RDD是只读的，只能通过其他RDD批量操作来创建，提高容错性另外RDD还具有位置感知性调度和可伸缩性

RDD只支持粗粒度转换，记录Lineage，用于恢复丢失的分区，从物理存储的数据计算出相应的RDD分区

RDD的5个主要属性：

1.一组分片，默认的分片个数等于core数。BlockManager进行分配。

2.一个compute计算分区函数，对迭代器进行复合，以分片为单位

3.RDD之间的依赖关系，使数据丢失时，只对部分分区数据重新计算

4.一个partitioner分片函数，分为基于Hash哈希和Range范围的，只有key-value的RDD才有

5.一个列表，存储partition的优先位置

两种方式创建RDD：

已存在的集合创建
外部数据集创建

RDD的转换：

RDD的动作：

RDD的缓存：

也称为持久化，实现了重用，是迭代式算法和交互式查询的关键

通过cache（）方法标记为缓存

RDD的检查点：

避免缓存丢失过多带来的计算开销

调用org.apache.spark.rdd.RDD#checkpoint()指定检查点

RDD的依赖关系：

窄依赖和宽依赖

窄依赖：一个parent RDD的partition最多被子RDD的一个partition依赖

宽依赖：多个子RDD的partition依赖同一个parent RDD的partition

窄依赖包括的函数：

map、filter、union，仅仅和已知的partition进行join，都是窄依赖，不会引入昂贵的shuffle，partition互相独立，计算任务可以并行执行

宽依赖包括的函数：

groupByKey、需要parent RDD的所有partition进行join，都属于宽依赖，需要shuffle过程

支持两种shuffle manager，hash和sort

DAG生成：

RDD的依赖关系，生成了逻辑上的DAG

Spark根据宽依赖将DAG划分成不同的stage

RDD的计算：

一系列转换后，最后一个RDD触发动作，生成Job，划分到Task中，提交集群上的计算节点，最终由Executor执行计算

task分为ShuffleMapTask和ResultTask，其中为结果生成的ResultTask被发送到Executor中

缓存的处理：

cacheManager，RDD可更简单从Storage读写。

通过getOrCompute判断是否计算

checkpoint处理：

没有缓存的情况下，判断是否有checkpoint，没有就开始计算

RDD的容错机制：

基于Lineage

stage之间的依赖关系可以认为就是Lineage

Tachyon 两个维度容错，元数据容错（元数据保存到Image文件中，并保存变化到EditLog中），另一个就是Lineage容错机制

最后强调：RDD不需要物化！！

深入探究Spark -- RDD详解

标签：分享 image 引入查点依赖包调用 com core 容错

原文地址：https://www.cnblogs.com/kinghey-java-ljx/p/8519012.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行